揭秘阿里打假AI大脑:数据总量186个国家图书馆,1 AI=50000人类,获创新大奖
另一项体现场景挑战和技术水平的是安全场景特有的对抗性问题。
本文引用地址:http://www.amcfsurvey.com/article/201908/403730.htm售假卖家往往会通过改变“标题”和“描述”以躲避传统规则和模型的识别,但这并非完全无迹可寻。
混淆语言是一种被用于在对抗交流场景下实现规避检测的技术手段。
对抗交流场景包括敏感信息传播、负面情感表达、秘密行动策划以及违法交易等。混淆语言的实现方式通常是在原始文本里进行变异词的替换。
监管机构在识别此类文本时,需要根据一组关键词进行扫描过滤。尽管引入了一些语义扩展技术,但是由于文本中的歧义性以及变异的无边界,导致识别此类文本的准确率和召回率都十分有限。
阿里在WWW 2019上发表的论文,集中披露了该方向上的核心进展。
该论文的主要思路是将混淆语言识别转化为一个文本匹配任务,即每条待检测信息,是否匹配一个扫描关键词,并且同时整合了文本信息的文本表示和视觉表示。
这里的视觉表示指的是文字自身的视觉效果,而不是信息中的图片,主要是因为在进行文本变异混淆时,经常会出用一些看起来像的字符进行替换,这种变异导致了混淆后的内容在语义上可能已经跟原始内容没有任何关联,但是从视觉效果上却可以产生联系。
阿里的模型利用BiLSTM对文本特征进行表示,通过基于模板匹配的方式对视觉特征进行表示,通过多模态的整合,可以比传统方法表现出更高的准确率和召回率。
另外就是结合图像视频和自然语言处理的多模态任务解决方法。
论文发表于ICASSP 2019,其中列举的任务也颇有意思:通过一段文本描述,自动地编辑源图像使其符合给出的文本描述,从而简化图像编辑流程,是一种基于文本的图像编辑方法。电商网站中的商品本身就是文字与图片的混合内容,因此可以期待这项技术可以加强对商品内涵的理解,更有助于发现假、劣商品。
感兴趣的盆友可移步传送门:http://arxiv.org/abs/1903.07499
最后再介绍一项业内sexy,且对打假AI贡献不小的技术进展:小样本学习。
假货问题(安全问题)中最头疼的点,莫过于对新出现的风险缺乏足够训练的样本,导致诸多优秀机器学习算法望而却步。
在CVPR 2018上,阿里安全图灵实验室团队,围绕业内前沿的“零样本视频检索”挑战,给出解决方案。
视频检索,通常要在文本和视频之间提取跨模态相关性,需要基于内容匹配。
但阿里的方法之不同,在于提出了一种内容无关的方法,通过双重深度编码网络来将视频和文本编码为各自模态的密集式表征。
并且双重编码概念简单、切实有效,还可以端到端学习。
在三个基准数据集MSR-VTT、TRECVID2016、2017上实验后,证明阿里提出的零样本视频检索方法已达到目前最佳。
论文传送门:http://arxiv.org/abs/1809.06181
就在最近的机器学习顶会IJCAI-2019上,阿里安全成功举办了第一届AAAC竞赛(Alibaba Adversarial AI Challenge)以及AIBS研讨会(Artificial Intelligence for Business Security),旨在探索面临对抗攻击时,如何解决AI模型的安全性问题。竞赛和会议吸引了来自24个国家和地区的2000多支队伍参与,过程中涌现出不少新思路和新方法,极大地推动了这一领域的发展。
“AI发展趋势是一定的,但AI应用来解决安全问题时并不能生搬硬套,需要根据实际场景进行AI的技术升级,”薛晖在今年年初的公开采访中就指出,安全会成为未来AI开发的最大挑战, “安全AI”会成为未来网络安全问题的新解法,也将在2019年迎来爆发期。
如今阿里“知产保护科技大脑”的成功实践不断得到行业乃至全球的认可,正印证了这一断言。
阿里打假AI,用技术解决社会问题
打假AI大脑成功,幕后原因并不难分析。这也会是阿里各项业务在AI时代里还会更繁荣的保证。
打假作为综合因素导致的社会问题,利用AI等技术实现其实并非易事,没有对比,可能就难看出诚心诚意。
比如美国电商巨头亚马逊,其实也在今年新推出一项名为“Project Zero”的打假防伪项目,通过与品牌方合作,打击消除假货。
但在具体技术机制上,就目前披露情况而言,相较阿里的打假AI大脑,技术上稍逊一筹。
因为亚马逊的打假AI,还需要合作品牌提供logo、商标和其他信息,甚至让品牌方利用工具标记并禁止仿冒品。
仍更多依赖监督学习的方式,自动化程度和AI通用能力还相对不足,对于阿里无监督、小数据学习和系统性大脑,技术能力和挑战,高下立判。
所以也难怪美国众议院司法委员会副主席道格·柯林斯在调研了亚马逊、eBay、阿里在内的电商平台后,给出评价:“阿里巴巴的打假政策和项目比任何美国同行都有效得多。”
阿里之道の一以贯之
最后,阿里的做事方式,依然值得关注。
宏观层面来看,知产保护科技大脑,依然是又一次阿里式创新的成功。
打假难题,源头在社会发展阶段和人性劣根处。面临的挑战,跟电商、支付、物流、计算和自主芯片,本质相同,困难无差。
但阿里之道一以贯之,为打假而生的AI大脑系统,依然是淘宝天猫、支付宝、阿里云,菜鸟和平头哥模式的延续:
技术驱动,打造系统平台,从根本上解决问题。而且侠之大者,未来也会兼济天下,赋能各行各业甚至各国,能力所至,皆受其益。
会有那么一天,天下再无假货吗?梦想或许还是可以有的。
毕竟 AI can do,Ali is doing……
评论