计算机在哪些领域已经超越了人类?准确地回答这个问题有助于我们更好地理解 AI 和自己。非盈利组织电子前哨基金会(EFF)的几位研究员整理了一份可能是目前最完善的资料,梳理了计算机已经超越人类水平的任务列表。一项项看过去,不啻纵览人工智能的发展,同时也能帮助我们将目光放到接下来要解决的问题上。列表持续更新,欢迎大家补充。
这是一个试验项目,旨在从AI研究的文献收集问题和指标/数据集,人工智能的进展情况。在这个项目页面你可以查看特定子领域,或查看AI/ML的整体进展现状。你可以把它作为报告你的新的地方,或作为寻找可以受益于新的数据集/指标的问题的地方,或作为一个数据科学项目的来源。
EFF 的研究人员 Peter Eckersley 和 Yomna Nasser 想要知道 AI 的发展进程,从而对其潜在应用得出更好的理解。在 EEF 的另外两名研究人员 Gennie Gebhart 和 Owain Evans 的辅助下,他们汇集了大量的资料——为了理解问题,先从收集资料开始。
衡量(measurement)是一个特定算法(algorithm)在一个特定实例(instance)上以特定的指标(metric)能够得到的分数。
问题被标记了属性,例如:视觉,抽象游戏,语言,现实世界建模,安全,等。其中一些问题与人类表现有关(当然这常任意的标准,但我们熟悉这样的标准):
“指标”(metric)是衡量问题进展的一种方式,通常与测试数据集有关。给定的一个问题同参更会有几个metric,但有时是从0开始,并需要提出一些metric…
视觉领域中,最简单的子问题可能是图像分类,也即让计算机识别图像中存在什么物体。从 2010 年到 2017 年,ImageNet 竞赛一直是业界密切关注的热点。
图像分类不仅包括识别图像中的单个物体,还包括对它们进行定位,并且确定哪些像素属于哪个物体。MSRC-21 指标是专门为此任务而建的:
理解图像涉及的不仅仅是识别其中的物体或实体,也包括从图像中识别事件、关系和场景。理解图像不仅需要进行图像识别,还要掌握语言、世界建模和“图像理解”(image comprehension)。目前在这方面有几个数据集。下图来自 VQA,其中图像来自 Microsoft COCO 图像集,问题和问答都是由 Amazon Mechanical Turk 工作人员提出的。
最具代表性的是,在图像识别任务上,2016 年,微软亚洲研究院(MSRA)首先超越人类水平(红色虚线,下同)。
不过,在看图问答问题方面,计算机距离人类水平还有一定距离。下图是 COCO VAQ 1.0 问答任务,根据目前统计结果,计算机距离人类水平还有十几个百分点。
总体上,游戏是一个高效的式研究框架, 所有的智能都能在游戏中捕捉到。但是,抽象的游戏,比如象棋、围棋和跳棋等,可以在不需要人类世界或者物理世界知识的前提下玩。
虽然,这一领域大部分的游戏已经被计算机攻克,达到了超越人类的水平,但是现在仍然有一些游戏需要解决,特别是,考虑到不同的起点,一些游戏需要智能体从任意的抽象游戏中有效地学习规则(例如,对规则的文本描述或者是正确玩法的例子)。
复杂的抽象策略游戏中,机器系统已经达到了超越人类的水平。其中一些是规则的和式的(heuristics),在一些例子中,则结合了机器学习的技术。
抽象策略游戏的代表之一是国际象棋,我们都记得 1997 年 5 月 11 日,IBM 的 Deep Blue 对战国际象棋大师卡斯帕洛夫并取得胜利。不过,Deep Blue 在这份统计中,并不算作计算机玩国际象棋超越人类(见图中 Deep Blue 红色拐点)。
根据这份统计,2006 年 5 月 27 日,英国计算机国际象棋程序 Rybka 1.164 bit 取胜才算开了先河。这之后,计算机国际象棋程序表现越来越好,超越人类水平。
计算机视频游戏是一个非常的领域,很可能,现在或者未来的一些游戏过于复杂,进而成为“AI专属”的。同时,在一些进阶的游戏中,随着复杂度的不断增加,我们可能会看到很多有趣的进步。
Atari 2600 Alien:人类的平均水平在6800分左右。2015年3月,DQN模型的得分是在3000分左右。2015年11月底,DDQN得分逼近4000,Duel得分超过4500,但是距离梦见鞭炮声人类水平都还有一定的差距。
人类语音识别的词错率约为5.9%,放大上图可见,最右边的CNN-LSTM,Microsoft 2016等几个模型达到或接近人类水平。
基于CIFAR-10数据集的图像生成模型,纵坐标表示图像熵(bits per pixel)。
文本压缩(text compression)是衡量机器学习系统对人类语言建模的能力的一种方式。Shannon 1951年的经典论文(Prediction and Entropy ofPrinted English)提出英语字母的信息量在0.6~1.3比特之间:人类比传统的算法能更好地预测在一段文字中可能出现的下一个字符。更近一些的研究(Moradi 1998)提出与文本相关的信息量是每个字符1.3比特左右(不同的文本可能更高)。
纵坐标表示预测准确率,人类表现超过80%。最新的一些模型,只有MAGE (48)的准确率达到51.6%,其余均低于50%。
两图是以BLEU得分为指标的翻译模型进展,红色虚线表示人类专业译员的水平。当前最好的一些模型(MoE 2048,GNMT+RL)的BLEU得分基本上远低于人类的表现。
对话是衡量AI进步的经典指标。图灵测试是让一个人类去判断与真实的人聊天和与计算机聊天的差异。图灵测试更简单的变体是,判断者处理的是更加随意、更少探查性的各种方式的对话。
Loebner(TheLoebner Prize)是一个年度的活动,运行的是图灵测试的一个版本。自2014年设立以来,这个活动向参赛者提供标准形式的测试,并对结果进行评分(每个问题都以可信/半合理/不合理进行评级)。这个指标不是固定的,因为每年测试的问题都会变,这个指标某种程度上可以代表AI对线年的示例:
Facebook BABI 20 QA数据集是一个基本的(现在解决的)阅读理解任务的例子。它涉及学习回答简单的推理问题,如下图所示:
99%的正确率被标记为“非常好的表现”,最新的2个模型(QRN和EntNet)的准确率超过了99%,图中所有这些模型正确率均超过90%,具体如下:
能够阅读和理解科学、技术、工程和医疗文件,虽然与普通阅读理解相关,但这些任务要困难得多,因此单独列出作为一类。其中一些也属于“超级智能”问题,因为在人类中,也只有极少部分的人能阅读 STEM 论文,更少部分的人能正确理解跨领域的 STEM 论文。
具体说,是从自然语言条件(通常会包含各种不确定性)中生成计算机程序。对此,现在至少有一个很好的衡量指标/数据集,那就是 DeepMind“card2code”数据集(),生成游戏《炉石传说》的魔法卡片的代码。
从下图可见,截止 2017 年 6 月,计算机距离无 Bug 程序部署这一标准尚有距离,更不用说人类标准了——以 100% 的正确率编写《炉石传说》魔法卡片的代码。
学会学习包括泛化和迁移学习的能力。机器学习系统在解决具体问题方面取得了长足的进展。但我们知道,人类有能力进行迁移学习学习——举一反三的能力。此外,人类的通用性也很强,一个人能够做各种各样的事情,并且根据情况要求学习新的事物。
“安全”对于 AI 和机器学习系统可以代表许多事情。在某些情况下,是关于确保系统满足各种条件,一般或特别是某些关键的安保目的,例如自动驾驶车辆正确检测行人。
对于计算机安全而言,自动化工具在性任务和防御性任务两方面都变得越来越有效。在防御方面,资源丰富的软件开发团队已经使用了模糊程序和静态分析工具,减少系统运行代码中的漏洞数量。在协助和协助防御方面,DARPA 最近开始了“Cyber Grand Challenge 挑战赛”,衡量和提高智能体入侵系统或防御同一系统遭受入侵的能力。
这部分也包括一些明确的 AI 问题(比如学习在代码中发现可利用的漏洞),以及一些不那么明确的 AI 问题,例如确保将这种技术的防御版本(包括 fuzzer、IPS 等)在所有关键系统中都得到部署。
从图像或视频中检测行人是一类特定的图像分类问题,由于对自动驾驶汽车很重要而得到很多关注。这方面的许多指标都基于 Caltech pedestrians toolkit。
做出有的决策是简单的机器学习分类器和复杂的 ML 分类器都会出现的问题。主要原因包括忽略变量偏差、依靠包含了固有偏差的数据源进行训练,尝试在数据不足的情况下做出预测,以及在现实中部署系统,但这些系统在使用时会产生影响其行为的结果(参见 Goodharts Law)。这些问题常见于刑事司法、教育政策、保险和贷款领域的评分系统和机器学习系统。
本文由 恒宇国际(www.neivn.cn)整理发布
网友评论 ()条 查看