王昱珩在“寻找网红童年照”环节进行观察。
人脸识别机器人“蚂可”。
6月30日下午5时许,杭州西湖区凤凰创意园一会场,一场人机识别极限对抗大赛正在进行。决战双方是有着超强微观识物能力、人称“鬼才之眼”的王昱珩和人脸识别机器人“蚂可”。双方挑战的“道具”———50名青春靓丽的网络红人身着统一的服装站在舞台一边,舞台另一侧大墙上密密麻麻地贴着数百张姑娘们的自拍照。
在公证员的见证下,观众从现场网红中随机抽取数位。对战双方需要对被选中者进行观察后,再从照片墙中挑出对应的照片。比赛共分三场且难度依次递进,前两个回合,双方打成平手。第三轮的“寻找网红童年照”却将人机双方置于极限挑战之中:十多年的成长脱变足以让人的容貌发生巨大改变,辨识难度巨大。21分48秒,王昱珩率先按下按钮,提交答案。7分钟后,机器人“蚂可”也完成了识别。答案揭晓:王昱珩成功认出一位网红的童年照,并放弃辨认另一位,而此轮“蚂可”辨识的两位网红照片都出现差错。
赛后,王昱珩笑称事先并不知道比赛内容也未经彩排,“她们(网红们)的变化真的太大了。”人脸识别机器人“蚂可”的研发团队负责人陈继东则说,人和机器各有所长,此次和人类最强大脑的P K,说明机器学习人类的大脑,“还有一段路要走。”
历史
利用人脸识别身份从“找规律”到“对号入座”
“利用人脸识别身份”,人类的这个想法其实早在百年以前就已经出现。早在1888年,达尔文的表弟、英国科学家弗朗西斯·高尔顿,在发表于《自然》杂志上的文章《对于人的识别与描述》就提出,用一组数字代表不同的人脸侧面特征,并且还对人类自身的人脸识别能力进行了分析。有关“自动人脸识别”最早的研究论文,至今也有五十年的历史。
直到上世纪九十年代,人脸识别一直都未能突破最初的瓶颈。这项技术在一开始被研究者们认为是一个一般性的模式识别问题,通俗地说就是“找规律”。不过,最初的这三十余年间,研究者们并没能取得多少非常重要的成果,更不要说“投入应用”了。
进入20世纪90年代,麻省理工学院人工智能实验室的一次实验,在对比了基于结构特征和基于模板匹配两种方法的识别性能之后,得出模板匹配的方法。其识别性能,要优于此前“基于特征”的方法。这次试验,基本终止了此前研究者们“找规律”的研究思路。
从1991年到1997年,基于“模板匹配”方法,诞生了若干具有代表性的人脸识别算法。最负盛名的当属麻省理工学院特克(T urk)和潘特(Pentland)提出的“特征脸”。这一方法的思路,是将许多张人脸图像变换到另一个子空间,将图像“降维”,用向量的形式表现出来,并在平均后得到平均向量,也就是一张“平均脸”。进而再通过计算得到“特征向量”即“特征脸”,并通过对每张人脸与“特征脸”相似性的计算,来实现最终的“识别”。和之前“找规律”的思路相比,这种思维更酷似于“对号入座”。
学习
“训练”机器人让人脸识别真正“落地”
与此同时,人工智能的发展也进入了新的阶段。人们不再满足于将计算机仅仅当成一种工具,而是在思考能否建立、模拟出人脑进行分析学习的神经网络,让机器能够模仿人脑的机制来解释数据。通俗地说,人们想让机器具备思维的能力,如同Google资深院士Jeff Dean所言,“我们现在最需要从机器学习中取得的是‘理解力’”。
2006年,基于这种想法,英国科学家H inton以自己此前对“人工神经网络”的研究为基础,提出了“深度学习”的概念。此后的几年里,H inton和他的N CA P团队逐渐建立了有效的深度学习算法,并且在2012年的Im ageN et比赛中完胜其他参赛团队。利用深度模型在竞赛中学习得到的特征,可以被广泛应用到其它数据集和各种计算机视觉的问题。而由Im ageN et训练得到的深度学习模型,更是推动计算机视觉领域发展的强大引擎。
2013年,Im ageN et大规模物体检测任务挑战中最高的检测率只有22.6%。目前,香港中文大学由欧阳万里、王晓刚和汤晓鸥教授带领的D eepID团队,将此项成绩大幅提高至50 。3%,达到全球最高。而在此之前,D eepID团队还在LFW人脸识别挑战上战胜了Facebook,并在全世界范围内首次实现了机器人脸识别算法超越人眼,获得了高达99.15%的识别率。
一旦具备“深度学习”这种能力,机器的人脸识别功能就可以变得无比强大。机器不再需要人为输入算法来指示它进行对图像的判别,而是在一种更高阶的体系下,让机器更加自主地完成这项工作。学界广泛认为,深度学习是过去十年中人工智能领域的最大突破,在计算机视觉、语音识别、自然语音处理等领域有许多应用。《麻省理工科技评论》还将其列入2013年10项最具突破性技术。
应用
从实验室进入商用刷脸需降低错误率
近两年,深度学习和大数据两项技术的相互作用,大大提高了人脸识别的准确率。生物识别智能开始进入商用,尤其是金融领域,成为数家互联网公司竞相追捧的香饽饽。在不久的将来,人脸识别技术或将逐步可以取代密码和手机短信校验码,用于互联网金融的身份验证基础平台。
资深专家陈继东表示,人脸识别的互联网级应用和金融级应用存在很大区别。“身份被盗用,直接导致财产的损失。”他指出,在金融行业,对人脸识别技术的误识率要求非常高。“人脸识别的现实应用,不仅要做到在一堆照片中将同一个人识别出来,也需要将不同的人也能区分出来,这才是最难的一点。”陈继东强调,识别率和误识率应该综合起来看,尤其是在金融行业,必须把错误率设低。
这一点,绝非危言耸听。人脸识别从实验室进入商用,尤其是金融领域,一个大的技术难点,就是如何防伪造,比如用照片或者视频来代替真人。不过,大量图片数据被抓取,也让人担心用户的隐私信息是否会遭到泄露。对此,与陈继东团队合作研发人工智能机器人的旷视F ace+ +市场负责人谢忆楠解释称,人脸数据的存储是经过加密处理的。即使泄露,被人拿走的图片也是焦的,黑乎乎的一片,只有算法才能还原,普通人根本看不懂。同时,数据源也在国家的有效控制之下,一般只有具备经营资质的企业才能开通此项业务。他认为,生物识别智能进入商用,尤其是金融领域,很有必要运用多种生物特征交叉比对验证。也就是说,除了人脸识别,还要综合运用指纹识别、声纹识别、眼纹识别等多因子生物特征,更好、更安全地服务用户。
揭秘
如何训练人工智能机器人
谢忆楠介绍,所谓深度学习,打个形象的比喻就像是在“教小孩儿”。在深度学习的程序中,第一个步骤是人脸检测,即在一张照片中把人脸结构勾画出来。随后就要在人脸上进行关键点标注,这一步相当于“训练”程序学习观察人脸部特征。“这相当于一个监督式学习,我们会告诉机器人这个人到底是不是一个人。”久而久之,机器人会得出一些关键点参数。
谢忆楠向南都记者举例,人的两个瞳孔就是两个关键点,瞳距在判断人脸是否为同一人的过程中所占权重较高。众多关键点之间相互联系,形成一个统一的函数,该函数再对应不同人脸形成一个独有的数值。“每个人脸都有属于自己的数值”,谢忆楠说。以蚂可为例,它识别用户人脸是从二维图片中提取600多个关键点,进行交叉验证和动态识别。