用最简单的语言描述人脸识别技术的核心问题
2017-09-17 14:31:28 来源:徐顺利 评论:0 点击:
作者:徐顺利
本文由麦姆斯咨询经徐顺利授权发布,如需转载请注明来源
苹果公司刚刚发布了最新一代的iPhone X产品,其中最引人注目的就是以深度摄像头(True Depth)技术为硬件基础的人脸识别应用, 短短几天得到人们的广泛关注。这里,仅发表个人观点,希望抛开各种专业术语,用最简单语言让广大消费者理解人脸识别的技术背景和给手机带来的改变。
1. 最自然的识别方式
苹果产品一贯以最佳的用户体验著称, 从第一代iPhone支持触摸屏开始,每一代产品都力图在最自然的交互方式上有所创新。无疑,人脸识别是继触摸屏后的又一大革命性创新。
人类互相认识的最直接最自然的方式就是通过记住人脸的各种属性和各种姿态,比如我认识你,并不是通过指纹、虹膜或者互相交换密码。那么一部智能的机器也应该用同样的方式认识一个人,这样才最接近人类的自然属性。所以,好的人脸识别技术,会带给人们最舒服的体验,非常容易被接受。
2. 可靠的感知系统
正如人类的双眼获得的是三维空间中的物体图像,对于机器来说,最佳的识别方式就是拥有像人类一样的眼睛。这里的关键技术就是深度摄像头(或称3D摄像头)。iPhone X为了达成极致体验,不惜在外观设计上多开了若干个孔,为的就是给手机加上真正好的深度视觉感知。
大家对2D摄像头已经非常熟悉了,那么如何评价一个深度摄像头呢?苹果公司称之为True Depth。我给各位一些比较具体的概念:第一,当你判断一个人脸的时候,看到的是一个人在三维空间中的脸以及脸上的细节,有人化妆、戴眼镜、部分遮挡脸部、或者是侧面对着你、甚至对你做鬼脸,大部分情况下你都可以认得出一个人。如果机器要获得这样的能力,必须依靠精准的深度摄像头以及强大的算法(具体细节会在本文下节讲到)。 第二,如果有人拿着一张照片、一个人脸模型、面具、或者一段视频冒充某个人站在你面前是,你一定一眼识破。那么机器需要利用深度信息才能达到人类的智慧。 第三,手机每天需要被唤醒几十次甚至上百次,你需要在室内、户外、黑暗中,以各种姿势都可以轻易解锁手机,这就要求深度摄像头具备很强的抗干扰能力、很快的反应速度、提供专门的红外LED进行“照明”,以便在黑暗环境下依然可以识别到人脸,而且, 它需要有足够长的寿命(毕竟,带着这种高科技的手机都不便宜啊…)。
3. 数据和算法的重要性
人类的认识过程是在不断地自我学习的,并不是每一个视力正常的人都拥有相同的识别能力。孩子记住人脸的能力不如成人,一个外国人初到中国,有可能觉得中国人长得都差不多,生活一段时间后,才可以很容易地辨别每个中国人,而一个经过特殊训练的间谍可以在很短的时间内就记住一个陌生的面孔并且准确识别。这就是学习的过程。机器也是一样,通过对大量人脸样本的学习以及好得算法来增强自己的识别能力。
目前的大部分人脸识别方案的数据来源都是2D照片,我们每个人的身份证照片、各种公开场合的照片、注册在各个网站或者系统的照片等等,都可以成为计算机识别人脸的样本,通过大量的技术积累,目前的2D人脸识别技术能够达到0.1~0.2% 的错误接受率,但在某些条件下可能有所限制(比如光照、墨镜、角度、表情等等)。而且最关键的一点,基于2D图像的人脸识别,容易被高清逼真的照片攻击,所以高级别的安全应用(比如支付),往往不敢只用2D信息做认证。为了克服2D数据的限制和攻击漏洞,在3D摄像头普及之前,业内人士想了很多办法来弥补其中的不足,主要思路就是首先确认使用者是一个真正的人,不是照片或者录像, 然后利用已有的2D数据和算法进一步识别人脸。最典型的两种方式:一、用户验证时被机器要求做一个表情,比如眨眼、微笑、或者点头等等,目前的支付宝登录就用了这样的方法,这样避免了照片攻击,如果不是频繁操作,用户可以接受, 但是如果需要在各种场合频繁解锁,那么你可能由于表情包太丰富被人注意。 二、利用深度摄像头判断是否是活体人脸,然后用2D算法做人脸识别。形象点说,当你通过一个具有人脸识别功能的安检闸口的时候,机器用你的2D 图像数据进行识别,同时需要有一位工作人员站在旁边确认你没有用照片作弊(但工作人员并不认识你)。如果机器本身能够利用深度摄像头判断你的脸是否是真的人脸还是照片,那么就不需要额外的工作人员了。 这样做确实避免了攻击而且对使用者没有表情要求,很多场合下这就是很不错的方案了。但是这台机器其实还是不认识三维空间的你,距离真正人类智慧还有不小差距,没有从本质上突破2D数据的限制。
iPhone X的3D人脸识别技术远远超越了2D识别的认知极限,达到了百万份之一的错误接受率。 如何做到呢?最关键的就是数据和算法。最佳的3D人脸识别技术,样本数据来源就应该是真正的3D人脸, 也就是用通过深度摄像头获取人脸模型作为机器学习的样本,这是最接近人类认识过程的方式。不过,因为深度摄像头技术最近几年才开始在一定范围内推广,过去的几年当中,除了苹果公司,业内只有几家著名的公司在做这方面的投入,第一个被人们熟知的消费类3D人脸识别应用是基于Intel RealSense的Windows Hello, 用于PC平台Windows操作系统解锁,至今大概仅仅有4年的历史。这种情况下,公开的3D人脸的样本数据量非常有限,想必苹果公司从收购深度摄像头公司PrimeSense(2013年)那一刻起,就投入大量资源收集数据样本了。
随之而来的就是两个问题。 问题一: iPhone X之后,会是谁呢?我们能否在其它手机上获得同样的体验呢? 我的理解是 – 数据和算法是关键,谁能够在短期内获得大量的3D人脸数据、并且运用最好的学习方法 (专业术语叫做机器学习, 哈哈),谁就可以拥有iPhone X的人脸识别能力。对于这一行业的公司来说,这将是一个巨大的投入。 问题二:iPhone X每天都在读取我的信息作为样本吗?不得而知。 可以明确的是,随着使用者和使用次数的增多,很多新的数据会被当作是样本的补充,不断完善机器对人脸的认知,甚至是对你本人的更多的理解,这就好像你领养的小狗,跟你越来越亲近。好的人脸识别算法,都会以不断增强的方式学习数据,给用户以更好的反馈。
4. 安全问题
关于人脸识别的安全已经有过很多的争论。 首先是关于黑客攻击的, iPhone X用了百万分之一的错误识别率以保证你的设备不会被其它人轻易解锁,并且超越指纹识别达到了支付级别,这也是给生物识别行业重新定义了衡量的标准。相信未来以深度摄像技术和优秀算法为基础的技术可以很快跟进了。其次是关于人脸识别的安全规范, 如果人脸作为重要的安全凭证用在方方面面,你的脸部信息将被如何获取、如何存储以及如何使用,会变成这个行业的又一大难题。试想,如果今天你的脸上长出了青春痘,明天就有化妆品公司向你推销祛痘产品,你是否会有被偷窥的感觉呢?(当然这是玩笑话)我们期待业内的领军企业发挥社会责任感,促进整个生态的安全和健康。
总之,目前的人脸识别领域,只有同时具备强大的硬件、软件、数据等技术实力和足够安全保障的公司或者方案商, 才能给消费者提供舒适的体验和信心保证。
iPhone X的发布,似乎是出了一道关于人脸识别的命题作文,不单单是针对手机相关行业,也影响了更广泛的领域,甚至我们每个人。无论你喜欢还是拒绝,刷脸时代的序幕已经拉开了,你准备好了吗?
延伸阅读: