首页 > 微访谈 > 正文

索尼交流ToF图像传感器应用开发,挖掘深度信息的应用价值
2022-02-24 17:22:13   来源:麦姆斯咨询   评论:0   点击:

索尼的ToF图像传感器将背照式CMOS图像传感器的像素技术,与读取反射光信号、提升精度的索尼独创像素技术相融合,实现了3D ToF摄像头模组的小型化,并且还发挥背照式结构的优点,大幅提升了测距的处理速度和高效将光转换成电子信号的距离分辨率。

据麦姆斯咨询介绍,基于飞行时间(Time of Flight,ToF)图像传感器的3D摄像头可在发射激光之后,准确测量与目标对象之间的距离,现已被搭载于高端移动终端(如智能手机、平板电脑)上,在拍照自动对焦和背景虚化等功能中发挥着重要作用。虽然,移动设备采用ToF图像传感器能够准确捕捉面容、背景,以及手和身体的动作等,但是,目前尚未能大范围地被智能手机采用。

索尼的ToF图像传感器将背照式CMOS图像传感器的像素技术,与读取反射光信号、提升精度的索尼独创像素技术相融合,实现了3D ToF摄像头模组的小型化,并且还发挥背照式结构的优点,大幅提升了测距的处理速度和高效将光转换成电子信号的距离分辨率。另外,传统ToF方式难以测量约10m的远距离,而新产品通过搭载提升感光度的驱动模式,实现了高检测率。在约30cm到1m的近距离范围内,则能凭借VGA分辨率,获取高精度的距离图像。

索尼3D ToF摄像头模组

索尼3D ToF摄像头模组

面对上述情况,索尼(Sony)选择的解决方案就是为移动设备用的ToF图像传感器开发新的应用。为此,索尼在日本以及中国上海、北京、深圳、成都这五个据点首次联合建立了ToF图像传感器应用开发项目。近期,我们去交流了这个大项目的开发目标,探寻了全新的ToF应用是如何“跨越千山万水”诞生的。

索尼交流ToF图像传感器应用开发,挖掘深度信息的应用价值

四位访谈对象

从面容、背景到姿势、动作,都能准确识别,ToF图像传感器有望在各个领域发挥重要作用

问:什么是ToF图像传感器?

Kamano:ToF是Time of Flight的英文缩写,它是一项能够测量人物、物品等目标对象距离的传感技术。通常,该技术涉及激光器(发射端)和传感器(接收端),并且有几种类型的ToF传感系统。其中,iToF是Indirect ToF的英文缩写,它是一种向目标物体发射激光并捕获反射光,然后计算发射光和反射光的相位差以获得到该目标物体的距离的方法。

注:除非特殊说明,下文中出现的ToF图像传感器皆指iToF图像传感器。

问:ToF图像传感器有哪些主要用途?

Kamano:ToF图像传感器在智能手机等移动设备,以及汽车和无人机等领域发挥着重要作用。并且,由于它除了获取深度数据,还可以实现对空间和物体的清晰成像,因此在电子商务、增强现实(AR)/虚拟现实(VR)等多种场景中也开始获得应用。具体来说,在智能手机方面,ToF图像传感器被用于拍摄时的背景虚化和自动对焦功能,而在汽车方面,则被用于手势识别。

Doi:由于ToF图像传感器具有出色的手势识别能力,因此应用于汽车时,可以方便地通过手势操作设备,例如“手向右转提高音量”、“手向左转降低音量”。

问:擅长识别目标对象的ToF图像传感器,在过去存在哪些问题?

Kamano:虽然ToF图像传感器的应用场景在逐步增加,但是目前还没有一款能够吸引众多用户的“杀手级”应用,这导致了“智能手机制造商因为缺少‘杀手级’应用而难以将ToF图像传感器搭载于智能手机”的困境,“应用程序开发商则因为智能手机上没有搭载这种传感器而缺少开发积极性”的问题,这种“先有鸡还是先有蛋”的状况持续了很长时间。所以,我们考虑自主开发使用ToF图像传感器的应用程序,并向智能手机制造商与应用程序开发商两者进行宣传。

Doi:从开发角度来说,因为要不断发射激光,所以基于ToF图像传感器的3D摄像头比一般RGB摄像头更加耗电。另外,因为需要计算深度(距离信息),所以也会消耗更多电量。从智能手机制造商的角度来说,因为要增加一个传感器,所以还必须保证一定的空间。当然,ToF图像传感器有其独特的附加值,但这种附加值还不足以将应用范围扩展至所有智能手机型号,所以目前的状况是,一些高端机型搭载了ToF图像传感器,而低端机型尚未搭载。

自动对焦和背景虚化等手机拍照功能不一定需要ToF图像传感器。这些功能可以通过RGB图像中的对比度信息来对焦目标对象,或者通过人工智能(AI)处理从RGB图像中将人物与背景分离,从而营造虚化效果。有人认为这样的AI技术就足够了,这在一定程度上让ToF图像传感器的处境更加艰难。

Kamano:但是,有些智能手机制造商提出“如果有有趣的应用程序,我们愿意搭载ToF图像传感器”,所以我们想要尝试推倒“多米诺骨牌”的第一块,从而建立和扩大ToF应用市场,于是挑战了此次的应用程序开发项目。

问:智能手机制造商和应用程序开发商都认为凭借图像AI处理就能满足他们的需求吗?

Doi:我认为他们不一定反对在手机上搭载ToF图像传感器。我们的某个客户认识到深度信息的价值,很早就在他们的智能手机上搭载了ToF图像传感器,还提供了开发使用该传感器的应用程序所需的软件开发包(Software Development Kit,SDK)。但是,因为现在搭载ToF图像传感器的智能手机还很少,因此应用程序的开发始终未能取得进展。因为这个经历,客户也改变了态度,现在他们利用RGB摄像头与AI处理来实现各种效果。另一方面,也有其他客户在产品上搭载了ToF图像传感器,然后以垂直整合的方式,进行从终端到应用程序的一条龙开发。这使他们能够自己决定每一个细节,从选择安装在智能设备上的摄像头和传感器到专用应用程序的设计开发。所以,这些客户都在通过行动努力发挥ToF图像传感器的价值。毫无疑问,我们的深度传感技术在人工智能处理方面具有明显优势。因此,我们必须继续追求其价值并丰富我们的专业知识以及应用程序开发人员。

开发只有通过ToF图像传感器才能实现的应用程序,为用户带来愉快使用体验

问:你们在开发ToF应用程序时做了哪些工作?

Ivy:在ToF应用程序的开发中,我们团队负责企划、创意设计与SDK开发,而应用程序开发合作伙伴负责发布工作等。一开始我们就认识到,为了让大家都愿意使用ToF图像传感器,必须开发能让用户体验到乐趣的产品。因此,Doi与中国方面的技术人员一起对ToF图像传感器的技术方面进行了自我教育,了解“这款传感器能提供哪些体验”。然后,我们还进行了抖音(TikTok)等平台的用户调查,深入调查了当前的流行趋势和用户感兴趣的内容。

Pop:我们的设计团队一开始也投入了大量时间,去研究ToF图像传感器能够提供哪些体验。特别是我们认为必须了解发挥这款传感器独特优势的最佳方法,然后在熟知这一点的基础上开发应用程序。还有一点,我们认为很重要的是要了解目标用户需求。要让应用程序被目标用户所接受,必须了解他们喜欢什么样的应用程序,以及他们如何体验这些应用程序带来的乐趣。幸运的是,我们在中国的设计中心具备开发需要的最基本条件,我们在这里通过不断摸索尽可能排除技术问题,并尝试创造前所未有的独特应用程序。

问:此次的项目横跨日本和中国,具体是如何推进的?

Kamano:鉴于该项目的目标智能手机制造商很多都是中国公司,因此以Ivy和Pop等中国本地人员为中心推进项目讨论。特别是在效果呈现方面,Doi与中国开发人员密切地进行了交流。

Doi:日本的开发团队会构建应用程序开发所需的程序并打包成SDK,而在中国,实际应用程序开发将由专业公司承担。由于当今全球形势所施加的各种限制,所有交流都必须在线进行,所以,我知道很难对中国本地企业提供直接的技术支持。于是,我做了一个安排,在上海设计中心成立了一个技术团队,我教他们技术细节,然后该技术团队的成员将为应用程序开发公司提供必要的技术支持。关于整体进度,我们使用了日程管理的应用程序,对开发进度进行确认,如果发生了他们难以解决的课题,就由我直接提供技术支持。总而言之,我们竭尽全力减轻中国当地的技术团队在时间上和距离上产生的压力。

问:完全在线协作,是否存在特别困难的地方?

Doi:是的。不知为何,Ivy觉得我是个可怕的人(笑)。我只是在技术方面提出了一些批评,例如“这里这样不行”、“这里必须再改进”,但是Ivy好像觉得我是在发火。在线交流有个缺点就是很难传达现场的气氛,从而造成一些误解,而这些问题往往是实际面对面交流时不会发生的。

Ivy:Doi,真是不好意思(笑)。我对技术并不是很了解,所以经常难以理解Doi的话。如果不能正确理解Doi的话,就无法帮助中国方面的成员解决问题,所以在技术理解上遇到了很多问题。另外,正如Doi所说,此次是上海、深圳、北京、成都、厚木5个据点联合推进的开发项目,所以我觉得避免在线会议时的交流偏差也是一个大难题。

Kamano:我们尝试开发的效果体现在动态图像中,但在创建实际演示之前,这些想法会在静止图像中进行交流和分享。 因此,在那之前,由每个成员来填补空白并想象事物在这些静止图像中是如何移动的。 那么,不可能每个人都对它有完全相同的想法。创建演示之后,每个人都可以看到细节并就某些特定方面发表意见,从而推动项目向前发展。所以,很多时候我们的深入讨论不得不等到我们看到实际的动态图像。

Pop:我是第一次参与这样的项目,所以一开始召集了各领域的人员,举办了一场研讨会。在研讨会上,我通过展示一些概念图形来介绍ToF图像传感器可以做什么,试图形成一些应用想法。我基于大家想法的描绘草图,并提出了方案。之后,为了更好地想象具体的动态效果,又用Photoshop创建了故事板,并且每张故事板我们都制作得非常具体细致。另外,在交流上主要有两个难点。一个是语言问题。即使是同一场会议,也会用到中文、日语、英语3种语言进行交流,因此容易发生交流上的偏差。另一个是TikTok等应用程序上流行的词汇和段子,因为地区和文化的差异,中文中流行的词汇很难转换成日语或英语,有时难以将其中包含的笑点转达给其他国家成员。

问:请介绍一下此次应用程序开发中遭遇的难题。

Pop:我遇到的最大难题就是对技术的理解。虽然Doi提供了很多资料,但是即使看着这些资料,也很难想象实际可能会呈现怎样的效果。另外,我也不清楚从技术角度来说,能达到哪种程度,所以经历了大量反复试错的过程。另一个难题就是清楚区分ToF图像传感器能实现的效果与RGB图像传感器能实现的效果。我希望实现发挥这款传感器优势的效果,但是实际达到的效果经常是RGB图像传感器也能实现的,Doi也曾多次指出这个问题,他说“这样的效果依靠RGB图像的色彩识别与AI处理也能实现”。“能够正确测量与目标物体之间的距离”、“能够利用三维坐标捕捉目标对象”,我希望我们的企划能够发挥ToF图像传感器的这些独特性能,呈现有趣的效果,为此投入了很多心血。

Doi:如果我们开发的应用程序不能发挥ToF图像传感器的特性,那么我们的开发工作就没有意义。所以,对于这部分,我从企划阶段开始就严格把关。但是,如果对技术不熟悉就很难找到“依靠RGB图像的色彩识别和AI处理就能实现的效果”与“只有用ToF图像传感器才能实现的效果”之间的区别,所以,我想在技术理解方面,中国设计中心的成员们一定经历了很多磨难。

Ivy:中国设计中心为了理解ToF技术,花了3个月的时间进行学习。我想正因为如此,我们才能开发出发挥ToF图像传感器特性的应用程序。

问:除了技术上的理解,这个项目还要求应用程序使用起来很有趣吧。

Doi:是的。中国设计中心的成员们提出的企划,基本上每一个都是有趣的创意。所以,“是否发挥了ToF图像传感器特性”的部分就成了重要判断依据。

Pop:我们提出了30多个企划创意,然后选择了大约25个,并将其开发成故事板。 其中5个最终作为应用程序进行了公开发布。

问:根据企划创意进行ToF应用程序开发的工作进展得顺利吗?

Doi:我们遇到了一些问题。其中有个应用程序只需要打个响指,ToF图像传感器就能识别手部动作并切换背景,但是最初的内测版本无法顺利识别。实际上,对打响指这个行为的定义,本身就很模糊。因此,对于这个手部动作的识别,是通过大量拍摄打响指的状态,让AI学习“当手摆出这样的姿势时表示正在打响指”来实现的。

这项AI学习的训练最初是我一个人实施的,一开始没有注意每个人之间打响指的方法存在差异和个人习惯。我是手掌朝上,中指和食指向上,通过拇指和中指的摩擦来打响指的,但是不同人有不同的打响指方法。有些人弯着食指打响指,也有一些人手掌朝下打响指。在开发最初的版本时,正好我和身边的人打响指的方法一样,所以识别很顺利,但是让中国团队试用后我才发现原来有各种打响指的方法。

因此,为了让AI学习各种打响指的方法,我以各种角度、各种手指造型打响指,尝试了数千次,简直要得腱鞘炎了。

随着越来越多的创作者能够利用深度信息,ToF图像传感器的应用领域将不断扩大,不仅是照片和视频,还有望用于音乐、情感表达等广泛领域

问:您对ToF图像传感器未来可能的应用有何想法?

Kamano:“连接现实世界与虚拟世界”,我想ToF图像传感器将成为关键技术。今天的采访,我和Doi坐在同一个房间里,我们相聚于此的原因在于“实际的面对面对话能传达更多信息量”,例如对项目的热情、我们的语气。如果在线上也能传达这些信息,那么跨越时空交流的可能性就有望进一步扩大。为此,我认为从立体而非平面角度识别事物非常重要,而ToF图像传感器将在这方面发挥重要作用。

Doi:目前,我们正在为VTubers开发应用程序。已有的VTubers应用程序通过脸部识别,赋予人物角色各种动作。而我们现在开发的应用程序不仅能识别脸部,还能识别手部动作,因此增加了姿势的多样性,情感表现也将变得更为丰富。我认为对于脸部、手部、身体等的识别越多,情感表现也会变得越丰富。我希望在情感表现方面,ToF图像传感器能发挥一定作用。

Ivy:现在,利用元宇宙这个虚拟空间开展的交流与经济活动正在中国流行。我认为在这方面,ToF图像传感器技术也能大显身手。如果用户能够利用AR等进行互动交流,这款传感器的附加值将进一步提升。

Pop:过去,ToF图像传感器获取的深度信息的应用主要是反映到视觉方面,今后如果能应用到声音和情感表现上,就能实现前所未有的表现效果,或许会有更多用户想要利用这款传感器进行自我表现。实际上,有很多艺术家都希望利用深度信息,例如声音AR、把声音配置在哪里才能获得更好的声场等,所以我想今后这方面的需求将不断增加。

问:请介绍未来需要挑战的目标。

Kamano:我想如果能够识别人物、物体、空间的细节信息,并有效利用这些信息,我们就能打造一个更加便利的世界。我希望参与更多研发活动,不仅限于ToF图像传感器,而是组合索尼所拥有的各种图像传感器技术、平台和内容,让人们的生活更加精彩的活动。客户经常问我们,索尼拥有各种技术,“能不能组合这些技术,开发出更有趣的产品”。客户对我们的期待如此之高,如果能将我们拥有的技术与全世界的创作者联系起来,或许能创造出完全意想不到的东西。

Doi:我认为让更多人接触ToF传感技术,激发各种想象非常重要。创建并公开更好用的SDK,将促成开发者与技术信息在线上的积累,为开发利用深度信息的应用程序创造一个生态系统。智能手机的应用程序一开始也是小规模的,通过完善开发环境,就有了大量企业和创作者开始开发、发布应用程序。在AI方面,SDK的开放也促使AI的开发与使用得到迅猛发展。同样的,我希望通过开放便于在智能手机上使用深度信息的SDK,吸引更多人使用深度信息。

Ivy:我非常理解Doi所说的,我也希望创建一个关于深度信息的应用开发社区。现在很多艺术家都对深度信息的应用可能性抱有浓厚兴趣,所以我希望扩大这个群体,让深度信息带来更多可能性。

Pop:我希望更进一步地发挥ToF图像传感器的优势,除了移动设备,还希望能把这款传感器应用于其他设备。例如,现在中国很流行智能电视,如果能在电视机中安装ToF图像传感器,就能实现更多功能,我希望能参与这样的研发项目。

延伸阅读:

《汽车激光雷达(LiDAR)专利全景分析-2022版》

《激光雷达产业及核心元器件-2020版》

《自动驾驶汽车、机器人出租车及其传感器-2021版》

《传感应用的VCSEL技术及市场-2021版》

《新兴图像传感器技术、应用及市场-2021版》

《飞行时间(ToF)传感器技术及应用-2020版》

相关热词搜索:ToF图像传感器 ToF传感器 3D摄像头

上一篇:诺联芯:引领NDIR气体传感器持续创新,实现应用场景“百花齐放”
下一篇:最后一页