秒影工场公开“角色人脸识别与虚拟重建”四项专利,低成本达到逼真效果
时间:2022-05-28 22:33:01 | 来源:行业动态
时间:2022-05-28 22:33:01 来源:行业动态
还记得燃到爆表的谍战大戏《速度与激情8》吗?电影里的天眼系统能够调用地球上任何位置的摄像头和音频系统,让你想要搜索到的人或事物无所遁形。它可以利用监控摄像头/反光镜面捕捉影像,然后人脸识别技术锁定人物。
(图片来源于网络) 还记得《黑客帝国2》影片中所呈现的无与伦比的特效和特技吗?其发明的“全息捕捉”技术,可以捕捉到演员脸部的每一个精细反应,从一根发丝的摆动到每条皱纹的抽动方式都不会错过,再将这些真实的面部表情根据设计好的情节"贴"到相应的虚拟人身上,简直与真实世界中的演员别无二致。
(图片来源于网络) 可以说,从人脸识别到人脸虚拟重建,与人脸相关的技术已被灵活运用于影视、游戏、短视频等众多领域,前景广阔。
人脸作为人类日常情感表达和交流最直接和最重要的载体,真实逼真的人脸建模一直备受关注。然而从人脸识别、提取、调整再到重建一个高精度的人脸扫描结果并不容易,不仅需要借助专业的仪器重建,而且工艺复杂、价格高昂。
近日,秒影工场公开了四项关于角色人脸识别与虚拟重建的发明专利,从人脸提取、对齐、调整、重建四维外形方面,对现有角色人脸技术进行了优化与提升,利于以更低的成本达到更高精度的逼真效果。下面对这四项发明进行逐一介绍。
01 提取人脸 一种基于多级CNN的影片人脸提取的方法 现有人脸提取的方法效率低且准确率低,特别是对多人短视频的计算成本高,处理效率低。传统的人脸检测方式没有考虑人脸检测和人脸对齐两个重要步骤之间的关联。以前少量的图片类人脸检测可以通过AE软件人工获得,但短视频行业需要高效的获得人脸,这就很难高质量快速的达成。传统CNN的人脸提取,在一些过滤中缺少特征多样性,限制了产生差异性描述的可能性。
一种基于多级CNN的影片人脸提取的方法,充分挖掘了每一帧图像中人脸的特征,减少过滤,增加特征点跟踪,提高识别的准确率;通过重叠区域快速整合,提高了提取时间效率和计算消耗;经过分层多次CNN网络处理,达到多个小消耗CNN达到一个大消耗CNN所很难达到的提取效果;还考虑了视频相对图片的更丰富时间连续特征,人脸的关键点位置拥有连续运动轨迹,对于孤立考虑单张图片的传统方法更接近人脑本身的处理方式。
02 对齐人脸 一种基于卷积神经网络的高清视频人脸对齐的方法 近年来,大部分高清视频人脸对齐方法都和普通图片识别方法类似,是基于形状索引特征。在这类方法中图片特征或经过机器学习转换得到特征,都是从围绕特征点区域片段中抽取计算得到的,然后这些特征被反复用在这些特征点位置的微调。这种方法在普通照片上可能还行,但在高清照片或视频上其效率非常低下,且效果也很差。这是因为在高清照片或者视频中获得这些片段无法给出足够的信息,导致信息不全面,所以往往会训练获得局部最优点,而不是整体最优点,这样带来的问题影响整个模型的效率和效果。
一种基于卷积神经网络的高清视频人脸对齐的方法,能高效准确的处理大量高清视频的人脸对齐问题。其处理过程传承了整个视频连续帧的关键信息,相较于局部区域对齐处理的方法,能适应不同的头部姿态和初始形象;通过视频连续帧的时间线的特征点连续位置拟合,保证了同一个脸在不同视频帧的互相拟合,极大提高了识别准确率,特别是侧脸、低头、光照忽明忽暗等情况;也为其他高效高质量的业务人脸处理提供了基础保证。
03 调整人脸 一种基于GAN和三维模型参数的可调人脸图片生成方法 当前,通过GAN或GAN的衍生算法来生成二维的人脸图片已经比较成熟,效果也非常好,但脸型、动作和表情无法编辑,算法生成什么样就是什么样。三维捏脸模型对于生成动态的三维人脸模型也比较成熟,能够很容易控制脸型、动作和表情,但生成的三维模型渲染后能让人一眼就识别不是真人,很多局部细节很难逼真的模拟,比如牙齿、眼睛的局部会失真。
一种基于GAN和三维模型参数的可调人脸图片生成方法,不仅能用GAN算法生成逼真的二维人脸,而且能通过具体的人脸控制参数控制它。也就是将目前现存的两种各有优劣的方式结合来生成可参数控制的逼真人脸图片,将2D人脸生成模型StyleGAN2与三维捏脸模型结合。
04 重建人脸 一种基于帧连续四维扫描的人脸形状表情模型构建方法 如今,三维人脸形状的构建可经过大量人力修正后,达到人眼无法识别的逼真度,但耗费成本巨大,只有在特定高端电影制作中才能负担得起此种人力财力密集的操作,而且很难推广复用,普通的商业短视频或动画根本无法承担这样高昂的成本。更重要的是,普通轻度的三维扫描大部分是基于普通三维模型的,这些模型缺乏表现自然人脸形状和表情的能力,无法生成有表情差异的照片,更不用说视频与动画了。因此,秒影工场使用严格帧连续四维扫描能以更低的成本,获得更有表现力的人脸形状和表情模型。
一种基于帧连续四维扫描的人脸形状表情模型构建方法,使用我们现有的图形软件和系统相关数据、现有的大量3D模型数据集,学习脸的运动过程,形成帧连续时间线性形状空间,包括正在说话的下巴、脖子和眼球,以及其他基于姿势调整的其他脸部融合控制面,可以使用更少的维度达到更高的表达力。
对秒影工场而言,以上四项关于人脸技术的专利只是一个开始,该类技术所包含的内容丰富程度及深度任重道远,公司也将继续研究,将该技术与商业短视频有机结合,为短视频行业创造更大的价值。