虚拟人直播火爆背后:动作捕捉技术哪家强?

浏览数量: 354     作者: 本站编辑     发布时间: 2022-04-20      来源: 本站

最近,虚拟主播的热度持续升温。

被称为现象级虚拟人的美妆达人柳夜熙,第一条视频涨粉上百万,出道即巅峰;携“声优”首发优势,快速卡位虚拟直播的抖音主播许安一,三周多时间,涨粉近10万,引发围观热潮。更早一些,洛天依、ayayi、清华学生华智冰……越来越多的虚拟数字人受到追捧,并迅速蹿红。

研究数据显示,当前虚拟数字人市场规模已超2000亿元,预计2030年达到2700亿元,虚拟人赛道有望涌现超过5家以上的独角兽企业。其中以虚拟主播、明星虚拟分身、品牌代言人等为代表的身份型虚拟人将在未来将占据主导地位,体量达1750亿元。

虚拟人,借着元宇宙基础设施的东风,一下子站到风口浪尖上。特别是在内卷化严重的MCN、主播市场中,虚拟人的出现,解决了IP稳定性、不愿出镜、差异化竞争等难题,甚至被认为是主播逆袭的工具。提及虚拟人,除了内容端的形象设计建模、渲染外,决定虚拟人灵活性、稳定性、使用门槛的动作捕捉技术,是兵家必争之地。

激光+惯性:易搭建、易携带,连续直播不“掉线”

4月17日,抖音虚拟主播许安一直播间,人声鼎沸。“到一万人就给大家倒立,还能随意跳舞,我还会倒立洗头呢,绝活可多了”,在线数据很快飙升到1万人,许安一二话不说,当场就来了个倒立,整个动作行云流水,丝毫不拖沓。

但恰恰就是这样一个线下直播的“常规”动作,如果让虚拟数字人“照办”,对动作捕捉技术和设备的要求就相当苛刻了。

有了“激光定位+惯性”的动捕技术,才让许安一“有恃无恐”。因为在采用STEPVR的动捕方案前,虚拟主播在窗口前很容易“掉链子”,或是突然形象崩塌,或是大幅动作“穿帮”,因此,不得不谨小慎微。有了“激光+惯性”动捕技术的加持,主播可以在直播间里肆意表演,跳舞、倒立、翻跟头等高难度动作,都能流畅完成,还支持多人实时动捕,观赏性一下子就拉高很多。

相比其他类别动捕技术,“激光+惯性”还有超强稳定性的优势,连续直播10小时,不会拉胯,不需要矫正复位等多余的操作。另外值得一提的是,这一动捕技术性价比极高,使用门槛极低,对空间要求也很低,主播如果想换个“场子”,拎着箱子出去,在任意小空间都可以灵活搭建,直播起来,几乎是傻瓜式操作。

惯性:成本低廉,但短板很明显,需15分钟矫正

目前,应用在虚拟直播上的惯性动作捕捉技术占主流。从原理上讲,是将惯性传感器应用到数据采集端,通过惯性原理对数据进行处理,从而完成运动目标的姿态角度测量,可以简单理解为手机里那个陀螺仪。

好处是,成本相对低廉,短板也非常突出,误差比较大,重复精度比较低。因为动作捕捉数据由推算而来,所以绝对位置的数据精准度非常低。比如现实世界的才艺表演,主播回到原点后,虚拟世界跟随同样的运动后,惯性式虚拟人极有可能回不到最初的原点,甚至跑到旮旯去了。数据误差不断积累的话,就需要每15分钟,复位矫正一次设备。

对虚拟主播来说,这就尴尬了,往往难以忍受。

所以,使用了单一惯性动捕技术的虚拟主播,不管是跳舞、运动,上限时间是15分钟左右,之后主播不得不回到座椅上“休息”一下,实际上是为了复位校正。再者,使用惯性动捕时,如果周边手机设备较多的话,电磁信号复杂,很可能导致虚拟人会突然姿态崩溃、失控。目前,国外代表性的企业有Xsence,国内采用惯性的动捕企业也不少。

光学相机:影视级别效果,搭建复杂,可移动性差

最后一类是光学相机动捕技术,这一流派并不陌生,在《阿凡达》等好莱坞动画片中,有着广泛应用。技术原理上是通过多个红外发射摄像头,对室内空间进行覆盖,在被追踪物体上放置反光点,通过捕捉这些反光点反射回来的图像,确定其在空间中的位置信息。

优势是影视级别效果,因为多年技术沉淀,成片视觉效果细腻。当然,这自然是所有虚拟主播所追求的目标,品质体验上对粉丝更为友好,但可惜的是,价格极高,让人望而却步。而且操作起来相当复杂,需要进行长时间培训,无法实现快速搭建,搭建完成后不能轻易“挪动”,可移动性差,需要专业人员定期维护。
但这与虚拟主播的未来发展趋势有点儿相悖,他们需要更高的自由度。

比如声优主播许安一借助虚拟人,以黑马姿态出位;柳夜熙爆火后,马不停蹄地在线下开展攻势,接品牌代言;麦当劳推出首位虚拟代言人,超写实数字人Ayayi也成品牌合作大户,以及未来虚拟人走向带货场景。这意味着虚拟人面向的未来场景更多元,不仅仅存在于直播间,这就要求背后的动捕技术具有灵活、可移动、快速搭建、免维护的特征。显然,光学相机一派的弊端明显,有些难以适从。

对比了一番后,动作捕捉技术究竟孰强孰弱?结果可能已经不言而喻:惯性短期内有一定成本优势,但长期看未来可能是“激光+惯性”技术的天下。


相关产品