大皖新闻讯 “大家好,我是刘兴亮,这是我的首个数智人分身。”
4月25日,在腾讯云智能“数智人媒体沟通会”上,数字经济学者刘兴亮现场展示了他的专属“数智人”,以及由这个“数智分身”输出的短视频“亮三点”。刘兴亮分享称:“这个形象近似真人,表情、唇型匹配自然,包括我的特色口音也模拟得惟妙惟俏的数智人,正是腾讯云智能小样本数智人。
未来,不需要搭建拍摄场地,也不用提前化妆彩排,不受空间、时间限制,数智人可以随时随地帮我生成口播视频,解放我的生产力。”
数字经济学者刘兴亮用小样本数智人生产视频
越来越多的数字人走入各行各业,投入实际应用,但高昂的制作和运营成本让不少企业望而却步。如何让数字人从大企业走向小商户,成为小微企业经营的“可选项”,甚至成为个人创作者的创作工具?过往复杂的训练样本数据采集,导致数字人定制过程长、成本高,一定程度上限制了数字人的快速应用落地。
沟通会上,腾讯云智能小样本数智人生产平台首次对外发布,平台具有训练样本小、生产效率高、自动化生产等特性,可以轻松实现“自助式”数智人生产制作。依托腾讯自研AI能力和技术经验,只需要3分钟真人口播视频、100句语音素材,平台便可通过音频、文本多模态数据输入,实时建模并生成高清人像,在24小时内制作出与真人近似的“数智人”。千元级别的成本,小时级的制作时长,大幅降低数字人使用门槛,腾讯云智能小样本数智人为短视频创作、知识分享、带货直播等场景应用提供了更多可能性。
数字人与本人对比
腾讯云智能数智人产品总经理陈磊表示,腾讯云智能正致力打造自动化的“AI+数智人工厂”,以“产、销、服”一站式平台,实现“自助式”购买、生产和应用数智人。通过开箱即用的数智人服务,腾讯云智能还将广泛开展生态被集成合作,携手合作伙伴将更逼真、更智慧、更高效的数智人应用落地千行百业。
自研小样本数智人驱动技术框架,24小时实现数字分身复刻
腾讯云智能依托自研小样本数智人驱动前沿技术框架,以及基于自监督机制的通用多模态模型,让用户实现提交少数样本数据进行AI训练,例如3分钟真人口播视频、100句语音素材,即可获得与真人形象、语音近似的数智人,生产周期缩短至天级别。千元级的价格,自助式的服务,让数智人成为“用得起”的数字化服务。
陈磊表示,小样本数智人支持半身、全身形象展示,手势动作会根据内容灵活调整,也支持录制背景任意更换,适用于直播带货等更广泛的商用场景。相较于2D真人精品数字人,小样本数智人无需专业影棚录制素材,成本更低;相较于照片生成、仅能呈现面部形态的数字人,小样本数智人可根据文本设计手势,唇动、口型、表情复现真人风格。
小样本数智人形象、音色接近真人,支持半身、全身形象展示,适用于更广泛的商用场景
以知识分享口播视频生产为例,小样本数智人可以代医生、律师等专业人士出镜,大大节省视频录制时间。在沟通会现场,浙江树兰医院盛国平博士展示如何用“数字分身”输出医学知识科普视频,在忙碌工作中缓解视频录制压力。按日更计算,如果以“妆发+调试+录制”平均两小时/期来算,一周就可以省下14个小时,一年可节省近800-900小时,相当于省下30-40天的制作时间。
打造数智人aPaaS平台提供“产、销、服”一体化服务
为了加速数智人服务普及,腾讯云智能还提出自动化“AI+数智人工厂”的方向。开箱即用的数智人生产服务,依托腾讯云TI平台,内置超过10项AI算法能力。未来,无需任何算法、研发经验,只要在平台导入视频、语音训练素材,即可通过“自助式”服务,完成大批量数智人形象、音色定制。
针对数智人运营,腾讯云智能提供播报数智人平台、交互数智人平台服务。播报数智人平台支持通过文字、语音输入快速生成数智人视频;交互数智人平台可打造“超长待机”的数智员工,可定制专属问答库,提供7*24小时人机双向交互服务。同时,也可实现数智人直播服务,直播间7*24小时断档,自由切换真人语音接管,与用户问答互动。
陈磊表示,腾讯云智能专注做厚aPaaS数智人平台,以API接口形式向合作伙伴开放“产、销、服”一体化服务,支持合作伙伴开发更多适用于垂直行业、垂直场景的数智人SaaS服务。目前,已经有数十家合作伙伴依托平台,向行业提供数智人直播SaaS、知识口播SaaS应用,覆盖医疗、传媒、金融多个行业。
作为腾讯云智能的生态集成伙伴,医微讯创始人、CEO潘耿表示,腾讯云智能数智人生产及运营能力的开放,助力我们为客户打造了适用于医疗行业的数字人服务。微媒数字会议CEO天狐表示,微媒将全力和云智能共创数字分身解决方案,形成可持续发展的品牌营销生态,为企业与个人进行IP打造。
“皱纹级”形象还原,“音素级”音色复刻
腾讯自2018年开始投入数智人研发和服务,是国内最早投入数字人领域的企业之一,已发布数百篇相关技术顶会、期刊论文、专利近百份。
在技术解读分享中,腾讯优图实验室研究总监汪铖杰表示,2D小样本技术的背后是3D技术。“小样本数智人从直观上感受是2D视频,背后其实是3D人像在做支撑。从‘文本/音频’信息到‘3D人像驱动’再到‘2D人像视频’的模式,通3D人脸结构的先验信息引入,使数智人口型、表情更到位,让小样本数智人形象实现‘皱纹级’还原。”
另一方面,“小(样本)"的背后是"大”。基于自监督机制的通用多模态模型经过大规模数据训练,可以将语音、文本与人像的表情、口型进行关联。“3分钟”的训练视频正是基于这个模型,学习每个人个性化的发音和口型特征。
汪铖杰表示,虽然小样本数智人使用门槛、成本都大幅降低,但他们希望能“用跑车的性能,服务家用轿车的用户”,通过综合运用多项视觉AI技术,提升小样本数智人品质,其中就包括高精度人像分割、光照优化、人像美化、视线矫正等。他举例称,当录制视频出现较暗、较朦等情况,小样本数智人可以通过光照优化技术进行亮度提升,也能通过高精度的人像美化提升皮肤质感。
在声音复刻方面,基于腾讯自研的新一代小样本音色定制技术,依托深度学习的声学模型及神经网络声码器,小样本数智人改善了传统声学模型语音韵律单一,语调平淡的问题,让语音合成更加精细化。例如,一段文字中哪里该读重音、哪里情绪有变化等因素,都会经由AI训练识别,复现个人音色以及表达风格,最终实现接近本人的自然表达。
此外,通过构建大规模高质量音色数据的预训练基底模型,未来小样本数智人还将支持用户只录制普通话,即可合成英文及方言语音。
目前,腾讯云智能数智人已经覆盖3D写实、3D半写实、3D卡通、2D真人、2D卡通五种形象风格,可实现超细微面部情感表情以及数百种肢体动作,支持形象资产管理、业务服务配置及内容生产相关服务,以满足不同场景下的服务需求。作为数智员工,腾讯云智能数智人已成功“入职”传媒、金融、出行、文旅、政务等多个行业,依托新一代的多模态人机交互系统,同时连接腾讯丰富的内容和服务生态,实现从“数字人”智能升级到“数智人”。
未来,面向数智人应用,腾讯云智能将不断通过CV、TTS、NLP、ASR等多项自研AI技术,推动数智人服务更广泛落地,以“普惠化”服务走入千行百业。