播音员会被人工智能取代吗?揭开“AI合成主播”的神秘面纱

网信江苏
2024-03-29 02:06
87320
第五届世界互联网大会期间,新华社联合搜狗公司发布了全球首个合成新闻主播人工智能合成主播(以下称AI合成主播),引起了国内外

 第五届世界互联网大会期间,新华社联合搜狗公司发布了全球首个合成新闻主播——“人工智能合成主播”(以下称“AI合成主播”),引起了国内外媒体的关注。目前“AI合成主播”已经实现日常新闻播报的量产。“AI合成主播”的算法原理是什么?它的出现是否会取代真人主播?对此,新华社新媒体中心副总编辑齐慧杰接受访谈,为你揭开“AI合成主播”的神秘面纱。

▲“AI合成主播”正在播报新闻

Q:第五届世界互联网大会上“AI合成主播”表现抢眼。当初萌发“AI合成主播”的创意灵感是什么?开发过程是怎样的?开发过程中遇到了哪些困难?

齐慧杰:“AI合成主播”的雏形是搜狗公司研发的一款可以从图像表情、声音语言等层面进行拟人化训练的AI产品。我们看到这款AI产品以后,发现它有很多地方可以和媒体的内容生产相结合,最终我们决定和搜狗公司联合开发这款“AI合成主播”。

在开发过程中,最大的困难是保证“AI合成主播”在工作时,表情、唇动和声音完全地自然合一。在此之前国外已经有一些虚拟的主播形象了,但是无法做到表情、唇动和声音的吻合。因此我们在这方面下了大力气,最终攻克了这一技术难点,这也是我们的“AI合成主播”在技术层面上最独特的地方。目前这个“AI合成主播”在世界上是独一无二的,现在很多海外媒体对我们的“AI合成主播”很感兴趣。

▲AI合成主播通过语音播报介绍自己

▲“AI合成主播”播报新闻《(珠海航展)燃 红鹰飞行表演队发布宣传片秀特技》

Q:“AI合成主播”背后的算法机制是怎样的?如何实现音频和表情、唇动保持自然一致?

齐慧杰:“AI合成主播”最难的地方是实现表情、唇动和声音的自然一致。为了实现这一点,我们使用了大量的前沿技术,比如人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等,在此基础上结合语音、图像等多模态信息进行联合建模训练后,生成与真人无异的AI分身模型。该项技术能够将所输入的中英文文本自动生成相应内容的视频,并确保视频中音频和表情、唇动保持自然一致,展现与真人主播无差别的效果。

Q:“AI合成主播”未来有可能会取代真人主播吗?

齐慧杰:目前“AI合成主播”可以代替真人主播做一些基础性的工作,提高了新闻视频的制作效率。但是在一些互动性较强的栏目,或一些需要应变和评论的场合,还是需要真人主播来完成工作,这是“AI合成主播”一时半会儿无法取代的。

“AI合成主播”可以完成真人主播的部分工作,这也对真人主播的综合能力提出了更高的要求,未来的真人主播应该是一个集记者、编辑等多重媒体人身份于一身的多面手。


评论区
登录 发表评论