[克里斯]阿里巴巴新人工智能系统“EMO”根据照片创建逼真的说唱视频

时间：2024-02-29|浏览：355

阿里巴巴智能计算研究院的研究人员开发了一种名为“EMO”的新型人工智能系统，它是“Emote Portrait Alive”的缩写，可以将单张肖像照片动画化，并生成人物说话或唱歌的视频，非常逼真。

arXiv 上发表的一篇研究论文描述了该系统，它能够创建流畅且富有表现力的面部动作和头部姿势，与所提供的音轨的细微差别紧密匹配。

这代表了音频驱动的头部说话视频生成的重大进步，这个领域多年来一直对人工智能研究人员提出挑战。

图片来源： humanaigc.github.io

“传统技术往往无法捕捉人类表情的全部光谱和个人面部风格的独特性，”主要作者田林瑞在论文中说。

“为了解决这些问题，我们提出了 EMO，这是一种利用直接音频到视频合成方法的新颖框架，绕过了对中间 3D 模型或面部标志的需求。”

直接将音频转换为视频

EMO 系统采用了一种称为扩散模型的人工智能技术，该技术显示出生成逼真合成图像的巨大能力。

研究人员在包含超过 250 小时的头部说话视频的数据集上训练了模型，这些视频来自演讲、电影、电视节目和歌唱表演。

与之前依赖 3D 面部模型或混合形状来近似面部运动的方法不同，EMO 直接将音频波形转换为视频帧。

这使得它能够捕捉与自然语音相关的微妙动作和特定于身份的怪癖。

就在？
这是我见过的最令人惊叹的音频视频。
它被称为 EMO：表情肖像活着 pic.twitter.com/3b1AQMzPYu
— 时间旅行者 Stelfie (@StelfieTT) 2024 年 2 月 28 日

根据论文中描述的实验，EMO 在衡量视频质量、身份保存和表现力的指标方面显着优于现有的最先进方法。

研究人员还进行了一项用户研究，发现 EMO 生成的视频比其他系统生成的视频更自然、更富有情感。

生成逼真的歌唱视频

除了对话视频之外，EMO 还可以制作与人声同步的适当嘴型和令人回味的面部表情的歌唱肖像动画。

该系统支持根据输入音频的长度生成任意持续时间的视频。

论文指出：“实验结果表明，EMO 不仅能够制作令人信服的演讲视频，还能够制作各种风格的歌唱视频，在表现力和真实感方面显着优于现有的最先进方法。”

图片来源： humanaigc.github.io

EMO 研究暗示，未来可以仅从照片和音频剪辑合成个性化视频内容。

然而，道德方面的担忧仍然存在，即可能滥用此类技术来未经同意冒充他人或传播错误信息。

研究人员表示，他们计划探索检测合成视频的方法。

热点：EMO 人工智能克里斯视频

欧易(OKX)

用戶喜愛的交易所

币安(Binance)

已有账号登陆后会弹出下载

« 上一条| 下一条 »

相关资讯

首页

热点

消息

合作

注册

[克里斯]阿里巴巴新人工智能系统“EMO”根据照片创建逼真的说唱视频

直接将音频转换为视频

生成逼真的歌唱视频

欧易(OKX)

币安(Binance)

相关资讯

[克里斯]阿里巴巴新人工智能系统“EMO”根据照片创

[克里斯]一个免费的人工智能图像数据集因儿童性虐待图

[克里斯]CFTC 警告投资者使用人工智能交易机器人

[克里斯]BitRiver 计划推出俄罗斯最大的人工

“AI迎来巨大突破，跨越弱人工智能进入‘强人工智能时

法律人工智能首席执行官敦促解决法庭失误而不指责人工智

3 大人工智能加密货币以及为什么您应该在 2024

人工智能可能很快就会抵制关闭？新研究揭示了人工智能

[喜悦]抗议者聚集在 OpenAI 办公室外，反对军

英伟达引领人工智能股，预计人工智能收益将进一步飙升

合作伙伴

首页

热点

消息

合作

注册

[克里斯]阿里巴巴新人工智能系统“EMO”根据照片创建逼真的说唱视频

直接将音频转换为视频

生成逼真的歌唱视频

欧易(OKX)

币安(Binance)

相关资讯

[克里斯]阿里巴巴新人工智能系统“EMO”根据照片创

[克里斯]一个免费的人工智能图像数据集因儿童性虐待图

[克里斯]CFTC 警告投资者使用人工智能交易机器人

[克里斯]BitRiver 计划推出俄罗斯最大的人工

“AI迎来巨大突破，跨越弱人工智能进入‘强人工智能时

法律人工智能首席执行官敦促解决法庭失误而不指责人工智

3 大人工智能加密货币以及为什么您应该在 2024

人工智能可能很快就会抵制关闭？ 新研究揭示了人工智能

[喜悦]抗议者聚集在 OpenAI 办公室外，反对军

英伟达引领人工智能股，预计人工智能收益将进一步飙升

合作伙伴

人工智能可能很快就会抵制关闭？新研究揭示了人工智能