okx

[克里斯]阿里巴巴新人工智能系统“EMO”根据照片创建逼真的说唱视频

时间:2024-02-29|浏览:326

阿里巴巴智能计算研究院的研究人员开发了一种名为“EMO”的新型人工智能系统,它是“Emote Portrait Alive”的缩写,可以将单张肖像照片动画化,并生成人物说话或唱歌的视频,非常逼真。

arXiv 上发表的一篇研究论文描述了该系统,它能够创建流畅且富有表现力的面部动作和头部姿势,与所提供的音轨的细微差别紧密匹配。

这代表了音频驱动的头部说话视频生成的重大进步,这个领域多年来一直对人工智能研究人员提出挑战。

图片来源: humanaigc.github.io

“传统技术往往无法捕捉人类表情的全部光谱和个人面部风格的独特性,”主要作者田林瑞在论文中说。

“为了解决这些问题,我们提出了 EMO,这是一种利用直接音频到视频合成方法的新颖框架,绕过了对中间 3D 模型或面部标志的需求。”

直接将音频转换为视频

EMO 系统采用了一种称为扩散模型的人工智能技术,该技术显示出生成逼真合成图像的巨大能力。

研究人员在包含超过 250 小时的头部说话视频的数据集上训练了模型,这些视频来自演讲、电影、电视节目和歌唱表演。

与之前依赖 3D 面部模型或混合形状来近似面部运动的方法不同,EMO 直接将音频波形转换为视频帧。

这使得它能够捕捉与自然语音相关的微妙动作和特定于身份的怪癖。

就在?

这是我见过的最令人惊叹的音频视频。

它被称为 EMO:表情肖像活着 pic.twitter.com/3b1AQMzPYu

— 时间旅行者 Stelfie (@StelfieTT) 2024 年 2 月 28 日

根据论文中描述的实验,EMO 在衡量视频质量、身份保存和表现力的指标方面显着优于现有的最先进方法。

研究人员还进行了一项用户研究,发现 EMO 生成的视频比其他系统生成的视频更自然、更富有情感。

生成逼真的歌唱视频

除了对话视频之外,EMO 还可以制作与人声同步的适当嘴型和令人回味的面部表情的歌唱肖像动画。

该系统支持根据输入音频的长度生成任意持续时间的视频。

论文指出:“实验结果表明,EMO 不仅能够制作令人信服的演讲视频,还能够制作各种风格的歌唱视频,在表现力和真实感方面显着优于现有的最先进方法。”

图片来源: humanaigc.github.io

EMO 研究暗示,未来可以仅从照片和音频剪辑合成个性化视频内容。

然而,道德方面的担忧仍然存在,即可能滥用此类技术来未经同意冒充他人或传播错误信息。

研究人员表示,他们计划探索检测合成视频的方法。

热点:EMO 人工智能 克里斯 视频

欧易

欧易(OKX)

用戶喜愛的交易所

币安

币安(Binance)

已有账号登陆后会弹出下载

« 上一条| 下一条 »
区块链交流群
数藏交流群

合作伙伴

非小号交易所排名-专业的交易行情资讯门户网站,提供区块链比特币行情查询、比特币价格、比特币钱包、比特币智能合约、比特币量化交易策略分析,狗狗币以太坊以太币玩客币雷达币波场环保币柚子币莱特币瑞波币公信宝等虚拟加密电子数字货币价格查询汇率换算,币看比特儿火币网币安网欧易虎符抹茶XMEX合约交易所APP,比特币挖矿金色财经巴比特范非小号资讯平台。
非小号行情 yonghaoka.cn 飞鸟用好卡 ©2020-2024版权所有 桂ICP备18005582号-1