阿里EMO

阿里EMO,Emote Portrait Alive,使用一张图片生成极度真实的唱歌说话视频

标签:Emote Portrait Alive EMO数字人 图片说话视频 阿里EMO

阿里EMO官网,Emote Portrait Alive,使用一张图片生成极度真实的唱歌说话视频

简介

阿里发布EMO(Emote Portrait Alive)使用一张图片生成极度真实的唱歌说话视频,这下数字人行业估计要全体起立,如果说SORA让现实不存在了,那这个项目应该怎么形容

EMO是什么

EMO (Emote Portrait Alive)是由阿里巴巴集团智能计算研究院的研究人员开发的框架,一个音频驱动的A肖像视频生成系统,能够通过输入单一的参考因像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。该系统能够捕捉到人类表情的细微差别和个体面部风格的多样性,从而生成高度逼真和富有表现力的动画。

官方项目地址: https://humanaigc.github.io/emote-portrait-alive/

arxiv研究论文:https://arxiv.org/abs/2402.17485

EMO GitHub: https://github.com/HumanAIGC/EMO(模型和源码待开源)

阿里EMO

阿里EMO

阿里巴巴集团智能计算研究所团队(作者 Linrui Tian, Qi Wang,Bang Zhang, Liefeng Bo )研发了 EMO技术框架,一个能够根据单张图片和声音输入(如对话或歌唱)生成具有丰富表情和多变头部姿势的人像视频的框架。无论输入音频的长度如何,我们都能够生成相应时长的视频,完美保持角色的个性和特征。

EMO主要功能和特色

•音频驱动的视频生成:EMO能够根据输入的音频(如说话或唱歌) 直接生成视频,无需依赖于预先录制的视频片段或3D面部模型。

。高表现力和逼真度:EMO生成的视频具有高度的表现力,能够捕捉并再现人类面部表情的细微差别,包括微妙的微表情,以及与音频节奏相匹配的头部运动。

•无缝帧过渡:EMO确保视频帧之问的过渡自然流畅,避免了面部扭曲或帧问抖动的问题,从而提高了视频的整体质量。

。身份保持:通过FrameEncoding模块,EMO能够在视频生成过程中保持角色身份的一致性,确保角色的外观与输入的参考图像保持一致。

•稳定的控制机制:EMO采用了速度控制器和面部区域控制器等稳定控制机制,以增强视频生成过程中的稳定性,避免视频崩溃等问题。

。灵活的视频时长:EMO可以根据输入音频的长度生成任意时长的视频,为用户提供了灵活的创作空间。

。跨语言和跨风格:EMO的训练数据集涵盖了多种语言和风格,包括中文和英文,以及现实主义、动漫和3口风格,这使得EMO能够适应不同的文化和艺术风格。

阿里EMO

1. 输入准备:用户提供一个参考图像(通常是目标角色的静态肖像)和相应的音频输入(如说话或唱歌的声音)。这些输入将作为生成视频的基础。
2. 特征提取:使用ReferenceNet从参考图像中提取特征。ReferenceNet是一个与主网络 (Backbone Network)结构相似的网络,它专注于从输入图像中提取详细的特征。
3. 音频处理:音频输入通过预训练的音频编码器处理,以提取音频特征。这些特征捕捉了语音的节奏、音调和发音等信息,这些信息将用来驱动视频中角色的面部表情和头部动作。
4. 扩散过程:在扩散过程中,主网络接收多帧噪声作为输入,并尝试在每个时间步骤中将这些噪声去噪成连续的视频帧。这个过程涉及到两个主要的注意力机制:Reference-Attention和Audio-Attention。 Reference-Attention用于保持角色身份的一致性,而Audio-Attention则用于调制角色的动作。
5. 时问模块:为了处理时间维度并调整动作的速度,EMO使用了时间模块。这些模块通过自注意力机制在帧内的特征上操作,以捕捉视频的动态内容,并确保连续帧之间的连贯性和一致性。
6. 面部定位和速度控制:为了确保生成的角色动作的稳定性和可控性,EMO使用了面部定位器 (Face Locator) 和速度层 (Speed Layers)。面部定位器通过轻量级卷积层编码面部边界框区域,而速度层则通过将头部旋转速度嵌入到生成过程中来控制动作的速度和频率。

了.训练策略:EMO的训练分为三个阶段:图像预训练、视频训练和速度层集成。在图像预训练阶段,主网络和 ReferenceNet从单帧图像中学习。在视频训练阶段,引1入时间模块和音频层,以处理连续帧。最后,在速度层集成阶段,只训练时间模块和速度层,以确保音频对角色动作的驱动能力。

8.生成视频:在推理阶段,EMO使用DDIM采样算法生成视频片段。通过迭代去噪过程,最终生成与输入音频同步的肖像视频。

 

这个工具特别之处在于它能够利用单一的参考图像和音频(如说话或唱歌)来生成丰富的面部表情和头部姿势变化的肖像视频。EMO 的特点是可以根据音频的长度生成任意时长的视频,并且保持角色身份的一致性。此外,EMO 是一个纯视觉解决方案,无需XML(可拓展标记语言)和系统元数据,操作范围不受限制,支持多应用操作,并配备多种视觉感知工具用于操作定位。

EMO 能够通过输入单一的参考图像和声音音频,如说话和唱歌,生成具有表现力的视频,其中的嘴型还可以与声音匹配。这表明 EMO 能够处理任意语音和图像输入,支持任意语速和图像,从而实现高度个性化的视频内容生成。

EMO的框架分为两大部分:在“帧编码”阶段,使用 ReferenceNet 从参考图像和动作帧中提取特征。接下来,在“扩散过程”阶段,先进的音频编码器处理音频数据,结合面部区域遮罩和多帧噪声进行面部图像的生成。EMO采用的 Backbone Network 内置了两种关键的注意力机制:Reference-Attention 和 Audio-Attention,分别用于维护角色的身份特征和调节其动作。此外,通过时间模块调整动作速度,确保动态的连贯性。

当我们想要制作一个能够根据声音生成有表情的视频时,EMO的工作可以分为两个主要阶段:

  1. 帧编码阶段:首先,我们让一个名为ReferenceNet的工具从一张参考图片和一些动作帧中提取特征。这些特征可以帮助我们更好地理解参考图片和动作。
  2. 扩散过程阶段:接着,我们需要处理声音数据。我们使用一个先进的工具来处理声音,然后结合面部区域的遮罩和一些噪声,生成面部图像。EMO中的Backbone Network有两种重要的注意力机制:Reference-Attention和Audio-Attention。这些机制帮助我们保持角色的身份特征并调节他们的动作。此外,还有一个时间模块,用来调整动作的速度,确保视频中的动作连贯流畅。

在扩散过程阶段中,EMO通过音频到视频的合成过程生成具有表现力的肖像视频。通过这些步骤,EMO能够实现音频和视频之间的无缝结合,生成具有丰富表情和头部姿势的视频内容。

数据评估

阿里EMO浏览人数已经达到160,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:阿里EMO的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找阿里EMO的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于阿里EMO特别声明

本站ai导航提供的阿里EMO都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由ai导航实际控制,在2024年2月29日 下午1:35收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,ai导航不承担任何责任。

相关导航

暂无评论

暂无评论...