今日精选的前沿 AI 信息,欢迎阅读 👇
💡 TANGO:可根据音频和参考视频生成全身对话视频,或可成为开源版 HeyGen。
🎬 Animate-X:让静态图像中的角色动起来,支持多种类型角色,保持角色一致性。
🖼️ Rectified Flows:高效准确的图像反转和编辑技术,可根据参考图或文字描述修改图像。
🎙️ AsrTools:开源智能语音转字幕工具,支持多格式,批量处理,生成 srt 和 txt 字幕文件。
📚 Awesome_Math_Books 收集众多数学经典书籍,提供下载或在线阅读,适合不同层次学习。
前沿技术
1、开源版的 HeyGen 要来了?
TANGO 项目能够通过提供一段音频以及参考肢体运动视频,生成匹配对应音频的全身的谈话视频。
详细介绍:https://pantomatrix.github.io/TANGO/
在线体验:https://huggingface.co/spaces/H-Liu1997/TANGO
从生成的视频来看,语音与人物的唇形并不是很匹配,可能搭配一些唇形同步开源项目更好,如快手的 LivePortrait。
2、让图像中角色动起来:Animate-X。
类似 AnimateAnyone,通过输入角色图片 + 参考动作,即可让角色按指定动作动起来,角色一致性保持不错。
详细介绍:https://lucaria-academy.github.io/Animate-X/
在真人、游戏、卡通、动画等角色类型表现均不错。
AI 绘画
1、一种对图像进行高效、准确的反转和编辑的技术:Rectified Flows (RFs)。
可以根据参考图片的风格,生成类似风格的图像,也支持根据文字描述,对图片进行编辑,比如给人物加上眼镜,或者改变人物的年龄和性别。
详细介绍:https://rf-inversion.github.io/
从给出的演示图来看,效果颇为不错,但项目代码还未开源。
开源项目
1、一款开源的智能语音转字幕文本工具:AsrTools。
集成了剪映、快手、必剪的官方接口,支持 flac、m4a、mp3、wav 格式音频,高效的批量处理,可以生成 .srt 和 .txt 字幕文件。
GitHub:https://github.com/WEIFENG2333/AsrTools
提供了简单易用的界面,无需 GPU 和繁琐的本地配置,小白也能轻松上手使用。
2、一个专门整理了各种数学相关书籍的集合:Awesome_Math_Books。
收集了非常多数学领域的经典书籍,如《概率论与数理统计》、《高等代数》、《微积分学》等,提供下载链接或在线阅读。
GitHub:https://github.com/valeman/Awesome_Math_Books
此外,还有一些针对高中学生的数学问题书籍,以及一些物理学基础知识的书籍。