每天仅需 1 分钟,全面获取 AI 技术发展、行业动态和市场趋势。
内容涵盖但不限于前沿 AI 资讯、AI 工具、AI 绘画、开源项目和学习教程等等。
关注 AI 日报,紧跟 AI 潮流,希望对你有所帮助。对于重要信息,会独立发帖进行详细介绍。
以下是 7 月 11 日的最新 AI 信息。
前沿资讯
1、在 OpenAI 的开发者 Playground 中可以使用文本转语音 API 了。
只需输入文本消息,即可在六种预设声音中生成音频,并且会根据文本自动匹配对应语言的语音,不需要选择语言国家。
在线体验:https://platform.openai.com/playground/tts
前沿技术
1、Google DeepMind 发布一项新的 AI 训练技术论文。
讨论了在大规模预训练中数据筛选的重要性,并提出了一种新的方法来提高学习效率,使得模型训练速度快了 13 倍,效率提高 10倍。
论文:https://arxiv.org/pdf/2406.17711
2、支付宝蚂蚁团队也搞了音频生成视频项目,类似于阿里的 Emo。
只需要提供角色图像和音频,生成逼真的且口型同步的角色视频,另外还可以提供表情视频来控制角色的面部表情。
详细介绍:https://badtobest.github.io/echomimic.html
GitHub:https://github.com/BadToBest/EchoMimic
AI 绘画
1、昨天分享的图像编辑模型 UltraEdit,现在可以在 ComfyUI 上使用了!
1)支持 本地模型加载(适合本地)和 自动下载模型(适合云端)。
2)支持 全局编辑 和 区域蒙版编辑。
UltraEdit:基于 SD3 Medium 的 图像编辑模型,允许仅通过提示词实现指定内容的图像编辑,且能保持风格一致性
GitHub:https://github.com/ZHO-ZHO-ZHO/ComfyUI-UltraEdit-ZHO
2、-ZHO- 大佬持续发力,又给视频增强 AuraSR 搞了 ComfyUI 插件!
优化了模型加载和自动配置文件,并且可以同时 4x 高清放大图像和视频。
GitHub:https://github.com/ZHO-ZHO-ZHO/ComfyUI-AuraSR-ZHO
AuraSR:基于 GigaGAN 的 4x 开源超分模型,速度快,对细节较好的放大效果好!
注:如下动图经过压缩,效果不明显,建议到项目查看。
学习书籍
1、吴恩达老师出的一本书《How to Build a Career in AI》,值得阅读!
书籍页数不多,仅 41 页,分为 3 大模块,共 11 章节,主要讲的内容如下:
- 找一份 AI 工作需要学什么?
- 做哪些实践项目可以快速掌握 AI 核心知识?
- 如何准备 AI 求职?