7 月 12 日

每天仅需 1 分钟，全面获取 AI 技术发展、行业动态和市场趋势。

内容涵盖但不限于前沿 AI 资讯、AI 工具、AI 绘画、开源项目和学习教程等等。

关注 AI 日报，紧跟 AI 潮流，希望对你有所帮助。对于重要信息，会独立发帖进行详细介绍。

以下是 7 月 12 日的最新 AI 信息。

1、音频生成视频项目实在太卷了，HeyGen 也加入战场！

推出 Expressive Photos 功能，类似于阿里的 Emo，输入角色图片和音频，为角色生成逼真且嘴型匹配的视频。

而且，带有面部表情和头部动作。目前，可以在 HeyGen 上免费体验。

1、一个开源的原生图文多模态模型 SOLO。

与目前 GPT-4o 类似，使用的是统一的 Transformer 架构，能接受图片和文字输入，输出文字。

从给出的数据来看，SOLO-7B 与 LLaVA-v1.5-7B 能力接近，LLaVA 是 LLM+ 视觉编码器组合而成的多模态模型。

2、利用多模态语言模型构建生动的图文故事 SEED-Story。

一种创新的方法，利用多模态大语言模型生成丰富文本和上下文相关图像的长篇图文故事。

而且可以保持整体故事下来的图像角色一致性，同时能够有效生成长篇高质量的故事。

1、ComfyUI 中的 3D 插件 ComfyUI-3D-Pack 迎来重磅更新！

ComfyUI-3D-Pack 插件，旨在让你在 ComfyUI 中生成 3D 资源就像生成图像/视频一样简单便捷。

CharacterGen 是一个高效的 3D 角色生成框架，能够从单张输入图像生成具有统一姿势的 3D 角色网格。

1、一款开源的本地大模型 Mac 客户端 Enchanted。

类似于 ChatGPT 客户端，需搭配 Ollama 使用，轻松连接本地部署的私有模型，如 Llama2、Mistral 以及 Vicuna 等。

并且，提供了在 iOS 生态系统（macOS、iOS、Watch、Vision Pro）中无过滤、安全、私密和多模态的使用体验。

2、一个可在浏览器内使用的语音识别 Whisper Timestamped，带有单词级时间戳。

基于 Transformers.js，可在浏览器中本地运行使用，自动下载模型 whisper-base（带时间戳），能够识别 100 种不同语言并生成单词级时间戳。

模型大小 196MB，首次加载完成后，即使后面在断网情况下，依然能重复使用。