11 月 17 日

今日精选的前沿 AI 信息，欢迎阅读 👇

🎙️ Ultravox：开源多模态实时语音模型，支持多语言直接理解文本和语音，响应仅需 150ms，基于 Llama3.1 8B 模型。

👗 Comfyui_Object_Migration：稳定的 ComfyUI 服装迁移工作流，可实现虚拟试衣和动漫风格转真实风格的服装迁移。

📑 MinerU：强大的 PDF 文档提取工具，支持结构化提取各类内容、多语言 OCR、跨平台使用，适合文档处理场景。

1、一个开源的多模态实时语音模型：Ultravox。

它能够直接理解文本和人类语音，无需单独的音频语音识别（ASR），响应时间约 150 毫秒，使用 Llama3.1 8B 模型每秒输出 60 Token。

目前可以接受音频并输出文本，支持中文、英语、德语等多种语言。

1、一套非常稳定的服装迁移 ComfyUI 工作流：Comfyui_Object_Migration。

只需提供一张服装照片，即可迁移到一个模特身上，服装保持一致性，自然真实且细节还原度较高，可用于虚拟试穿。

此外，它还能够进行风格迁移，由动漫风格转换成现实风格的服装穿着，看演示图效果很不错。

2、一款功能强大的 PDF 文档提取开源工具：MinerU。

能够在保留原 PDF 文档结构下，提取图像、文字、表格、脚注等内容，自动识别并转换文档中 LaTeX 格式和 HTML 格式。

主要功能如下：

支持 Windows、macOS 和 Linux 等跨平台使用，有需求的可以尝试下。