今日精选的前沿 AI 信息,欢迎阅读 👇
🎙️ Ultravox:开源多模态实时语音模型,支持多语言直接理解文本和语音,响应仅需 150ms,基于 Llama3.1 8B 模型。
👗 Comfyui_Object_Migration:稳定的 ComfyUI 服装迁移工作流,可实现虚拟试衣和动漫风格转真实风格的服装迁移。
📑 MinerU:强大的 PDF 文档提取工具,支持结构化提取各类内容、多语言 OCR、跨平台使用,适合文档处理场景。
前沿技术
1、一个开源的多模态实时语音模型:Ultravox。
它能够直接理解文本和人类语音,无需单独的音频语音识别(ASR),响应时间约 150 毫秒,使用 Llama3.1 8B 模型每秒输出 60 Token。
详细介绍:https://www.ultravox.ai/blog/ultravox-an-open-weight-alternative-to-gpt-4o-realtime
在线体验:https://huggingface.co/spaces/freddyaboulton/talk-to-ultravox
目前可以接受音频并输出文本,支持中文、英语、德语等多种语言。
开源项目
1、一套非常稳定的服装迁移 ComfyUI 工作流:Comfyui_Object_Migration。
只需提供一张服装照片,即可迁移到一个模特身上,服装保持一致性,自然真实且细节还原度较高,可用于虚拟试穿。
GitHub:https://github.com/TTPlanetPig/Comfyui_Object_Migration
此外,它还能够进行风格迁移,由动漫风格转换成现实风格的服装穿着,看演示图效果很不错。
2、一款功能强大的 PDF 文档提取开源工具:MinerU。
能够在保留原 PDF 文档结构下,提取图像、文字、表格、脚注等内容,自动识别并转换文档中 LaTeX 格式和 HTML 格式。
主要功能如下:
- 删除页眉、页脚、脚注、页码等元素,确保语义连贯
- 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
- 保留原文档的结构,包括标题、段落、列表等
- 提取图像、图片描述、表格、表格标题及脚注
- 自动识别并转换文档中的公式为 LaTeX 格式
- 自动识别并转换文档中的表格为 HTML 格式
- 自动检测扫描版 PDF 和乱码 PDF,并启用 OCR 功能
- OCR支持84种语言的检测与识别
- 支持多种输出格式,如多模态与 NLP 的 Markdown、按阅读顺序排序的 JSON、含有丰富信息的中间格式等
- 支持多种可视化结果,包括 layout 可视化、span 可视化等,便于高效确认输出效果与质检
- 支持 CPU 和 GPU 环境
GitHub:https://github.com/opendatalab/MinerU
支持 Windows、macOS 和 Linux 等跨平台使用,有需求的可以尝试下。