今日精选的前沿 AI 信息,欢迎阅读 👇
🎬 PixVerse V3 模型升级:支持多种宽高比视频生成、优化风格类型、新增音频输入和嘴型同步功能,视频可延长至 5~8 秒。
🛠️ SoniTranslate:开源的视频翻译工具,支持多语言翻译和同声翻译,提供 Colab、Hugging Face 等多种使用方式。
📑 MegaParse:基于 LLM 的文档解析工具,支持 PDF、PPT、Word、Excel 等格式,可准确识别表格、目录等复杂内容。
前沿资讯
1、PixVerse 推出全新 V3 视频模型。
拥有更高提示准确性、支持多种宽高比,如 16:9、9:16、3:4 等,优化了视频风格,包括动漫、3D 动画、粘土、现实等。
在线体验:https://app.pixverse.ai/home
详细介绍:https://docs.pixverse.ai/PixVerse-V3-Guide-12d3e99bf350800ab602ed8f973d12ee
此外,还支持文本输入和上传音频,生成有声视频,支持嘴型同步,另外视频可保持一致性延长 5~8 秒。
开源项目
1、一款简单易用且功能强大的视频翻译工具:SoniTranslate。
基于 Gradio 构建简易的操作界面,支持将视频一键翻译成不同的语言,并且提供视频同声翻译的功能。
GitHub:https://github.com/R3gm/SoniTranslate
支持多种语言的翻译,包括中文、英语、日语等,只需上传视频文件,选择语言和 TTS 音色,即可开启翻译。
提供了多种使用方式,可通过 Colab 或 Hugging Face 使用,也可以本地安装。
2、一款功能强大的文档解析开源工具:MegaParse。
基于 LLM 构建,可以轻松处理各种类型的文档,包括 PDF、PPT、Word、Excel 等常见格式,旨在保证解析过程中不丢失任何信息。
GitHub:https://github.com/QuivrHQ/MegaParse/
此外,还能准确识别文档中的表格、目录、页眉页脚和图片等内容,解析速度快,效率高。