今日精选的前沿 AI 信息,欢迎阅读 👇
💼 xAI 推出 API 服务,支持 128k 上下文和函数调用,完全兼容 OpenAI 接口,每月赠送 25$ 额度直至年底。
🎙️ Hertz-dev 开源会话音频生成模型发布,具备 85 亿参数,支持双向音频流处理,延迟低至 65 毫秒,可实现自然对话交互。
🎮 腾讯混元 3D 模型发布,支持文生图生 3D 内容,10 秒生成高质量 3D 资产,可用于游戏、影视等领域。
📑 pdf-extract-api 开源项目,基于 FastAPI 开发,集成 OCR 和 Ollama 模型,可将 PDF 转换为 Markdown 或 JSON 格式。
前沿资讯
1、xAI 的 API 上线,每月赠送 25$ 额度。
支持 128k 上下文,函数调用,以及自定义系统提示,而且完全兼容 OpenAI 接口格式。
文档地址:https://docs.x.ai/docs#getting-started
只需邮箱注册,即可每月获得 25$ 额度,截止年底结束。
2、首个会话音频生成开源模型:Hertz-dev。
该模型能够同时处理双向音频流,以实现更自然的对话交互,具有低延迟的特性,最低延迟为 65 毫秒,平均在 120 毫秒之间。
详细介绍:https://si.inc/hertz-dev/
GitHub:https://github.com/Standard-Intelligence/hertz-dev
此外,拥有 85亿 个参数,能表现出人类语音特征,如停顿和情感语调等。
并且提供了多种模型组件,包括 Hertz-dev 本身、Hertz-codec 音频自动编码器、以及 Hertz-VAE 转换器解码器。
3、腾讯发布首个同时支持文生和图生的 3D 开源模型:混元 3D。
仅需 10 秒即可生成 3D 资产,同时能保证质量和可控性,并且能学习处理不同的视角,让 3D 资产的纹理更加丰富。
详细介绍:https://3d.hunyuan.tencent.com/
未来将会应用在游戏开发、影视动画、电商广告、虚拟现实等场景中。
开源项目
1、一个基于 FastAPI 的 PDF 文档提取和解析工具:pdf-extract-api。
使用最新的 OCR 技术和 Ollama 模型进行处理,可将任何图像或 PDF 文件转换为 Markdown 文本或结构化的 JSON 文档。
GitHub:https://github.com/CatchTheTornado/pdf-extract-api
支持处理表格数据、数字或数学公式等格式,并使用 Redis 存储和缓存 OCR 结果,以提高效率。