11 月 05 日

今日精选的前沿 AI 信息，欢迎阅读 👇

💼 xAI 推出 API 服务，支持 128k 上下文和函数调用，完全兼容 OpenAI 接口，每月赠送 25$ 额度直至年底。

🎙️ Hertz-dev 开源会话音频生成模型发布，具备 85 亿参数，支持双向音频流处理，延迟低至 65 毫秒，可实现自然对话交互。

🎮 腾讯混元 3D 模型发布，支持文生图生 3D 内容，10 秒生成高质量 3D 资产，可用于游戏、影视等领域。

📑 pdf-extract-api 开源项目，基于 FastAPI 开发，集成 OCR 和 Ollama 模型，可将 PDF 转换为 Markdown 或 JSON 格式。

1、xAI 的 API 上线，每月赠送 25$ 额度。

支持 128k 上下文，函数调用，以及自定义系统提示，而且完全兼容 OpenAI 接口格式。

只需邮箱注册，即可每月获得 25$ 额度，截止年底结束。

2、首个会话音频生成开源模型：Hertz-dev。

该模型能够同时处理双向音频流，以实现更自然的对话交互，具有低延迟的特性，最低延迟为 65 毫秒，平均在 120 毫秒之间。

此外，拥有 85亿个参数，能表现出人类语音特征，如停顿和情感语调等。

并且提供了多种模型组件，包括 Hertz-dev 本身、Hertz-codec 音频自动编码器、以及 Hertz-VAE 转换器解码器。

3、腾讯发布首个同时支持文生和图生的 3D 开源模型：混元 3D。

仅需 10 秒即可生成 3D 资产，同时能保证质量和可控性，并且能学习处理不同的视角，让 3D 资产的纹理更加丰富。

未来将会应用在游戏开发、影视动画、电商广告、虚拟现实等场景中。

1、一个基于 FastAPI 的 PDF 文档提取和解析工具：pdf-extract-api。

使用最新的 OCR 技术和 Ollama 模型进行处理，可将任何图像或 PDF 文件转换为 Markdown 文本或结构化的 JSON 文档。

支持处理表格数据、数字或数学公式等格式，并使用 Redis 存储和缓存 OCR 结果，以提高效率。