今日精选的前沿 AI 信息,欢迎阅读 👇
🎤 LLaMA-Omni 端到端语音交互模型,实现 226 毫秒低延迟,同时生成文本和语音响应!
🎮 GameGen-O 模型自动生成开放世界游戏内容,创造《GTA》《塞尔达》级别的游戏!
🛠️ OpenAI 科学家开源提示词工具 ell,多模态支持,轻松管理优化 AI 提示词!
前沿技术
1、一个低延迟、高质量的端到端语音交互模型:LLaMA-Omni。
基于 Llama-3.1-8B-Instruct 构建,能够在 226 毫秒内实现低延迟的语音交互,并且能够同时生成文本和语音响应。
GitHub:https://github.com/ictnlp/LLaMA-Omni
2、首个针对开放世界视频游戏生成的扩撒变换器模型:GameGen-O。
它能够自动生成高质量的开放领域游戏内容,如多种角色、环境和动作等,支持结构化指令提示、操作信号和视频提示等多种交互式控制能力。
详细介绍:https://gamegen-o.github.io/
可以用它来创造出类似于《侠盗猎车手》或者《塞尔达传说》那样的开放世界游戏内容。
开源项目
1、一款开源的、轻量级、功能齐全的提示词工具:ell。
由 OpenAI 研究科学家 William 开源,为了更好地管理和优化 AI 模型的提示词。
GitHub:https://github.com/MadcowD/ell
具有如下特点:
- 提示是程序:William 认为提示词不是简单的文字,而应该像程序一样可控和管理;
- 提示是模型参数:提供了丰富的工具来优化提示,支持自动版本控制和序列化,以及自动生成的提交信息;
- 监控、版本控制和可视化工具:内置
Ell Studio
工具,用于版本控制、监控和可视化提示; - 多模态支持:支持文本、图像、音频和视频等多种数据类型的处理,使得多模态的提示工程像处理文本一样简单。