每天花 1 分钟获取最新 AI 信息。
内容涵盖但不限于前沿 AI 资讯、AI 工具、AI 绘画、开源项目和学习教程等。
简报主要特点是描述精简,但对于重要信息,还是通过独立帖子进行详细介绍。
以下是 6 月 28 日的最新 AI 信息。
前沿资讯
1、OpenAI 公布一个基于 GPT-4 的模型:CriticGPT。
主要用于帮助他们识别 ChatGPT 生成代码中的错误,用 GPT-4 找出 GPT-4 的错误,有意思!
在其发布的一篇论文中,指出比没有帮助的训练者表现更好,能够发现更多问题。
详细介绍:https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/
2、Google 开源 Gemma 2,对开发者开放 Gemini 1.5 Pro API。
Google 向所有开发者开放 Gemini 1.5 Pro 上下文 200 万 Token 长度的 API 访问权限。
详细介绍:https://developers.googleblog.com/en/new-features-for-the-gemini-api-and-google-ai-studio/
并开源了 Gemma 2,有 9B 和 27B 版本,从给的测试结果来看,27B 版本比 Llama 3 70B 稍微差些。
详细介绍:https://blog.google/technology/developers/google-gemma-2/
模型下载:https://huggingface.co/collections/google/gemma-2-release-667d6600fd5220e7b967f315
3、character.ai 上线角色通话功能,让 AI 聊天变得更真实了。
你可以像打电话一样与 AI 角色交流。可用它练习语言、模拟面试、角色扮演、创作故事情节等等。
正如视频号上这位 AyishaMi 博主,通过 AI 帮她出谋划策,甚至代替她与其英国邻居沟通噪音问题。
感兴趣的可以去下载 Character.AI App 体验下。
下载地址:https://qr.page/g/JmEyeLWYQS
详细介绍:https://blog.character.ai/introducing-character-calls/
前沿技术
1、支持超过 7000 种语言的文本转语音模型 ToucanTTS。
一个专为对话场景设计的语音生成模型,特别适用于大语言模型(LLM)助手的对话任务,以及对话式音频和视频介绍等应用。
支持中文和英文等 7000 多种语言的多语言语音合成。实现多人对话语音合成,并可克隆说话者音色。
GitHub:https://github.com/DigitalPhonetics/IMS-Toucan
开源项目
1、Pipecat:一个可用于构建语音和多模态对话的 AI 开源框架。
你可以用它来创建私人教练、会议助手、儿童故事讲述玩具、客服机器人等 AI 语音助手。
GitHub:https://github.com/pipecat-ai/pipecat
Cerebrium 联合 Daily.co 基于 Pipecat 开发了一款实时语音 AI 机器人,实现与人类对话接近的 500 毫秒语音到语音响应时间。
在线体验:https://fastvoiceagent.cerebrium.ai/
如果你也打算构建一个实时语音 AI 代理,可以看下它们分享的教程。
教程地址:https://docs.cerebrium.ai/v4/examples/realtime-voice-agents
2、一键给图片添加水印的开源免费工具: Image Watermark Tool。
无需将图片上传到服务器,可直接在本地设备上轻松为你的图片添加水印,极大保护你的隐私。
你还可以自由选择水印颜色、大小、透明度、倾斜角度等个性化自定义。
GitHub:https://github.com/unilei/image-watermark-tool
另外,项目还提供了 Vercel 一键部署,感兴趣的可以自己部署使用。