8 月 14 日

每天花 1 分钟时间，获取精选的前沿 AI 信息。

内容涵盖但不限于前沿 AI 资讯、AI 工具、AI 绘画、开源项目和学习教程等等。

关注 AI 日报，紧跟 AI 潮流，希望对你有所帮助。对于重要信息，会独立发帖进行详细介绍。

以下是 8 月 14 日的最新 AI 信息。

1、xAI 发布 Grok-2 和 Grok-2 mini 的测试版本。

Grok-2 与 Grok-1.5 相比，在推理、数学、编程、视觉和对话能力上有着显著提升，并且整合了 X（Twitter）平台的实时信息。

在多项基准测试中，超越了其他主流的模型，如 GPT-4o 和 Cluade 3.5。

2、谷歌发布一款用于 AI 图像生成的新应用 Pixel Studio。

基于 Imagen 3 模型在手机本地上实现 2 秒内生成各种图像，该应用默认安装到新发布的 Pixel 9 系列手机上。

无需支付任何费用，并且提供图像编辑功能。是否会支持安装到 Pixel 以前系列的手机暂时未知。

3、OpenAI 对昨天透露的模型更新进行了说明。

主要针对 GPT-4o 进行了更新，最新版本为 “chatgpt-4o-latest”，修复了一些问题，改进了一些性能，大家体验看看。

往常 Google 发布产品时，OpenAI 都会搞出点动静，这次动静似乎小了点。

1、一个新的 ControlNet 模型：ControlNeXt。

支持对图片和视频生成的控制，兼容 SD 系列模型，与原来 ControlNet 相比，更轻量更快。

1、一个基于 Whisper 的自动语音识别与说话人分离框架：whisper-diarization。

它通过提取语音、生成转录、校正时间戳、VAD分段、说话人嵌入提取和时间对齐，实现高精度语音处理。

如果你在开发会议记录、字幕翻译、音频分析工具，值得一看。