每天花 1 分钟时间,获取精选的前沿 AI 信息。
内容涵盖但不限于前沿 AI 资讯、AI 工具、AI 绘画、开源项目和学习教程等等。
关注 AI 日报,紧跟 AI 潮流,希望对你有所帮助。对于重要信息,会独立发帖进行详细介绍。
以下是 8 月 14 日的最新 AI 信息。
前沿资讯
1、xAI 发布 Grok-2 和 Grok-2 mini 的测试版本。
Grok-2 与 Grok-1.5 相比,在推理、数学、编程、视觉和对话能力上有着显著提升,并且整合了 X(Twitter)平台的实时信息。
在多项基准测试中,超越了其他主流的模型,如 GPT-4o 和 Cluade 3.5。
2、谷歌发布一款用于 AI 图像生成的新应用 Pixel Studio。
基于 Imagen 3 模型在手机本地上实现 2 秒内生成各种图像,该应用默认安装到新发布的 Pixel 9 系列手机上。
详细介绍:https://www.androidauthority.com/google-pixel-studio-launch-3469923/
无需支付任何费用,并且提供图像编辑功能。是否会支持安装到 Pixel 以前系列的手机暂时未知。
3、OpenAI 对昨天透露的模型更新进行了说明。
主要针对 GPT-4o 进行了更新,最新版本为 “chatgpt-4o-latest”,修复了一些问题,改进了一些性能,大家体验看看。
模型说明:https://platform.openai.com/docs/models/gpt-4o
模型介绍:https://help.openai.com/en/articles/9624314-model-release-notes
往常 Google 发布产品时,OpenAI 都会搞出点动静,这次动静似乎小了点。
AI 绘画
1、一个新的 ControlNet 模型:ControlNeXt。
支持对图片和视频生成的控制,兼容 SD 系列模型,与原来 ControlNet 相比,更轻量更快。
GitHub:https://github.com/dvlab-research/ControlNeXt
开源项目
1、一个基于 Whisper 的自动语音识别与说话人分离框架:whisper-diarization。
它通过提取语音、生成转录、校正时间戳、VAD分段、说话人嵌入提取和时间对齐,实现高精度语音处理。
GitHub:https://github.com/MahmoudAshraf97/whisper-diarization
如果你在开发会议记录、字幕翻译、音频分析工具,值得一看。