10 月 2 日

今日精选的前沿 AI 信息，欢迎阅读 👇

🎬 Pika AI 发布 1.5 模型，支持更逼真动作和 "Pikaffects" 特效功能。

🤖 微软新版 Copilot 引入语音交互和视觉理解，打造更智能、个性化的 AI 助手体验。

🖥️ OpenAI DevDay 发布四大更新：提示缓存、视觉微调、实时 API 和模型提炼。

🎙️ OpenAI 开源 Whisper Large v3 Turbo 模型，速度提升 8 倍，支持多语言。

1、Pika AI 发布 1.5 模型。

能够生成更逼真的动作，同时具备生成指定物理效果，被称之为 “Pikaffects” 功能。

简单来说，允许上传任何图像，实现对其中对象进行放大、炸裂、融化或变成蛋糕之类的效果。

目前已经上线，可以直接在 Pika 官网上使用。

2、微软发布全新 Copilot，面向所有人的 AI 伴侣。

其中有四项全新功能，能让我们与 AI 的互动更加自然和直观，分别是：

此次更新，主要提供更直观的个性化体验，支持我们在日常生活中的决策和学习，同时强调对用户隐私和数据安全的重视。

3、OpenAI 2024 开发者大会低调结束。

时隔一年，今日凌晨 OpenAI 在旧金山再度举行 DevDay，相比去年，今年格外低调，没有直播，Sam Altman 也没有出席。

这次针对开发者主要有四项功能更新：

提示缓存 (Prompt Caching)
- 开发者通过重复使用先前执行过的符号(token)，能够大幅降低成本。
视觉微调 (Vision Fine-Tuning)
- 开发者可以微调AI模型使之更好地识别特定图像，为"自动驾驶"或"医学影像"应用开启新篇章。
实时 API (Realtime API)
- 让开发者打造多模态(语音、文字、图像)、更低延迟的对话应用，并且更轻松地将高级语音功能整合到应用程序中。
- 例如，让 AI 代理人打电话订购巧克力。
模型提炼 (Model Distillation)
- 被视为一项变革。开发人员可以使用 OpenAI 大型模型来"训练"更小的模型,以此创造出针对特定需求的定制化版本。
- 这些经过提炼的模型运行速度更快,成本更低。

4、Open AI 开源一个新的语音转文本模型：Whisper Large v3 Turbo。

基于 Whisper Large V3 微调，解码器从 32 层减少至 4 层，运行速度提升了 8 倍，而且支持多语言。

如果你正在使用 Whisper 构建应用，可以替换到这个最新模型。