今日精选的前沿 AI 信息,欢迎阅读 👇
🎬 Pika AI 发布 1.5 模型,支持更逼真动作和 "Pikaffects" 特效功能。
🤖 微软新版 Copilot 引入语音交互和视觉理解,打造更智能、个性化的 AI 助手体验。
🖥️ OpenAI DevDay 发布四大更新:提示缓存、视觉微调、实时 API 和模型提炼。
🎙️ OpenAI 开源 Whisper Large v3 Turbo 模型,速度提升 8 倍,支持多语言。
前沿资讯
1、Pika AI 发布 1.5 模型。
能够生成更逼真的动作,同时具备生成指定物理效果,被称之为 “Pikaffects” 功能。
简单来说,允许上传任何图像,实现对其中对象进行放大、炸裂、融化或变成蛋糕之类的效果。
目前已经上线,可以直接在 Pika 官网上使用。
2、微软发布全新 Copilot,面向所有人的 AI 伴侣。
其中有四项全新功能,能让我们与 AI 的互动更加自然和直观,分别是:
- Copilot Voice:允许我们通过语音与 AI 进行交流,界面交互看着比 GPT-4o 要更加人性化些。
- Copilot Vision:能够实时理解和回应我们所看到的内容,比如正在查看的网页,包括文本和图像。
- Copilot Daily:提供新闻和天气摘要,可用你指定的声音进行播放。
- Personalized Discover:提供更多个性化引导,帮助我们更好开始使用 Copilot。
详细介绍:https://blogs.microsoft.com/blog/2024/10/01/an-ai-companion-for-everyone/
此次更新,主要提供更直观的个性化体验,支持我们在日常生活中的决策和学习,同时强调对用户隐私和数据安全的重视。
3、OpenAI 2024 开发者大会低调结束。
时隔一年,今日凌晨 OpenAI 在旧金山再度举行 DevDay,相比去年,今年格外低调,没有直播,Sam Altman 也没有出席。
这次针对开发者主要有四项功能更新:
提示缓存 (Prompt Caching)
- 开发者通过重复使用先前执行过的符号(token),能够大幅降低成本。
视觉微调 (Vision Fine-Tuning)
- 开发者可以微调AI模型使之更好地识别特定图像,为"自动驾驶"或"医学影像"应用开启新篇章。
实时 API (Realtime API)
让开发者打造多模态(语音、文字、图像)、更低延迟的对话应用,并且更轻松地将高级语音功能整合到应用程序中。
例如,让 AI 代理人打电话订购巧克力。
模型提炼 (Model Distillation)
被视为一项变革。开发人员可以使用 OpenAI 大型模型来"训练"更小的模型,以此创造出针对特定需求的定制化版本。
这些经过提炼的模型运行速度更快,成本更低。
详细介绍:https://openai.com/devday/
4、Open AI 开源一个新的语音转文本模型:Whisper Large v3 Turbo。
基于 Whisper Large V3 微调,解码器从 32 层减少至 4 层,运行速度提升了 8 倍,而且支持多语言。
模型下载:https://huggingface.co/openai/whisper-large-v3-turbo
在线体验:https://huggingface.co/spaces/hf-audio/whisper-large-v3-turbo
如果你正在使用 Whisper 构建应用,可以替换到这个最新模型。