今日精选的前沿 AI 信息,欢迎阅读 👇
💡 DeepSeek 推出 Janus 多模态模型,解耦视觉编码,同时优化图像理解和生成能力。
🖼️ OpenAI Canvas 更新 "Show changes" 功能,方便查看历史修改。
📚 GitHub 上全面的提示词学习指南 Prompt_Engineering,涵盖基础到高级技巧。
📷 开源文档 OCR 工具 Surya,支持多语言文本识别和文档布局分析。
📁 LocalSend:无需联网的跨平台文件传输工具,类似 AirDrop,安全快速。
前沿资讯
1、DeepSeek 发布新的多模态模型 Janus。
通过将视觉编码解耦为独立路径,能够同时处理图像理解和生成任务,同时在理解和生产方面都优于以前的模型。
论文:https://arxiv.org/abs/2410.13848
GitHub:https://github.com/deepseek-ai/Janus
2、OpenAI Canvas 面板更新。
现在可以通过 “Show changes” 按钮,查看历史修改过的地方。
开源项目
1、一份颇为全面的提示词学习指南:Prompt_Engineering。
涵盖了从基础到高级的提示工程技术的学习资源,包括基本概念、思维链(CoT)、角色提示、结构提示以及可直接用的提示模板等内容。
GitHub:https://github.com/NirDiamant/Prompt_Engineering
旨在帮助大家更好地学习与使用大语言模型,无论你是初学者还是高级提示工程师,值得一看。
2、一款开源且强大的文档 OCR 工具:Surya。
专注于文档图像的处理和分析,能够准确的逐行文本检测和识别,并且支持任何语言。
GitHub:https://github.com/VikParuchuri/surya
主要功能:
- 支持 90+ 种多语言,包括中文、英文、日语、阿拉伯语等;
- 支持任何语言的行级文本检测,准确识别文档中的每一行文字;
- 支持文档布局分析,包括表格、图像、标题等;
- 支持阅读顺序检测,面对复杂阅读排版,如左右两列,它能知道先读哪里,再读哪里;
- 支持精确识别表格中的行与列内容。
3、推荐 GitHub 上一款无需联网的跨平台文件传输工具:LocalSend。
类似 AirDrop,可以在本地网络上安全地与附近设备共享文件和消息,简单易用且传输速度超快。
GitHub:https://github.com/localsend/localsend
另外,支持 Windows、macOS、Linux、Android 和 iOS 平台,完全开源且无广告,有需求的可以试试。