今日精选的前沿 AI 信息,欢迎阅读 👇
🎨 敏神发布 Flux 版 IC-Light V2 模型,支持自动抠像、背景生成和光影合成,16ch VAE 技术提升细节还原度。
🤖 微软开源 OmniParser,一款纯视觉 GUI 智能体,可识别界面交互图标并理解截图语义,支持多种视觉语言模型。
🔧 GitHub520 项目提供简单的 Hosts 修改方案,仅需 5 分钟即可解决 GitHub 访问慢、图片加载失败等问题。
⌨️ fzf 是一款强大的命令行模糊查找工具,支持文件、命令历史等多种查找,可与 bash、zsh、Vim 等工具集成。
AI 绘画
1、ControlNext 作者敏神发布 Flux 版 IC-Light V2。
基于 Flux 的 IC-Light 模型,能够自动抠像、生成准确的背景、自动匹配光影合成,生成新的图像。
GitHub:https://github.com/lllyasviel/IC-Light/discussions/98
并且具有 16ch VAE 和原生高分辨率,极大地保留原图像的细节。
前沿技术
1、微软开源了一个基于纯视觉的 GUI 智能体:OmniParser。
它能够准确识别界面上可交互图标以及理解截图中各元素语义,以实现更多自动化界面交互的场景,如自动化测试、自动化操作等。
GitHub:https://github.com/microsoft/OmniParser
详细介绍:https://microsoft.github.io/OmniParser/
主要通过其强大的屏幕解析技术,将用户界面转换为结构化元素,从而提高了 GPT-4V 等多模态模型的视觉识别能力。
支持与不同的视觉语言模型无缝集成,如 Phi-3.5-V、Llama-3.2-V 以及 GPT-4V 等。
开源项目
1、给大家推荐过不少 GitHub 项目,但常常看到有人说访问慢、图片加载不出来。
如果你也有这样的问题,一定要试试这个 GitHub520 项目,无需安装任何程序,仅需 5 分钟,解决访问时图裂、加载慢的问题。
GitHub:https://github.com/521xueweihan/GitHub520
主要通过 SwitchHosts 工具来修改 Hosts 实现,并提供最新可用的 hosts 文件。
2、一个功能强大的命令行模糊查找器:fzf。
通过模糊匹配算法快速地对任何列表中筛选出想要的命令,包括文件、命令历史、进程、主机名、书签和 Git 提交等。
GitHub:https://github.com/junegunn/fzf
支持多种显示模式,提供了丰富的自定义选项,并切支持 bash、zsh、fish、Vim 和 Neovim 的集成。