今日精选的前沿 AI 信息,欢迎阅读 👇
🎥 DimensionX 仅需单张图像即可生成可控的 3D、4D 场景视频,支持镜头角度和运镜控制。
🎨 IC-LoRA Visual Identity 一套绘画工作流,可一键生成图标并融入应用场景,效果出众。
📄 Paperless-ngx:开源文档管理系统,支持 OCR 识别、多语言处理、智能分类,可将纸质文档转为可搜索的在线文档。
前沿技术
1、单张图像生成 3D 和 4D 场景视频:DimensionX。
通过一种可控视频扩散模型实现,能够从单张图像生成 3D 或 4D 场景,并且可控制视频镜头角度和运镜,有点类似 Runway 的高级镜头控制。
详细介绍:https://chenshuo20.github.io/DimensionX/
这对于视频生成来说更加可控可玩性更强,不过目前模型以及代码还未开源。
AI 绘画
1、分享 Glif 上的一套图标+应用场景工作流:IC-LoRA Visual Identity。
通过提示词可一键生成图标+文字,并将它放置到合适应用场景中,效果很好!
在线体验:https://glif.app/@angrypenguin/glifs/cm3876gyc000cshqwjgywclv4
感兴趣的,可以点击上方链接去体验下。
开源项目
1、一款功能强大的文档管理系统 Paperless-ngx。
它能够将你的纸质文档转换成在线可搜索的文档,并进行分类和索引,方便随时搜索查阅。
GitHub:https://github.com/paperless-ngx/paperless-ngx
主要有如下特性:
- 通过 OCR 技术自动扫描处理文档,同时能添加可搜索和可选文本。
- 能够利用标签、类型等多种方式来管理和分类文档,可利用机器学习技术自动分类。
- 文档保存为 PDF 格式,并同时保留未更改的原始文件。
- 支持识别超过 100 多种语言。
- 支持多种文件类型,如 PDF 文档、图像、纯文本文件或各类办公文档等。
- 界面美观、提供全文搜索功能、邮件处理功能。
- 有强大的多用户权限系统,支持全局权限和针对单独文档设置权限。