[Feature Request] 知识库图片内容识别——让"灵感漫步"不再遗漏图片中的知识 #27

Open

Description

opened

Hi Jamailar 👋

首先想说我真的很喜欢 RedBox!这个产品太酷了,把知识采集和 AI 结合起来的思路非常棒,感谢你的开发和付出 🙏

问题背景:

小红书等平台的内容大量以图片形式呈现(图文笔记、文字截图、信息图、数据图表等)。RedBox 的知识库可以采集这些笔记,但采集后图片中的内容对 AI 来说是"看不见的"——无法被检索、无法被"灵感漫步"功能引用。

这导致知识库实际可用的内容严重缺失。用户以为采集了 10 条笔记,但 AI 可能只能读到其中 3 条的文字部分,其余都锁在图片里。

期望功能:

图片内容识别转文本(双模式)
- OCR 模式:适用于纯文字截图、排版整齐的文字图片,速度快、成本低
- 多模态大模型模式:适用于信息图、流程图、数据图表、手绘等复杂图片,能理解语义并结构化转写为 Markdown(比如把一张数据图转成表格,把流程图转成步骤列表)
- 用户可按需选择模式,或设置默认模式
自动识别模式
- 新采集的笔记入库时,自动检测图片并执行识别
- 用户可选择开关此功能,以及默认使用哪种识别模式
批量处理已有图片
- 提供一个"批量识别"按钮,一次性处理知识库中所有未识别的图片
- 显示处理进度

识别结果存储方式:

识别出的文本以 Markdown 格式附加到对应笔记中(可放在图片下方),确保 AI 检索和"灵感漫步"功能可以直接使用。

为什么重要:

图片内容是当前知识库的最大盲区。尤其是小红书——博主把核心内容放在图片里是常态,纯文本部分往往只是引言。没有图片识别能力,知识库只采到了"皮","肉"全丢了。补上这个能力,知识库的可用性会有质的提升。

再次感谢你的工作,期待 RedBox 越来越好!

No one assigned

No labels

No projects

No milestone

None yet

No branches or pull requests