Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

[Feature Request] 知识库图片内容识别——让"灵感漫步"不再遗漏图片中的知识 #27

Open

Description

Hi Jamailar 👋

首先想说我真的很喜欢 RedBox!这个产品太酷了,把知识采集和 AI 结合起来的思路非常棒,感谢你的开发和付出 🙏


问题背景:

小红书等平台的内容大量以图片形式呈现(图文笔记、文字截图、信息图、数据图表等)。RedBox 的知识库可以采集这些笔记,但采集后图片中的内容对 AI 来说是"看不见的"——无法被检索、无法被"灵感漫步"功能引用。

这导致知识库实际可用的内容严重缺失。用户以为采集了 10 条笔记,但 AI 可能只能读到其中 3 条的文字部分,其余都锁在图片里。

期望功能:

  1. 图片内容识别转文本(双模式)

    • OCR 模式:适用于纯文字截图、排版整齐的文字图片,速度快、成本低
    • 多模态大模型模式:适用于信息图、流程图、数据图表、手绘等复杂图片,能理解语义并结构化转写为 Markdown(比如把一张数据图转成表格,把流程图转成步骤列表)
    • 用户可按需选择模式,或设置默认模式
  2. 自动识别模式

    • 新采集的笔记入库时,自动检测图片并执行识别
    • 用户可选择开关此功能,以及默认使用哪种识别模式
  3. 批量处理已有图片

    • 提供一个"批量识别"按钮,一次性处理知识库中所有未识别的图片
    • 显示处理进度

识别结果存储方式:

识别出的文本以 Markdown 格式附加到对应笔记中(可放在图片下方),确保 AI 检索和"灵感漫步"功能可以直接使用。

为什么重要:

图片内容是当前知识库的最大盲区。尤其是小红书——博主把核心内容放在图片里是常态,纯文本部分往往只是引言。没有图片识别能力,知识库只采到了"皮","肉"全丢了。补上这个能力,知识库的可用性会有质的提升。

再次感谢你的工作,期待 RedBox 越来越好!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

      Relationships

      None yet

      Development

      No branches or pull requests

      Issue actions

        AltStyle によって変換されたページ (->オリジナル) /