开发任务
- 更改
ttype的判等逻辑, 在代码中减少== 0这种语义不明的写法 - 非常规表格表头的处理 (让
pdf2docx决定) - 在
TitleNode中添加章节范围- 在一页中区分表格和正文 (使用 bbox)
- 使用
pdf2docx提取表格
- 识别并读取
config.yaml文件, 建立数据结构 - 书写搜索和信息提取逻辑
- header y 坐标的提取
- 页码 y 坐标的提取
- match 后返回 ContentRange
- 根据坐标完成信息提取和整合
- 将 ContentRange 的 start_y 从 y0 改为 y1
- 用户友好界面