查看: 345|回复: 2
打印 上一主题 下一主题

[求助] 如何提取OCR识别出的可编辑PDF中黑体词条?

[复制链接]
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    25

    主题

    646

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16738
    跳转到指定楼层
    1
    发表于 2020-7-9 19:08:04 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    如何提取OCR识别出的可编辑PDF中黑体词条?
    如下动图所示,有一个根据扫描PDF识别出的可编辑格式PDF,感觉其中的词条识别结果正确率很高,释义和例句部分的识别结果估计有错误。有什么工具能提取出其中的词条吗?方便做图片词典,可能的话,还可以提取出其中的释义和例句,方便做成文本格式的mdx,不过做mdx之前,需要仔细校对这些文本


    0709b.gif (3.76 MB, 下载次数: 1)

    0709b.gif

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    2
    发表于 2020-7-9 21:13:08 | 只看该作者
    如果不借用工具的话(比如chigre的工具),最直接的办法就是复制粘贴

    当然了你肯定不喜欢这个费时费力的答案,但是目前来看就是这样
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    15

    主题

    336

    回帖

    15万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    153139

    灌水大神章小蜜蜂章笑傲江湖章推广专家QQ 章

    3
    发表于 2020-7-10 00:07:24 | 只看该作者
    导出成docx或者txt看看