查看: 297|回复: 5
打印 上一主题 下一主题

[求助] 什么工具和方法提取扫描页面中词头速度是最快的?

[复制链接]
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    跳转到指定楼层
    1
    发表于 2021-2-4 21:53:56 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    扫描页面OCR之后,词头如何与释义例句等最快速分开呢?有的词头还带小点分割音节的。(不做复杂的切片词典,只求分离出每页的词头)。坛子里信息太多看得眼花没时间一个个试了,有过来人传授经验最好了。
    谢谢了!
  • TA的每日心情
    慵懒
    2021-11-4 14:19
  • 签到天数: 395 天

    [LV.9]以坛为家II

    41

    主题

    1527

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12565

    笑傲江湖章推广专家灌水大神章

    2
    发表于 2021-2-5 08:07:43 | 只看该作者
    abbyy,先在文本模式下选择文字+页码,然后保存为区域模板。前提是图片处理为一页只有一栏(文字+页码),使得模板能够准确套用。识别之后选择标准格式导出,就基本实现文字和页码有良好的分隔。然后用正则替换文字页码之间的内容为tab
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    3
     楼主| 发表于 2021-2-6 13:32:18 | 只看该作者
    abtxu 发表于 2021-2-5 08:07
    abbyy,先在文本模式下选择文字+页码,然后保存为区域模板。前提是图片处理为一页只有一栏(文字+页码), ...


    “就基本实现文字和页码有良好的分隔” —— 朋友,OCR之后词头和其释义例句都成了文字了,我的问题是怎么将每页上的每个词头(每页上有很多词头,我不是指仅在页眉的那一两个标注本页头尾的词头)与其释义例句等分隔开从而提取出来,最终的目的就是得到页码和该页所有词头单词的对应关系。
  • TA的每日心情
    开心
    3 天前
  • 签到天数: 463 天

    [LV.9]以坛为家II

    8

    主题

    494

    回帖

    1万

    积分

    状元

    不安分的漫游者

    Rank: 9Rank: 9Rank: 9

    积分
    10516

    笑傲江湖章灌水大神章

    4
    发表于 2021-2-9 04:27:25 | 只看该作者
    本帖最后由 badnumber 于 2021-2-9 04:28 编辑

    这个要写程序去解析,因为不同的词典的“凡例”不一样,所以应该没有通用的工具。而且ocr百分之百是会有错的,所以除非先校对,否则解析肯定也会有错。
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    5
     楼主| 发表于 2021-2-9 18:51:04 | 只看该作者
    我在编写程序帮助纠正OCR的错误。一个OCR出来的单词在WORD或者EXCEL中不被软件用红线标识出可能有拼写错误,那也不见得OCR就没错。如果本应按字母表排序的单词突然发现某个单词排序错了那肯定是有拼写错了
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    6
     楼主| 发表于 2021-2-14 11:44:37 | 只看该作者
    abtxu 发表于 2021-2-5 08:07
    abbyy,先在文本模式下选择文字+页码,然后保存为区域模板。前提是图片处理为一页只有一栏(文字+页码), ...

    我问的是,什么方法比较快可以挑出来选择正文解释部分删除掉,而只保留词头?做图片词典,咱要的只是某页对应哪些词头而已哦。