查看: 350|回复: 12
打印 上一主题 下一主题

[求助] 请问PDF文件的数千个词条怎么有序提取出来?

[复制链接]
  • TA的每日心情
    开心
    2022-5-20 13:36
  • 签到天数: 144 天

    [LV.7]常住居民III

    173

    主题

    978

    回帖

    13万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    137561

    QQ 章

    跳转到指定楼层
    1
    发表于 2021-1-20 21:39:58 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    词条比较多,很难一个一个输入
  • TA的每日心情
    开心
    2022-5-20 13:36
  • 签到天数: 144 天

    [LV.7]常住居民III

    173

    主题

    978

    回帖

    13万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    137561

    QQ 章

    2
     楼主| 发表于 2021-1-20 21:41:37 | 只看该作者
    排到Excel里面,古代汉语的图片词典

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    3
    发表于 2021-1-21 07:56:02 | 只看该作者
    图片词典,是古汉语,还想一键提取?

    答案真就是一个一个输入

    话说回来,你要做的是哪本?论坛好像不太缺古汉语资源了现在
  • TA的每日心情
    开心
    2022-5-20 13:36
  • 签到天数: 144 天

    [LV.7]常住居民III

    173

    主题

    978

    回帖

    13万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    137561

    QQ 章

    4
     楼主| 发表于 2021-1-21 17:29:28 | 只看该作者
    klwo2 发表于 2021-1-21 07:56
    图片词典,是古汉语,还想一键提取?

    答案真就是一个一个输入

    是的,我想做几本小词典练练手,但是不知道这么多的词头怎么提取。我也是看了大佬的制作帖子想尝试做的。

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    5
    发表于 2021-1-21 20:18:39 | 只看该作者
    gudaochuanren 发表于 2021-1-21 17:29
    是的,我想做几本小词典练练手,但是不知道这么多的词头怎么提取。我也是看了大佬的制作帖子想尝试做的。 ...

    练手就用小词典啊

    用大的,做到一半就疲倦了

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    6
    发表于 2021-1-21 20:49:59 | 只看该作者
    gudaochuanren 发表于 2021-1-21 17:29
    是的,我想做几本小词典练练手,但是不知道这么多的词头怎么提取。我也是看了大佬的制作帖子想尝试做的。 ...

    一般都要OCR,但OCR并不是提取,还是要人工校对的
  • TA的每日心情
    开心
    2022-5-20 13:36
  • 签到天数: 144 天

    [LV.7]常住居民III

    173

    主题

    978

    回帖

    13万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    137561

    QQ 章

    7
     楼主| 发表于 2021-1-22 12:40:32 | 只看该作者
    klwo2 发表于 2021-1-21 20:49
    一般都要OCR,但OCR并不是提取,还是要人工校对的

    请问用什么ocr软件准确率高一点呢?我用了几个感觉准确率还是太低
  • TA的每日心情
    无聊
    3 天前
  • 签到天数: 634 天

    [LV.9]以坛为家II

    10

    主题

    952

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10620
    8
    发表于 2021-1-23 22:24:09 | 只看该作者
    gudaochuanren 发表于 2021-1-22 12:40
    请问用什么ocr软件准确率高一点呢?我用了几个感觉准确率还是太低

    楼主找到好的ocr方法和软件了吗?我也是这两天刚刚在学,很困惑
  • TA的每日心情
    开心
    2022-5-20 13:36
  • 签到天数: 144 天

    [LV.7]常住居民III

    173

    主题

    978

    回帖

    13万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    137561

    QQ 章

    9
     楼主| 发表于 2021-1-23 22:49:45 | 只看该作者
    iandros 发表于 2021-1-23 22:24
    楼主找到好的ocr方法和软件了吗?我也是这两天刚刚在学,很困惑

    找到了一个,但是效率还不甚满意,我也刚刚学习,可以加我的QQ3259975614
  • TA的每日心情
    开心
    3 天前
  • 签到天数: 463 天

    [LV.9]以坛为家II

    8

    主题

    494

    回帖

    1万

    积分

    状元

    不安分的漫游者

    Rank: 9Rank: 9Rank: 9

    积分
    10516

    笑傲江湖章灌水大神章

    10
    发表于 2021-2-9 04:42:51 | 只看该作者
    其实关键还不是ocr软件,而是图片的清晰度,清晰度不高,再好的ocr软件也白搭。
    据说finereader的ocr效果比较好
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    11
    发表于 2021-2-12 10:40:47 | 只看该作者
    本帖最后由 starmars 于 2021-2-12 10:42 编辑

    这年头谁手上没个几十部甚至几百部PDF词典的?原材料远比文本版词典多,但产品数量远比文本版少,这真是不可理喻之怪现象。归根到底,这都是什么原因造成的?

    其一:
    精确到页面每个词条的图片词典需要抠图,制作起来的确太费事,即使有工具软件也太累。而即使是只把每页每个词头找出来不抠图都可以让大多数人望而生畏。
    我一再表达我的如下观点:对广大时间有限且电脑技术水平不高的人民群众来说,利用虚拟词表作粗略匹配只精确到页的图片词典,才是真正有实用意义的图片词典制作。这远比楼主所倡导的用Pdf书签来当词典有意义得多。
    我即将发布点小工具帮助大家制作这种词典,目标是除去OCR电脑自动做的工作,人工操作开销生手1小时,熟手半小时完成制作。

    其二:
    有不少热心网友愿意奉献制作经验,甚至写了超多的文字说明来教大家,但是文字这东西能高效且清晰地讲清楚电脑软件的操作吗?我一向的观点是,将操作录下来视频,别只用文字说明!可能你写一小时的文字操作说明还赶不上一分钟的操作视频教学来得清楚简单!这种累自己又折磨别人的事,尽量少做为佳。

    希望图片词典的春天能到来!
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    12
    发表于 2021-2-17 01:24:17 | 只看该作者
    在ABBYY中存为HTML格式,也许这些词头会有特别的标签包裹,这就好处理了
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    13
    发表于 2021-2-26 14:35:24 | 只看该作者
    本帖最后由 starmars 于 2021-3-3 13:24 编辑

    很遗憾,本论坛这么多年来没有人愿意详细分享这个如何提取出每页词头问题的经验(即使有,他也不开放相关工具软件的下载)。

    说实话,本论坛已经推出的词典软件工具从专业软件开发人员的视角看大都是很简单的,几乎没有技术含量。

    图片词典制作的真正困难的地方并不在这些小工具软件怎么制作,而是在大多数人无超多时间和耐心的现实情况下,每页的词头怎么快速有效提取出来,这才是制作图片词典的最最关键和难点。

    如果没有普遍适用的方法就说明比较麻烦,还是仅提取每页首/尾词,用虚拟词表吧!