查看: 634|回复: 5
打印 上一主题 下一主题

[悬赏] 1万米求两本词典OCR

[复制链接]
  • TA的每日心情
    开心
    2019-5-28 07:39
  • 签到天数: 339 天

    [LV.8]以坛为家I

    87

    主题

    558

    回帖

    4万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    42243
    跳转到指定楼层
    1
    发表于 2019-8-17 16:26:34 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    10000
    本帖最后由 leescott 于 2019-8-17 18:13 编辑

    两本书想做成MDX,ocr不是很懂。OCR到文本,就好了。
    厚的一本,主要是后面五十六页,需要分六栏。正文也请您OCR,我会提取词语,对照后面的56页,免得校对。
    薄的一本,只需要120页目录(大约11-130),分三栏,希望顺序准确。本来下载有书签,但是,顺序很乱。要是目录能够分级,就更好了。
    另外,我打算做成诗词助手的索引。工具书数据库有这两本,改版了却不会下载了,只是目录都下载不到。而且薄的一本数据库不全,本来9000多,它只有6000多。
    就是说,厚的一本,数据库下载、整理也是一个办法。

    谢谢!但愿正确率非常高哟。

    链接:https://pan.baidu.com/s/1-reABSegGPJ4y8oRnfv6sg
    提取码:ndhq




    最佳答案

    查看完整内容

    链接:https://pan.baidu.com/s/1kHAIXu6mJn0MTc3hKXjxNw 提取码:0dfp 复制这段内容后打开百度网盘手机App,操作更方便哦
  • TA的每日心情
    开心
    4 小时前
  • 签到天数: 624 天

    [LV.9]以坛为家II

    539

    主题

    1981

    回帖

    5万

    积分

    超级版主

    Rank: 12Rank: 12Rank: 12

    积分
    53357

    翰林院专用章推广专家灌水大神章笑傲江湖章小蜜蜂章管理组专用章QQ 章

    2
    发表于 2019-8-17 16:26:35 | 只看该作者
    本帖最后由 孤影 于 2019-8-17 14:41 编辑

    链接:https://pan.baidu.com/s/1kHAIXu6mJn0MTc3hKXjxNw
    提取码:0dfp
    复制这段内容后打开百度网盘手机App,操作更方便哦
  • TA的每日心情
    开心
    2019-5-28 07:39
  • 签到天数: 339 天

    [LV.8]以坛为家I

    87

    主题

    558

    回帖

    4万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    42243
    3
     楼主| 发表于 2019-8-18 08:20:07 | 只看该作者
    本帖最后由 leescott 于 2019-8-18 10:10 编辑


    首先,感谢了!
    事物异名分类词典这本,特别想顺序一样,不然,复制出来乱的要死,应该比书签还乱,就失去意义了。
    另一本,书的效果比较好,感觉还可以。顺序不是特别要求,因为可能主词条少一些。当然,有顺序更好了。
    我也有FR,所以,稍微一点点不满意。
    这些软件经常吹嘘95%以上准确率,实际上,像这样取词的时候,大约85%左右的准确率。软件还是有很大发展空间,比如,人工智能。

  • TA的每日心情
    开心
    2019-5-28 07:39
  • 签到天数: 339 天

    [LV.8]以坛为家I

    87

    主题

    558

    回帖

    4万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    42243
    4
     楼主| 发表于 2019-8-18 08:55:19 | 只看该作者
    继续接受别的更加完美的OCR。谢谢!
  • TA的每日心情
    开心
    2019-5-28 07:39
  • 签到天数: 339 天

    [LV.8]以坛为家I

    87

    主题

    558

    回帖

    4万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    42243
    5
     楼主| 发表于 2019-8-18 11:06:02 | 只看该作者
    我用acrobat来OCR多一点。平常也不导出文本什么的。
    刚才有个发现,分享一下。
    我的图像位置居中处理的,这样在FR里面画出三五个框,保存区域模板。然后,马上导入区域模板,有个应用到所有页面的点选。居然,别的页面也有框了。
    画框是为了得到精确文本的位置、顺序。
  • TA的每日心情
    开心
    2019-9-4 10:12
  • 签到天数: 1 天

    [LV.1]初来乍到

    4

    主题

    60

    回帖

    234

    积分

    童生

    Rank: 2

    积分
    234
    6
    发表于 2019-9-2 13:53:13 | 只看该作者
    lz,请问你那么多米是怎么来的?