查看: 1089|回复: 26
打印 上一主题 下一主题

[词典校勘] [英-汉]尝试文字版朗文英语写作活用词典抛砖引玉

[复制链接]
  • TA的每日心情
    郁闷
    2018-5-17 09:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    56

    主题

    490

    回帖

    1万

    积分

    分区版主

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    12730

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    跳转到指定楼层
    1
    发表于 2019-4-2 17:38:48 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    论坛的Android大侠做了一本朗文英语写作活用词典·英汉双解-文字版,详细见  https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=32997&highlight=%E6%9C%97%E6%96%87%E8%8B%B1%E8%AF%AD%E5%86%99%E4%BD%9C%E6%B4%BB%E7%94%A8%E8%AF%8D%E5%85%B8

    最近也尝试玩一下这种,自己还是差远了。而且有几个不明白的问题。

    1.OCR后的正确率不是很理想,会造成数据有多有少的情况。用程序可以查出有问题的,但多了的数据及少了的数据是如何自动修补?

    2.OCR后的数据错误率很高,标点方面最为突出,有些字会拆分成“彳亍”这样的,或是一个字拆成乱码。这种没有规律的只能用人肉校正,我无法做到用程序去替换,就是用程序替换也最多50%正确.

    个人认为还是人工校对为最好。电脑自动化我还是做不到。
    有能力的坛友对这方面感兴趣可以研究一下这方面的技术,图片版字典成文字版的这是大家所追求的。所以放出我的待校正的中文数据及校正时参考用的文字二个文件,当然最好是结合论坛的PDF文件校对则更好。大家只要把中文校正好合并一下就是一本英汉版了。

    当然,这方式比起那本人工录入韦氏高级双解速度快多了。



    链接:https://pan.baidu.com/s/1Gyxe7PVYM9X5myYiAIDksA
    提取码:fhmr



    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    慵懒
    2022-3-16 01:47
  • 签到天数: 389 天

    [LV.9]以坛为家II

    8

    主题

    753

    回帖

    2099

    积分

    解元

    Rank: 5Rank: 5

    积分
    2099
    推荐
    发表于 2019-4-2 22:06:43 | 只看该作者
    使用不同的OCR引擎进行对比,国内的话百度和必应的引擎都不错,百度收费,必应的话AWS不太好搞。
    本地类的OCR,ab家的14号称是中文支持最好。

    最后还是考虑大规模的人工分工核对吧。谁牵头组织一下,分段校对一次,再统一改css。这个可好?
  • TA的每日心情
    开心
    2018-8-26 14:41
  • 签到天数: 45 天

    [LV.5]常住居民I

    13

    主题

    121

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16623
    推荐
    发表于 2019-4-3 11:11:37 | 只看该作者
    y8888 发表于 2019-4-3 10:37
    错误率高是OCR引起的。另外OCR后我还是人工把密密马马的数据断好行再进行匹配。关键在于OCR的正确性,人工 ...

    仅仅用云翻译或是两份OCR对比,还是不够的,需要用到的方法非常多,而且要结合一起来使用。

    我之前有说过云翻译没法解决释义的问题。只能简单解决例句问题(而且还不能彻底的解决)
    至于标点符号,我目前也已经能找到很好方法自动化解决了。

    目前AI技术真的非常成熟了,我文本化就是用了AI技术。
    连演员人脸都能换掉,文本化或自动化校对算是小儿科了。
    https://www.bilibili.com/video/a ... =779593434168593158

    点评

    看了这个人脸更换的视频,感觉不是很完美,瑕疵明显,可以看出是换了的  发表于 2019-4-3 14:42
  • TA的每日心情
    奋斗
    2022-10-21 20:59
  • 签到天数: 282 天

    [LV.8]以坛为家I

    1

    主题

    535

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    18078
    2
    发表于 2019-4-2 18:22:20 | 只看该作者
    我也试过ocr,因为错误率太高,放弃了。不知道android大牛使用了什么好的办法?真心希望android大牛能简单写写教程。
  • TA的每日心情
    奋斗
    2022-10-21 20:59
  • 签到天数: 282 天

    [LV.8]以坛为家I

    1

    主题

    535

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    18078
    3
    发表于 2019-4-2 18:24:29 | 只看该作者
    既然有了粗制待矫正版本的,不知能否组织论坛的同志们进行校正,这样就快了。组织个几十个人,每人分配一下任务,很快就会完成了。

    点评

    你们自由发挥吧。吾非小气之人。  发表于 2019-4-2 21:39
    你们自由发挥吧。吾非小气之人。  发表于 2019-4-2 21:39
  • TA的每日心情
    开心
    2019-4-2 18:47
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    5

    主题

    41

    回帖

    512

    积分

    举人

    Rank: 4

    积分
    512
    4
    发表于 2019-4-2 18:38:04 | 只看该作者
    发的地址打不开,需要100权限
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    17

    主题

    3141

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    25388

    灌水大神章

    5
    发表于 2019-4-2 18:47:37 | 只看该作者
    可以试试用不同程式的 OCR 结果来比对中文。
  • TA的每日心情
    开心
    2019-12-17 15:32
  • 签到天数: 384 天

    [LV.9]以坛为家II

    0

    主题

    629

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    17944

    QQ 章

    6
    发表于 2019-4-2 18:56:19 | 只看该作者
    没有辅助工具帮忙的话,手动校对也非常花时间,不知道A大是怎么程序自动校对的。。
  • TA的每日心情
    开心
    2019-4-13 15:24
  • 签到天数: 34 天

    [LV.5]常住居民I

    0

    主题

    83

    回帖

    1259

    积分

    解元

    Rank: 5Rank: 5

    积分
    1259
    7
    发表于 2019-4-2 21:51:09 | 只看该作者
    oversky 发表于 2019-4-2 18:47
    可以试试用不同程式的 OCR 结果来比对中文。

    这个看起来挺OK
  • TA的每日心情
    开心
    2021-6-13 16:50
  • 签到天数: 725 天

    [LV.9]以坛为家II

    10

    主题

    2118

    回帖

    7610

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    7610

    灌水大神章

    9
    发表于 2019-4-3 00:11:27 | 只看该作者
    手机上有,文字纠错程序,针对不同的语种,不知道可否利用这类方式。对常见的错误,似乎可以自编纠错词条。现在输入法都能提供。

    点评

    OCR会引起多字与少字情况,你可以尝试一下。  发表于 2019-4-3 07:33
  • TA的每日心情
    开心
    2018-8-26 14:41
  • 签到天数: 45 天

    [LV.5]常住居民I

    13

    主题

    121

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16623
    10
    发表于 2019-4-3 07:40:04 | 只看该作者
    本帖最后由 Android 于 2019-4-3 09:58 编辑

    论坛有很多管理员都购买到我的这版,我相信他们就算有意花几天时间去找错别字,也几乎找不到错别字。经过这本词典累计的经验,目前我文本化两千多页的词典大概花三天时间能搞定(包括校对在里面了)

    对比后再校对还是属于人工的范畴(当初韦氏就是用这种方法),这个方法最早是我想出来的。但这个也不是我所追求。

    ps:自动校对需要用到几种方法结合。所以根本不需要用到人工来参与校对。

  • TA的每日心情
    开心
    2018-8-26 14:41
  • 签到天数: 45 天

    [LV.5]常住居民I

    13

    主题

    121

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16623
    11
    发表于 2019-4-3 08:32:32 | 只看该作者
    本帖最后由 Android 于 2019-4-3 09:20 编辑

    机器自动文本化主要面临几个问题:
    1、OCR识别多出来的内容
    2、OCR识别的时候,会缺字
    3、OCR识别错误的字
    4、这条严格来说不属于OCR范畴,算匹配的问题了,你要特别注意“中文翻译内容”前后含有“英文数字”。
    如actually词条:事实上,实际上〔相对于in fact来说,actually较为非正式,更多用于会话和问句中。actually还经常用于句首回答提问,但in fact却不然〕
    你的数据是这样的:事实上,实际上(相对于




    文本化《朗文英语写作活用词典》我碰到的技术问题已经超过上百个以上了,经过不停的改善,才能达到目前这个最完美的水平。至于楼主放出来的数据,错误的地方有超过上万处了。

    评分

    1

    查看全部评分

  • TA的每日心情
    郁闷
    2018-5-17 09:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    56

    主题

    490

    回帖

    1万

    积分

    分区版主

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    12730

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    12
     楼主| 发表于 2019-4-3 10:37:14 | 只看该作者
    错误率高是OCR引起的。另外OCR后我还是人工把密密马马的数据断好行再进行匹配。关键在于OCR的正确性,人工断行也可能会出错,导致数据的完整性。处理的方法不同。当数据太多错误则用程序修复我最多只能做到50%正确性。比如“他们*天”这个*有可能是今字或明字等,这种我用程序去修复准确性很低。但可以把英文用云翻译后去捕捉这个*的可能,这样精度会高,但云翻译与纸版的翻译往往出入太大了。最好的方式我觉得还是人工去校队,就算有20%的错误,人工只要录入的数据很少了,最关键的标点那些也会更正过来。标点是OCR的一大痛点。

    点评

    经过韦氏这本词典,我的经验告诉你,反正我是不相信人工来校对,所以《朗文英语写作活用词典》我采用了自动化的方式了。  发表于 2019-4-3 11:34
  • TA的每日心情

    2019-5-4 11:17
  • 签到天数: 36 天

    [LV.5]常住居民I

    0

    主题

    184

    回帖

    1387

    积分

    禁止发言

    积分
    1387
    QQ
    14
    发表于 2019-4-3 14:39:21 | 只看该作者
    楼主的那两个中英双语的字幕mdx非常有价值,还望再接再厉

    点评

    双语字幕太复杂,乱码多,不再继续。你若有兴趣提供对应的时间字幕与能同步的MP3我准备做声音版的。比如生活大爆炸从第三季开始,前二季有做好.  发表于 2019-4-3 17:45

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251307

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    15
    发表于 2019-4-3 16:22:44 | 只看该作者
    Android 发表于 2019-4-3 08:32
    机器自动文本化主要面临几个问题:
    1、OCR识别多出来的内容
    2、OCR识别的时候,会缺字

    其实,英语版本有文字版,英汉版本只有图片的情况还是有一些的,如果有成熟的解决方案,可以试试下面这些:

    蓝登书屋韦氏英汉大学词典,英语蓝本是1984年蓝登书屋韦氏大学

    王同亿 英汉大学词典,英语蓝本据说是蓝登书屋韦氏大学第一版,但是好像跟新版的mdx对不上(王同亿的英汉辞海,蓝本是W3,但我觉得英汉辞海图像算不上好)

    多功能英汉案头大辞源,英语蓝本是 AHD,例句好像没有翻译,看这里:https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=21411

    國際英漢雙解大辭典,英语蓝本应该是W2或者韦氏大学之类的,我好像有纸版,不过没怎么用

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    16
    发表于 2019-4-3 16:56:18 | 只看该作者
    klwo2 发表于 2019-4-3 16:22
    其实,英语版本有文字版,英汉版本只有图片的情况还是有一些的,如果有成熟的解决方案,可以试试下面这些 ...

    挖坑待填
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    17

    主题

    1754

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    19738
    17
    发表于 2019-4-12 09:31:53 | 只看该作者
    是本好书。
    赞成:最好的方式还是人工去校对。

    发动众力,等初步制作一个可用的版本并发布beta版后,再请网友捉bug并提供激励。
    可参考做法https://www.pdawiki.com/forum/thread-30864-1-1.html?x=180507
  • TA的每日心情
    慵懒
    2020-4-10 13:19
  • 签到天数: 269 天

    [LV.8]以坛为家I

    16

    主题

    897

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13141

    QQ 章

    18
    发表于 2019-8-11 11:10:43 | 只看该作者
    感谢大佬分享
  • TA的每日心情
    郁闷
    2023-2-14 10:00
  • 签到天数: 496 天

    [LV.9]以坛为家II

    7

    主题

    908

    回帖

    9574

    积分

    进士

    Rank: 8Rank: 8

    积分
    9574
    19
    发表于 2019-8-11 15:22:38 | 只看该作者
    原来很多词典背后还有这么多问题,多谢Android及各位大佬对论坛做得贡献!
  • TA的每日心情
    擦汗
    2019-10-5 08:29
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    1

    主题

    37

    回帖

    439

    积分

    秀才

    Rank: 3Rank: 3

    积分
    439
    20
    发表于 2019-9-23 11:04:35 | 只看该作者
    啊,大神的文字版贴的阅读权限要大于255!!!
  • TA的每日心情
    慵懒
    2021-3-14 00:55
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    0

    主题

    119

    回帖

    137

    积分

    禁止发言

    积分
    137
    21
    发表于 2021-2-24 02:53:05 | 只看该作者
    啊,大神的文字版贴的阅读权限要大于255!!!