图片版的词头是如何得到的？

lbhl · 发表于 2020-1-20 20:50:36

本帖最后由 lbhl 于 2020-1-20 20:58 编辑

最近改版了几个图片版词库，但仅限于图片的清晰化处理和MDX的小修改，最关键的词头并未也无需改变。

一直很好奇，这些图片版的MDX词头是如何得到的？

无需探讨技术细节也很容易想到如下问题：

如果是OCR必然有很多错误而需要人工检查，但仅仅是将一部词典每页上的词头OCR结果都人工检查一遍，那也是个不得了的工作量了。难道是只需得到和检查每一页第一个和最后一个词头而不管中间的词头？比如正在做的图片版词库来自词典A，那么找一个收词量巨大肯定包含A所有词头的词典B，且词典B的MDX已经有现成的。然后将B的词头当成A的来用（精确地说，B中收录的任何词X，只要字母顺序位于A中某页第一个词和最后一个词之间，那么不管X是否真的在A中该页收录，一律看成A是收录了且作为一个词头出现在A的MDX中。这样做的话，如果在词典软件中输入A中的词汇肯定没问题，但输入的如果是A没有仅B有的词汇，也将呈现出一个扫描的页面结果，而此页面根本就没有这个词汇。
我相信这个最基本的问题早已在本坛有答案了，但本坛信息纷繁芜杂看得眼花缭乱，实在无精力一一搜索，还望过来人如K大和乔治兄这些图片版词库制作的大师，能在这亲自费点笔墨指点，或者给个链接网页上面有解答的。这样也提高学习效率少走弯路，而把有限的时间花在制作上。

这一切，都为了制作出更多原创图片版词典MDX。我这尽管没有文字版词典，但扫描版词典实在太多了，估计任何一个人都没有我收藏多，这个优势不利用起来也对不起本坛如饥似渴的网友啊。

oversky · 发表于 2020-1-20 21:01:14

[2020.01.20]遠東英漢大辭典全索引詞頭
https://www.pdawiki.com/forum/thread-35976-1-1.html?x=183822

要不要跟着做做看。

klwo2 · 发表于 2020-1-20 21:01:35

英语的，用词表匹配

汉语的，就是一个字一个字看

lbhl · 发表于 2020-1-20 21:05:34

klwo2 发表于 2020-1-20 21:01
英语的，用词表匹配

汉语的，就是一个字一个字看

K大过于言简意赅，恕本人愚笨无法理解啊。

TinaIsBunny · 发表于 2020-1-20 21:08:26

oversky 发表于 2020-1-20 21:01
[2020.01.20]遠東英漢大辭典全索引詞頭
https://www.pdawiki.com/forum/thread-35976-1-1.html?x=183822
...

肯定要啊

ccz · 发表于 2020-1-20 22:11:58

我做过两三本，笨方法是：
1.英语应该还好，找相近词头数的词典导出词头，用EXCEL表格手动匹配页码。
2.中文就纯手工录入。
体会：没有特殊需要，以后不做了，太耗时间。

喬治兄 · 发表于 2020-1-23 14:35:38

本帖最后由喬治兄于 2020-1-23 15:28 编辑

lbhl 兄:
詞頭可找份字表去粗匹配
方法如小弟這帖土法煉鋼
https://www.pdawiki.com/forum/thread-33566-1-1.html
這帖已添加狗皮膏藥 +......
若是貼了沒好, 吃了沒硬
那就.....藥石惘然.....

[求助] 图片版的词头是如何得到的？