TA的每日心情 | 衰 2019-9-23 23:38 |
---|
签到天数: 8 天 [LV.3]偶尔看看II
禁止发言
- 积分
- 47766
|
本帖最后由 lbhl 于 2020-1-20 20:58 编辑
最近改版了几个图片版词库,但仅限于图片的清晰化处理和MDX的小修改,最关键的词头并未也无需改变。
一直很好奇,这些图片版的MDX词头是如何得到的?
无需探讨技术细节也很容易想到如下问题:
如果是OCR必然有很多错误而需要人工检查,但仅仅是将一部词典每页上的词头OCR结果都人工检查一遍,那也是个不得了的工作量了。难道是只需得到和检查每一页第一个和最后一个词头而不管中间的词头?比如正在做的图片版词库来自词典A,那么找一个收词量巨大肯定包含A所有词头的词典B,且词典B的MDX已经有现成的。然后将B的词头当成A的来用(精确地说,B中收录的任何词X,只要字母顺序位于A中某页第一个词和最后一个词之间,那么不管X是否真的在A中该页收录,一律看成A是收录了且作为一个词头出现在A的MDX中。这样做的话,如果在词典软件中输入A中的词汇肯定没问题,但输入的如果是A没有仅B有的词汇,也将呈现出一个扫描的页面结果,而此页面根本就没有这个词汇。
我相信这个最基本的问题早已在本坛有答案了,但本坛信息纷繁芜杂看得眼花缭乱,实在无精力一一搜索,还望过来人如K大和乔治兄这些图片版词库制作的大师,能在这亲自费点笔墨指点,或者给个链接网页上面有解答的。这样也提高学习效率少走弯路,而把有限的时间花在制作上。
这一切,都为了制作出更多原创图片版词典MDX。我这尽管没有文字版词典,但扫描版词典实在太多了,估计任何一个人都没有我收藏多,这个优势不利用起来也对不起本坛如饥似渴的网友啊。
|
|