TA的每日心情 | 擦汗 2020-7-3 13:51 |
---|
签到天数: 19 天 [LV.4]偶尔看看III
状元
- 积分
- 10032
|
本帖最后由 starmars 于 2021-3-7 15:38 编辑
制作OCR图片词典的关键点在于OCR出每个页面的所有词头。ABBYY FineReader中要是有办法指定其只OCR词头,而不是眉毛胡子一把抓OCR整个页面,而让词头内嵌在正文中多一道繁杂的工序让自己想办法手工挑选出来词头,这个关键问题就解决了。
目前可以自己指定页面的一个区域让ABBY仅OCR每个页面这个区域,这种方法可以OCR出每页页眉的首词末词索引。但位于正文中的每个词头位置是不固定的,无法用这种指定OCR区域的方法。
已经有高人有专门的软件进行划线等处理来解决这个问题,但这个软件作者不公开下载和详细使用方法。强烈建议作者能开放这个软件,因为我并未看到软件作者靠其来牟利,既然不想靠它赚钱为什么不公开呢?一旦公开,有大量热心网友的制作,各种图片词典就会象雨后春笋一样出来了。留着只自己用有什么好处?是因为担心版权问题吗?但是,卖万能钥匙的人不犯法,只有使用万能钥匙去开锁用来牟利的人才犯法,这个逻辑对吧?
有一个解决思路大家看看:ABBYY OCR整个页面之后,如果选择保存成HTML文件,可以发现页面中词头因为颜色较或者字体与正文不同比较粗,都会被包裹在一个与正文CSS样式不同的标签内,例如单词bit <span class="font3" style="font-weight:bold;">bit</span> 而非词头的正文解释可能会使用另外的样式如class="font2"。 这样就可以利用正则表达式仅提取出词头来。但是这又有问题:如何做到知道哪些词头对应哪个页面呢?你可能会说页码数字不也OCR出来了吗?但实践中我发现页码数字可能会与正文解释中数字混杂在一起需要人工麻烦地检查。于是可以在ABBYY中每页OCR结果保存成一个HTML文件,这样词头和页码对应关系就解决了,之后还有合并文件内容的textforever软件可将所有OCR出来的内容合并成一个文件。但是如何同时在上千张HTML页面文件内同时批处理进行正则处理提取出词头?难道我要手工一页页来弄?当然,我可以自己编程处理,但自己编程肯定没有EMEDITOR这种通用文本编辑器好,因为自己写的小程序毕竟不如商业软件健壮和功能强大,如无法预览无法后悔等等,除非花很多时间写。
我又想:既然ABBYY OCR之后给词头包裹了特定样式的标签,说明它可以单独识别出来词头。既然有这个能力识别单独的词头,难道这个软件就没有用一种方法让用户告诉它仅选择OCR词头吗?如果我是ABBYY的作者,我可以让用户先OCR一页样本成HTML,然后让用户指定这个HTML中的使用了特定样式的标签如<span class="font3" style="font-weight:bold;">,然后再OCR全部页面中和我指定的这个标签的内容样式相同相似的内容即词头,这不就解决了吗?这并不难吧?
但是,ABBYY真的有这个功能吗?或者,其他OCR软件有类似功能的? |
|