TA的每日心情 | 擦汗 前天 07:00 |
---|
签到天数: 1090 天 [LV.10]以坛为家III
状元
- 积分
- 10477
|
像“故训汇纂”一类的图书,中间大概会有多少汉字没有unicode编码?
有没有人在搞ocr古文训练数据?用繁体字数据tesseract-data-chi_tra将就的话,准确率能有99%吗?
有没有人用书籍的字体专门训练过OCR,这样识别率应该会高很多。
abbyy finereader可以针对特殊字体专门训练吗? 如果不行的话,估计tesseract将是唯一选择了。
版上大大们有过不少OCR经验,有没有人先找出印刷字体,再用此字体反复训练,这样的成效如何? |
|