TA的每日心情 | 奋斗 2018-11-10 00:38 |
---|
签到天数: 346 天 [LV.8]以坛为家I
禁止发言
- 积分
- 3090
|
就事儿说事儿吧,计算机的强项是处理一些简单重复性的工作,如果pdf的格式是图片扫描的,目前的计算机处理起来确实有难度,但如果是基于文本的pdf,应该可以尝试。所谓的字典无非就是序言,正文,词头,解释。利用开源的nltk,完全可以理论上实现这一个过程。基于自然语言的模块很多,例如断句分词啥的都是基本的功能,能解析pdf格式的工具包也有的是,问题是把解析出来的东西转换成mdx可以认可的格式。目前nltk不能接受pdf格式的输入只能接受txt格式的,可以利用nltk扫描没个词头,句子段落啥的。如果该词头随后的一个或者几个句子都出现了该词头的相似词,肯定这个一群相似词所组成的句子是该词头的解释,如果该解释随后生成的nltk能识别的断句中又出现了好几个该词头的句子,肯定是该词头的例句。可能具体的文本类型的格式排版啥的有区别,但仅仅是个大概的思路,折腾计算机总比折腾人工强。 |
|