|
本帖最后由 644830104 于 2016-11-21 19:43 编辑
entry:1341
费了九牛二虎之力,转了一部PDF的文本,因为这部PDF的文本词头太麻烦,还有符号的问题,以及字与字之间的空格(感兴趣可以自己挑战一下中国典故系列PDF),花了一些时间修改词头,所以词头方面没有任何问题,也许是制作的时候有些地方没有注意到:复制PDF文本内容粘贴到evernote,evernote能很好地显示PDF的文字格式,导出的代码结构清晰明了,但是无法处理段落,实在没有其他的方法,转PDF真的很tricky!词典没有做什么修饰,其实也不太值得修饰什么,就是一般般的作品。。
本想把DK的图解PDF也转下来,但是实在不好去掉无关文本信息,虽然词头能取,但是极其麻烦,由于无关信息太多而且去掉无解,所以放弃了这个念头,DK还是只能弄图片词典
多次见识到文本PDF的复杂,虽然弄出来了第一部文本PDF转的mdx,以后也可以用同样的方法也可以进行其他文本PDF的转换,但是过程实在麻烦,花费的时间有些多,太痛苦而且能制作的pdf有局限性,也许是我没有制作脚本和使用正则的缘故,也没专门学过这方面的知识,以后就专门制作图片词典,这次的挑战也算是了却了我的一个小想法,顺便给论坛里想转文本PDF的人提供一个可能的idea:复制PDF文本内容粘贴到evernote,网上提到的pdf2htmlex就不要用了,经验之谈
其实没什么特别高明的东西,也就是用了很多一般替换已经利用了excel而已,不用设计脚本什么的,很多人说自己不懂代码什么的,其实不懂也照样可以制作mdx,甚至连你日常的笔记也能转换成mdx,hint:evernote+简单的替换,技术区里也有很多大神开发的很棒的软件可以制作mdx,代码什么的删删减减之后对比效果就知道它有什么用了,其实制作一个mdx的要求并没有这么高,要求高的只有后期的效果修改以及网页抓取水平而已,纵使是词典的去重合并取词头也是如此,不需要制作脚本的知识也是可以办到的,只是看你有没有思考过设计过应该怎么达到目标,大家共勉吧,致敬各位论坛的制作者们!
论坛中的Amazon、bt4baidu、onlyXXenglish、lang、tsiank、PurlingNayuki、qiuhao等等大神都已经隐退,感谢各位大神,我也暂时向论坛告别(上论坛有些频繁),专心投入学习中,提升水平,回来时再向大家分享比较好的词典
中国典故.zip
(1.46 MB, 下载次数: 570)
|
|