|
本帖最后由 lgmcw 于 2019-10-30 09:35 编辑
johannhuang 发表于 2019-10-27 19:22
谢谢回复,我觉得吧,其实也是下面回复的技术牛人的一家之言吧。逻辑上来看,如果是文字版PDF,而PDF其实也是开放标准,其实还是有办法快速转换成结构化的文本的,无非或者是个每个段落或者是每行文本标记坐标,然后基于坐标用脚本自动进行结构化处理(比如判断其实坐标为多少为第一列数据、第二列数据、等等)
PDF和html,举个类比就是像素图(rasterized)和矢量图的区别,像素图你放大就是像素格子,矢量图则完全是一堆公式,理论上可以无限放大,完全是南辕北辙的两种东西。你从曲线反推公式,怕是只能打点重算,重新建模fit新的公式,工作量可想而知。
html的内容会自动根据窗口而flow (MDX, mobi, epub都是html);pdf你见过能flow的嘛?pdf完全是为了印刷优化的东西。后者转前者轻而易举,前者转后者@lmjiao 说的很对,需要机器辅助的情况下额外大量的人力。
原理很简单,用abbyy OCR(相当于帮你打点放线,反推重建新的公式模型),无论是文本PDF还是扫描PDF,然后得到的html raw文件通过大量的人工处理和洗版就完成了,没有捷径。有时候不是钱的问题,而是制作者的兴趣和对自己时间的价值评价。
|
|