本帖最后由 zhuode 于 2019-2-2 16:39 编辑
本楼是对我进行COD9光盘数据提取进行记录的专楼。本楼目标意在为大家提供可信赖的COD9光盘提取数据,原则是:完整、完善、条理。所有数据除提取程序外,还会有通常两次直接或间接较对。完成后的数据将在本贴主楼以度盘的形式发布。数据提取工作比预想中琐碎和充满各种故障,而鉴于作为词典底色的数据的重要性,质量必须得到保障,完成时间不做预测,但极小可能超一个月,大家日常关注首页即可,完成后会在首页论坛新帖中以间接方式让大家获知。
提取工具:按键精灵
提取目标:无一遗漏地将词典的词条进行提取,每个词条以独个pdf文件的形式保存
进程1:词条数目统计(所谓词条数目针对的是该软件中顶格加粗的主词条与主词条末后加粗未顶格子词条,而不包括各种词组<原软件中各种词组未见单独索引>,数据统计工具为按键精灵)
85263+74+38=85375 有索引词条数为85375
说明1:词条pdf文件的名字中<Windows XP printed document>前面的数字为该词条在索引中的排序(例:第一个词条A1的pdf文件名将为1Windows XP printed document xxxxxx.pdf、而最末词条pdf文件的名字将为85375Windows XP printed document xxxxxx.pdf)。而去除排序数字外,每组数据的文件名将为Windows XP printed document.pdf、Windows XP printed document-1.pdf、、、(中间省略)、、、Windows XP printed document-99.pdf。
说明2 :原光盘使用中本人目前为止还未发现存在图片内容;原光盘有发音文件,但就如该光盘词典只有英音音标一样,发音也仅含英式发音,因此本人认为发音文件提取实际意义有限,必要性不充份,而声音文件提取也超出了本人能力范围,预计将在数据发布文件末随附原光盘的发音文件以供有需为用
已知问题1:USAGE部分在原光盘需双击USAGE后以独立弹窗的形式展示,按键精灵无法提取,预计将在末后以人工方式获得
已知问题2:数据需要去重,原因:简单说,原软件存在不同索引指向同一词条的情况,而楼主的数据为原软件索引全抓。具体说,主词条Print的pdf内容与该主词条下的子词条Print的pdf内容相同均为该主词条的完整内容(例如,abandon词条Print的结果与abandon子词条abandonment Print的结果相同都是abandon词条的完整保存<含有该主词条及其子词条与词组>),而需要注意的是相当部分词条会含不只一个甚至成列子词条,去重时望格外留心,去重工作预计须在数据汇合在一起后以技术手段解决
已知问题3:提取出的词条pdf文件存在上下分页,每页页头有一行"Concise Oxford Dictionary Ninth Edition",须在数据mdx化过程中处理
已知问题4:原软件词条带上标的pdf化之后上标跑到了单词后面(这部分暂时找不到解决方法)
说明3:因帖子长度限制问题,本帖数据分组及更新日志将在35楼至34楼分十楼记录
说明4:发现个奇怪的地方,原盘软件索引里一个一样的词条出现了两次(rammer,索引序号为58900、58901,详见下图),当然释义部分是不同的,我不知道这意味着什么,但提醒尤其是制作词典时要格外留心避免索引遗漏或去重遗失词条
说明5:关于Appendices部分。原软件是有Appendices部分的,我尝试了Print,但结果是内容遗漏乃至缺失严重。而Appendices部分的内容主要是百科与词典使用、介绍性质的,实际使用中涉及到的概率极低且可通过其他资源(如wiki)轻易替代,所以暂时决定不做Appendices部分提取。
挑错:欢迎任何形式主动的或顺便的挑错,一经确认本人会给予能力范围之内的奖励! |