本帖最后由 zhuode 于 2019-9-28 16:23 编辑
发本帖的原因是上贴内容过于'充实',想大部分人都没有耐心全部读完。同时也没有必要,因为有了更贴近实用的数据版本。上帖的主要内容为数据提取的详尽记录,鉴于数据提取工作已经完成,接下来就是mdx化,这就是本帖产生的原因。在上帖的基础上,本帖将提供<合并未去重版pdf数据>、<合并去重版pdf数据>及<USAGE数据截图版>。pdf文件数量由85375个合并到了一个中。大部分词条,一页一词。极少数占两到三页,该部分数目为35个左右。mdx化工作在本帖基础上进行即可,如非特殊需要没有必要关注上帖。
希望每个人都能发布自己的版本。请大家别弄错版,mdx词典一并发到MDict区去,别在本帖中发布。感谢大家对本数据的信任,如发现任何问题请留言反馈,一经证实本人有奖励。
已知数据存在问题:原软件词条带上标的pdf化之后上标跑到了单词后面(例如a-1中1本应是上标数据中直接就是a-1,这部分暂时找不到解决方法。可能这部分对理解的干扰性不会太大,但大家如果有更严苛要求可考虑从tsiank处购买上标显示正常的版本<曾以60元价格众筹>。)
文件分享地址中会提供原软件的一些截图,供大家mdx化过程中排版等参考。另外地址中还有下面内容。
合并未去重版pdf数据:词条排列顺序为原软件索引排列顺序,建议有去重能力者首选此版,去重版可能存在个数级别的去重遗漏 合并去重版pdf数据:词条排列顺序不严格依照字母排列顺序,去重工作由第三方插件autosplit完成,可靠性请自行评估 USAGE数据截图版:USAGE部分比较特殊,在原软件中是以独立弹窗的形式展现的,经测试弹窗中文本无法复制,同时为了保留数据排版、文本格式、字体等数据将以截图的方式提取,每个图片的文件名分两部分,前面的数字(为该词汇在<合并去重版pdf数据>中出现的页码)和后面的单词(即是该USAGE所出现的词汇)。
另外,根据经验八万多页的pdf文件在词典转换中可能因为负荷过重而导致软件崩溃等情况。针对此,特准备了5000页/组分割版。分别为去重版与非去重版pdf分割后的文件。
关于"去重":数据需要去重的产因:简单说,原软件存在不同索引指向同一词条的情况,而楼主的数据为原软件索引全抓。具体说,首先所有词条数据都是源自原软件右上角的Print功能,而主词条Print的pdf内容与该主词条下的子词条Print的pdf内容相同均为该主词条的完整内容(例如,abandon词条Print的结果与abandon子词条abandonment Print的结果相同都是abandon词条的完整保存<含有该主词条及其子词条与词组>),另相当部分词条会含不只一个甚至成列子词条,去重时望得到注意。另本帖中也有去重版本。
提取码回复可见 [hide]gnyj[de]
地址(暂时不更新了,不太常来,仅是数据文件,大家可去下载成品词典): 链接: https://pan.baidu.com/s/1zElj4knzE22EzqmO1hY3Ow 已更新:2月19号 23:29 |