查看: 8553|回复: 84
打印 上一主题 下一主题

[讨论] COD9完美mdx化的一些个人探索、启发与实践

[复制链接]
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    跳转到指定楼层
    1
    发表于 2019-1-4 11:13:31 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 zhuode 于 2019-1-22 17:59 编辑

    本帖的首要目标意在实现COD9软件到mdx的完美复刻(具体标准参考44楼,其中内容如果可能的话希望尽量实现),众人拾柴火焰高,凡有能力之士皆肯望协助,至成方止,后续将供个人化之用(只提醒大家标注词典洐生关系及自己所做之更改、完善,以为条理)。本人负责其中数据提取部分(提取笔记见18楼,剩余部分由b大负责)

    数据更新、发布地址(如失效,请帖中留言或私信索取):

    链接: https://pan.baidu.com/s/1LSzUhk5BHjgoAtDcA6Lv6g 提取码: u889


    COD9传言最完美的词典,想必大家都期待获得吧,至少我是。所以我做了点儿尝试,作为纯新手虽然看不到完成的可能性,但也有些点儿收获,分享给大家。希望可以为COD9完美mdx化起到助推作用。

    本帖相关帖有:
    https://www.pdawiki.com/forum/fo ... 1753&highlight=COD9 (感谢流星冲击提供种子)
    https://www.pdawiki.com/forum/fo ... 32148&highlight=cod (感谢tsiank为COD9 mdx化所做的努力)

    我看过了tsiank所做的COD9体验版,问题主要存在于格式的提取。而我无意之中恰巧在这上面有点发现,当然我不懂mdx制作,可能我的发现没有任何价值。

    下图我贴出了COD9在xp上的运行界面。我的发现主要存在于界面右上角这个地方,有两个按钮,一个是Copy另一个是Print。以词条take为例,点copy会把单个词条的内容完整复制在剪贴板,但是粘贴之后会丢失格式,而我无意中点了几下Print,发现在桌面创建了几个pdf文件,然后打开发现里面完美保留了原词典格式。我还进一步用迅捷pdf转换器在线版(http://app.xunjiepdf.com/pdf2html)转成了html,发现格式依然得到保存。这就是一个单词take的情况,完整完美地提取为pdf或html文本。我不知道这样的情况是否可以帮助解决COD9 mdx化过程中的格式保留问题?如果一个单词可以完成完美mdx化,我相信通过自动化程序应该可以完成整个词典的制作。这就是我发现的按钮Print的功能。

    附件里有单词take Print后创建的pdf文件及迅捷转化后的html文件,以作参考。下图2、3为take pdf文件的部分截图。下图4、5为html文件在chrome打开后的部分截图。















    take.png (32.06 KB, 下载次数: 3)

    take.png

    Screen Shot 2019-01-04 at 11.29.58 AM.png (13.71 KB, 下载次数: 3)

    Screen Shot 2019-01-04 at 11.29.58 AM.png

    Screen Shot 2019-01-04 at 11.30.16 AM.png (10.86 KB, 下载次数: 4)

    Screen Shot 2019-01-04 at 11.30.16 AM.png

    Screen Shot 2019-01-04 at 11.38.54 AM.png (47.98 KB, 下载次数: 3)

    Screen Shot 2019-01-04 at 11.38.54 AM.png

    Screen Shot 2019-01-04 at 11.39.19 AM.png (22.71 KB, 下载次数: 3)

    Screen Shot 2019-01-04 at 11.39.19 AM.png

    WindowsPrintedocument.pdf

    67.69 KB, 下载次数: 35, 下载积分: 米 -5 粒

    WindowsPrintedocument.pdf.zip

    56.87 KB, 下载次数: 13, 下载积分: 米 -5 粒

    评分

    7

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    来自 18楼
     楼主| 发表于 2019-1-4 22:19:30 | 只看该作者

    COD9数据提取专楼

    本帖最后由 zhuode 于 2019-2-2 16:39 编辑

    本楼是对我进行COD9光盘数据提取进行记录的专楼。本楼目标意在为大家提供可信赖的COD9光盘提取数据,原则是:完整、完善、条理。所有数据除提取程序外,还会有通常两次直接或间接较对。完成后的数据将在本贴主楼以度盘的形式发布。数据提取工作比预想中琐碎和充满各种故障,而鉴于作为词典底色的数据的重要性,质量必须得到保障,完成时间不做预测,但极小可能超一个月,大家日常关注首页即可,完成后会在首页论坛新帖中以间接方式让大家获知。

    提取工具:
    按键精灵
    提取目标:无一遗漏地将词典的词条进行提取,每个词条以独个pdf文件的形式保存

    进程1:词条数目统计(所谓词条数目针对的是该软件中顶格加粗的主词条与主词条末后加粗未顶格子词条,而不包括各种词组<原软件中各种词组未见单独索引>,数据
    统计工具为按键精灵)
            85263+74+38=85375
            有索引词条数为85375

    说明1:词条pdf文件的名字中<Windows XP printed document>前面的数字为该词条在索引中的排序(例:第一个词条A1的pdf文件名将为1Windows XP printed document xxxxxx.pdf、而最末词条pdf文件的名字将为85375Windows XP printed document xxxxxx.pdf)。而去除排序数字外,每组数据的文件名将为Windows XP printed document.pdf、Windows XP printed document-1.pdf、、、(中间省略)、、、Windows XP printed document-99.pdf。

    说明2 :原光盘使用中本人目前为止还未发现存在图片内容;原光盘有发音文件,但就如该光盘词典只有英音音标一样,发音也仅含英式发音,因此本人认为发音文件提取实际意义有限,必要性不充份,而声音文件提取也超出了本人能力范围,预计将在数据发布文件末随附原光盘的发音文件以供有需为用

    已知问题1:USAGE部分在原光盘需双击USAGE后以独立弹窗的形式展示,按键精灵无法提取,预计将在末后以人工方式获得

    已知问题2:数据需要去重,原因:简单说,原软件存在不同索引指向同一词条的情况,而楼主的数据为原软件索引全抓。具体说,主词条Print的pdf内容与该主词条下的子词条Print的pdf内容相同均为该主词条的完整内容(例如,abandon词条Print的结果与abandon子词条abandonment Print的结果相同都是abandon词条的完整保存<含有该主词条及其子词条与词组>),而需要注意的是相当部分词条会含不只一个甚至成列子词条,去重时望格外留心,去重工作预计须在数据汇合在一起后以技术手段解决

    已知问题3:提取出的词条pdf文件存在上下分页,每页页头有一行"Concise Oxford Dictionary Ninth Edition",须在数据mdx化过程中处理

    已知问题4:原软件词条带上标的pdf化之后上标跑到了单词后面(这部分暂时找不到解决方法)

    说明3:因帖子长度限制问题,本帖数据分组及更新日志将在35楼至34楼分十楼记录

    说明4:发现个奇怪的地方,原盘软件索引里一个一样的词条出现了两次(rammer,索引序号为58900、58901,详见下图),当然释义部分是不同的,我不知道这意味着什么,但提醒尤其是制作词典时要格外留心避免索引遗漏或去重遗失词条

    说明5:关于Appendices部分。原软件是有Appendices部分的,我尝试了Print,但结果是内容遗漏乃至缺失严重。而Appendices部分的内容主要是百科与词典使用、介绍性质的,实际使用中涉及到的概率极低且可通过其他资源(如wiki)轻易替代,所以暂时决定不做Appendices部分提取。

    挑错:欢迎任何形式主动的或顺便的挑错,一经确认本人会给予能力范围之内的奖励!

    IMG_0602.JPG (719.67 KB, 下载次数: 0)

    IMG_0602.JPG
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    来自 35楼
     楼主| 发表于 2019-1-7 07:06:35 | 只看该作者
    本帖最后由 zhuode 于 2019-1-22 11:55 编辑

    数据分组及更新日志(100一组,后面数据打包与发布也将以组为单位)<带✓号为已更新内容>:
            001组:词条A1 ------ abiding(1----100)[注:此为词条索引顺序排列序号]      ✓
            002组:词条abidingly ------ abruptness(101----200)      ✓
            003组:词条ABS ------ -ac(201----300)      ✓
            004组:词条acacia ------ accountable(301----400)      ✓
            005组:词条accountably ------ acid house(401----500)      ✓
            006组:词条acidic ------ acting pilot officer(501----600)      ✓
            007组:词条actinia ------ addendum(601----700)      ✓
            008组:词条adder ------ admass(701----800)      ✓
            009组:词条admeasure ------ adumbration(801----900)      ✓
            010组:词条adumbrative ------ aerological(901----1000)      ✓
            011组:词条aerology ------ aflatoxin(1001----1100)      ✓
            012组:词条AFL-CIO ------ agglutination(1101----1200)      ✓
            013组:词条agglutinative ------ ahimsa(1201----1300)      ✓
            014组:词条ahoy ------ air speed(1301----1400)      ✓
            015组:词条airstream ------ al dente(1401----1500)      ✓
            016组:词条alder ------ alkanet(1501----1600)      ✓
            017组:词条alkene ------ allottee(1601----1700)      ✓
            018组:词条all-out ------ Alta.(1701----1800)      ✓
            019组:词条altar ------ ambiance(1801----1900)      ✓
            020组:词条ambidexterity ------ amidships(1901----2000)      ✓
            021组:词条amidst ------ amuck(2001----2100)      ✓
            022组:词条amulet ------ anaptyxis(2101----2200)      ✓
            023组:词条anarchic ------ angel cake(2201----2300)      ✓
            024组:词条angel dust ------ animateur(2301----2400)      ✓
            025组:词条animation ------ anomic(2401----2500)      ✓
            026组:词条anomie ------ anthropomorphic(2501----2600)      ✓
            027组:词条anthropomorphically ------ antiquated(2601----2700)      ✓
            028组:词条antique ------ aperitif(2701----2800)      ✓
            029组:词条aperture ------ apothecaries' measure(2801----2900)      ✓
            030组:词条apothecary ------ appreciatively(2901----3000)      ✓
            031组:词条appreciativeness ------ arabis(3001----3100)      ✓
            032组:词条Arabist ------ archetypal(3101----3200)      ✓
            033组:词条archetype ------ aril(3201----3300)      ✓
            034组:词条arillate ------ arrester(3301----3400)      ✓
            035组:词条arrestingly ------ arts and crafts(3401----3500)      ✓
            036组:词条artwork ------ asp(3501----3600)      ✓
            037组:词条asparagine ------ assimilative(3601----3700)      ✓
            038组:词条assimilator ------ astronomer(3701----3800)      ✓
            039组:词条astronomical ------ atomic number(3801----3900)      ✓
            040组:词条atomic physics ------ attrition(3901----4000)      ✓
            041组:词条attritional ------ Aurignacian(4001----4100)      ✓
            042组:词条aurochs ------ autolytic(4101----4200)      ✓
            043组:词条automat ------ avocation(4201----4300)      ✓
            044组:词条avocet ------ Aztec(4301----4400)      ✓
            045组:词条azuki ------ backflip(4401----4500)      ✓
            046组:词条back-formation ------ bad faith(4501----4600)      ✓
            047组:词条bad form ------ bald eagle(4601----4700)      ✓
            048组:词条balderdash ------ banally(4701----4800)      ✓
            049组:词条banana ------ baptismal(4801----4900)      ✓
            050组:词条baptism of fire ------ barminess(4901----5000)      ✓
            051组:词条bar mitzvah ------ BASE jumper(5001----5100)      ✓
            052组:词条baseless ------ bathetic(5101----5200)      ✓
            053组:词条bathhouse ------ BBFC(5201----5300)      ✓
            054组:词条bbl. ------ beatable(5301----5400)      ✓
            055组:词条beaten ------ bedroll(5401----5500)      ✓
            056组:词条bedroom ------ begging bowl(5501----5600)      ✓
            057组:词条begging letter ------ bell jar(5601----5700)      ✓
            058组:词条bellman ------ benthic(5701----5800)      ✓
            059组:词条benthos ------ beta rhythm(5801----5900)      ✓
            060组:词条beta test ------ bibliophilic(5901----6000)      ✓
            061组:词条bibliophily ------ bijou(6001----6100)      ✓
            062组:词条bijouterie ------ bine(6101----6200)      ✓
            063组:词条bin-end ------ biphenyl(6201----6300)      ✓
            064组:词条bipinnate ------ bitter aloes(6301----6400)      ✓
            065组:词条bitter-apple ------ blackmail(6401----6500)      ✓
            066组:词条blackmailer ------ blaze1(6501----6600)      ✓
            067组:词条blaze2 ------ bloat(6601----6700)      ✓
            068组:词条bloater ------ blossom(6701----6800)      ✓
            069组:词条blossomy ------ blunder(6801----6900)      ✓
            070组:词条blunderbuss ------ Bodhisattva(6901----7000)      ✓
            071组:词条bodice ------ bolshiness(7001----7100)      ✓
            072组:词条bolster1 ------ booby-hatch(7101----7200)      ✓
            073组:词条booby prize ------ borak(7201----7300)      ✓
            074组:词条borane ------ bottle tree(7301----7400)      ✓
            075组:词条bottle-washer ------ bowfin(7401----7500)      ✓
            076组:词条bowhead ------ bracingness(7501----7600)      ✓
            077组:词条brack ------ brank-ursine(7601----7700)      ✓
            078组:词条brant ------ breast-pin(7701----7800)      ✓
            079组:词条breastplate ------ Brie(7801----7900)      ✓
            080组:词条brief ------ Broad Church(7901----8000)      ✓
            081组:词条broadcloth ------ Bros.(8001----8100)      ✓
            082组:词条brose ------ bryophyte(8101----8200)      ✓
            083组:词条bryophytic ------ bufflehead(8201----8300)      ✓
            084组:词条buffo ------ bully tree(8301----8400)      ✓
            085组:词条bulrush ------ burgage(8401----8500)      ✓
            086组:词条burgee ------ bushveld(8501----8600)      ✓
            087组:词条bushwhack ------ buttonless(8601----8700)      ✓
            088组:词条button mushroom ------ cabin crew(8701----8800)      ✓
            089组:词条cabin cruiser ------ Caesarean(8801----8900)      ✓
            090组:词条Caesarean section ------ calculous(8901----9000)      ✓
            091组:词条calculus ------ Calvinistic(9001----9100)      ✓
            092组:词条Calvinistical ------ cancer(9101----9200)      ✓
            093组:词条Cancerian ------ cant2(9201----9300)      ✓
            094组:词条can't ------ capitulate(9301----9400)      ✓
            095组:词条capitulation ------ carbon(9401----9500)      ✓
            096组:词条carbon-12 ------ careerism(9501----9600)      ✓
            097组:词条careerist ------ carpet-bagger(9601----9700)      ✓
            098组:词条carpet beetle ------ cascara(9701----9800)      ✓
            099组:词条case1 ------ casually(9801----9900)      ✓
            100组:词条casualness ------ catecholamine(9901----10000)      ✓
            
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    来自 36楼
     楼主| 发表于 2019-1-7 07:06:41 | 只看该作者
    本帖最后由 zhuode 于 2019-1-11 14:22 编辑

    数据分组及更新日志(100一组,后面数据打包与发布也将以组为单位)<带✓号为已更新内容>:
            101组:词条catechu ------ caught(10001----10100)      ✓
            102组:词条caul ------ cedarwood(10101----10200)      ✓
            103组:词条cede ------ center(10201----10300)      ✓
            104组:词条centerboard ------ cerebrum(10301----10400)      ✓
            105组:词条cerecloth ------ chain letter(10401----10500)      ✓
            106组:词条chain link ------ changeful(10501----10600)      ✓
            107组:词条changeless ------ charismatically(10601----10700)      ✓
            108组:词条charismatic movement ------ chauvinistic(10701----10800)      ✓
            109组:词条chauvinistically ------ chemical warfare(10801----10900)      ✓
            110组:词条chemical weapon ------ chicken brick(10901----11000)      ✓
            111组:词条chicken cholera ------ Chinaman(11001----11100)      ✓
            112组:词条China syndrome ------ chlorella(11101----11200)      ✓
            113组:词条chloric acid ------ chord2(11201----11300)      ✓
            114组:词条chord ------ chromium steel(11301----11400)      ✓
            115组:词条chromo-1 ------ chute1(11401----11500)      ✓
            116组:词条chute2 ------ circuitous(11501----11600)      ✓
            117组:词条circuitously ------ citizen's arrest(11601----11700)      ✓
            118组:词条citizens' band ------ clamour(11701----11800)      ✓
            119组:词条clamp ------ clawback(11801----11900)      ✓
            120组:词条clawed ------ clever Dick(11901----12000)      ✓
            121组:词条cleverly ------ clock golf(12001----12100)      ✓
            122组:词条clockmaker ------ cloud-land(12101----12200)      ✓
            123组:词条cloudless ------ coachwood(12201----12300)      ✓
            124组:词条coachwork ------ coca(12301----12400)      ✓
            125组:词条Coca-Cola ------ codicillary(12401----12500)      ✓
            126组:词条codicological ------ cognizant(12501----12600)      ✓
            127组:词条cognomen ------ coley(12601----12700)      ✓
            128组:词条colic ------ colloquy(12701----12800)      ✓
            129组:词条collotype ------ colza(12801----12900)      ✓
            130组:词条COM ------ commandment(12901----13000)      ✓
            131组:词条command module ------ commonhold(13001----13100)      ✓
            132组:词条commonholder ------ compages(13101----13200)      ✓
            133组:词条companion1 ------ complete(13201----13300)      ✓
            134组:词条completely ------ compurgator(13301----13400)      ✓
            135组:词条compurgatory ------ concha(13401----13500)      ✓
            136组:词条conchie ------ conducive(13501----13600)      ✓
            137组:词条conduct ------ confound(13601----13700)      ✓
            138组:词条confounded ------ conjuror(13701----13800)      ✓
            139组:词条conk1 ------ conserve(13801----13900)      ✓
            140组:词条consider ------ constructivist(13901----14000)      ✓
            141组:词条constructor ------ contessa(14001----14100)      ✓
            142组:词条contest ------ contrarily(14101----14200)      ✓
            143组:词条contrariness ------ conversazione(14201----14300)      ✓
            144组:词条converse1 ------ Coordinated Universal Time(14301----14400)      ✓
            145组:词条coordination ------ coquina(14401----14500)      ✓
            146组:词条coquito ------ cornfield(14501----14600)      ✓
            147组:词条cornflake ------ correlativity(14601----14700)      ✓
            148组:词条correspond ------ cosmogony(14701----14800)      ✓
            149组:词条cosmographer ------ couchant(14801----14900)      ✓
            150组:词条couchette ------ counterweight(14901----15000)      ✓
            151组:词条countess ------ cousinship(15001----15100)      ✓
            152组:词条couth ------ coxswainship(15101----15200)      ✓
            153组:词条Coy. ------ craniological(15201----15300)      ✓
            154组:词条craniologist ------ cream tea(15301----15400)      ✓
            155组:词条creamware ------ crept(15401----15500)      ✓
            156组:词条crepuscular ------ crispness(15501----15600)      ✓
            157组:词条crispy ------ cross-examiner(15601----15700)      ✓
            158组:词条cross-eyed ------ crucifix(15701----15800)      ✓
            159组:词条crucifixion ------ cryptogamous(15801----15900)      ✓
            160组:词条cryptogram ------ Cufic(15901----16000)      ✓
            161组:词条cui bono? ------ cuppa(16001----16100)      ✓
            162组:词条cuprammonium ------ curtail(16101----16200)      ✓
            163组:词条curtailment ------ cuttle(16201----16300)      ✓
            164组:词条cuttle-bone ------ cypripedium(16301----16400)      ✓
            165组:词条cypsela ------ dairying(16401----16500)      ✓
            166组:词条dairymaid ------ dank(16501----16600)      ✓
            167组:词条dankly ------ daunting(16601----16700)      ✓
            168组:词条dauntingly ------ deadeye(16701----16800)      ✓
            169组:词条deadfall ------ debasement(16801----16900)      ✓
            170组:词条debaser ------ decent(16901----17000)      ✓
            171组:词条decently ------ decomposition(17001----17100)      ✓
            172组:词条decompress ------ deep-seated(17101----17200)      ✓
            173组:词条Deep South ------ definitely(17201----17300)      ✓
            174组:词条definiteness ------ deionization(17301----17400)      ✓
            175组:词条deionize ------ deltiology(17401----17500)      ✓
            176组:词条deltoid ------ demolish(17501----17600)      ✓
            177组:词条demolisher ------ denotation(17601----17700)      ✓
            178组:词条denotative ------ depletion(17701----17800)      ✓
            179组:词条deplorable ------ de-rig(17801----17900)      ✓
            180组:词条de rigueur ------ desiderate(17901----18000)      ✓
            181组:词条desiderative ------ detachment(18001----18100)      ✓
            182组:词条detail ------ devastator(18101----18200)      ✓
            183组:词条devein ------ dextran(18201----18300)      ✓
            184组:词条dextrin ------ diametral(18301----18400)      ✓
            185组:词条diametrical ------ didactic(18401----18500)      ✓
            186组:词条didactically ------ digitalin(18501----18600)      ✓
            187组:词条digitalis ------ dimorphism(18601----18700)      ✓
            188组:词条dimple ------ diplomatist(18701----18800)      ✓
            189组:词条diplont ------ disadvantageous(18801----18900)      ✓
            190组:词条disadvantageously ------ discipular(18901----19000)      ✓
            191组:词条disc jockey ------ discus(19001----19100)      ✓
            192组:词条discuss ------ disincentive(19101----19200)      ✓
            193组:词条disinclination ------ dispatch box(19201----19300)      ✓
            194组:词条dispatcher ------ dissect(19301----19400)      ✓
            195组:词条dissection ------ distingue(19401----19500)      ✓
            196组:词条distinguish ------ divergent(19501----19600)      ✓
            197组:词条divergently ------ DNB(19601----19700)      ✓
            198组:词条D-notice ------ dogface(19701----19800)      ✓
            199组:词条dog-fall ------ dolma(19801----19900)      ✓
            200组:词条dolman ------ doored(19901----20000)      ✓
            
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    来自 37楼
     楼主| 发表于 2019-1-7 07:06:46 | 只看该作者
    本帖最后由 zhuode 于 2019-1-13 01:04 编辑

    数据分组及更新日志(100一组,后面数据打包与发布也将以组为单位)<带✓号为已更新内容>:
            201组:词条door head ------ double boiler(20001----20100)      ✓
            202组:词条double bond ------ douse(20101----20200)      ✓
            203组:词条dove1 ------ DP(20201----20300)      ✓
            204组:词条D.Phil. ------ drawerful(20301----20400)      ✓
            205组:词条drawing ------ drill stem(20401----20500)      ✓
            206组:词条drily ------ drown(20501----20600)      ✓
            207组:词条drowned valley ------ dual-purpose(20601----20700)      ✓
            208组:词条dub1 ------ dumbshow(20701----20800)      ✓
            209组:词条dumbstruck ------ dust-bath(20801----20900)      ✓
            210组:词条dustbin ------ dynamic viscosity(20901----21000)      ✓
            211组:词条dynamism ------ earnest2(21001----21100)      ✓
            212组:词条earnestly ------ ebulliency(21101----21200)      ✓
            213组:词条ebullient ------ ecotourist(21201----21300)      ✓
            214组:词条ecotype ------ eelgrass(21301----21400)      ✓
            215组:词条eel-like ------ eglantine(21401----21500)      ✓
            216组:词条ego ------ elastomer(21501----21600)      ✓
            217组:词条elastomeric ------ electromagnetic(21601----21700)      ✓
            218组:词条electromagnetically ------ elevenfold(21701----21800)      ✓
            219组:词条eleven-plus ------ embankment(21801----21900)      ✓
            220组:词条embargo ------ emigrate(21901----22000)      ✓
            221组:词条emigration ------ emulative(22001----22100)      ✓
            222组:词条emulator ------ encomiastic(22101----22200)      ✓
            223组:词条encomium ------ endothelium(22201----22300)      ✓
            224组:词条endothermic ------ engross(22301----22400)      ✓
            225组:词条engrossing ------ entablement(22401----22500)      ✓
            226组:词条entail ------ entrustment(22501----22600)     ✓
            227组:词条entry ------ ephemerist(22601----22700)      ✓
            228组:词条ephemeris time ------ epistemically(22701----22800)      ✓
            229组:词条epistemological ------ equitable(22801----22900)      ✓
            230组:词条equitableness ------ errant(22901----23000)      ✓
            231组:词条errantry ------ Esperantist(23001----23100)      ✓
            232组:词条Esperanto ------ eternal triangle(23101----23200)      ✓
            233组:词条eternity ------ eucaryote(23201----23300)      ✓
            234组:词条eucharis ------ eV(23301----23400)      ✓
            235组:词条EVA ------ evidentiary(23401----23500)      ✓
            236组:词条evidently ------ exceptional(23501----23600)      ✓
            237组:词条exceptionality ------ ex-directory(23601----23700)      ✓
            238组:词条ex div. ------ existentially(23701----23800)      ✓
            239组:词条exit ------ expellable(23801----23900)      ✓
            240组:词条expellee ------ expository(23901----24000)      ✓
            241组:词条ex post ------ externality(24001----24100)      ✓
            242组:词条externalization ------ exuberantly(24101----24200)      ✓
            243组:词条exuberate ------ face flannel(24201----24300)      ✓
            244组:词条faceless ------ fadeless(24301----24400)      ✓
            245组:词条fade-out ------ fall-back(24401----24500)      ✓
            246组:词条fallen ------ fane(24501----24600)      ✓
            247组:词条fanfare ------ fascicle(24601----24700)      ✓
            248组:词条fascicled ------ fattism(24701----24800)      ✓
            249组:词条fattist ------ Feb.(24801----24900)      ✓
            250组:词条febrifugal ------ felt1(24901----25000)      ✓
            251组:词条felt2 ------ ferromagnetism(25001----25100)      ✓
            252组:词条ferrous ------ fiance(25101----25200)      ✓
            253组:词条fianchetto ------ fieldfare(25201----25300)      ✓
            254组:词条field glasses ------ file1(25301----25400)      ✓
            255组:词条file2 ------ finding(25401----25500)      ✓
            256组:词条find-spot ------ firecracker(25501----25600)      ✓
            257组:词条firecrest ------ first officer(25601----25700)      ✓
            258组:词条first past the post ------ fivefold(25701----25800)      ✓
            259组:词条five hundred ------ flakiness(25801----25900)      ✓
            260组:词条flak jacket ------ flatteringly(25901----26000)      ✓
            261组:词条flattering unction ------ fletcher(26001----26100)      ✓
            262组:词条fleur-de-lis ------ floatel(26101----26200)      ✓
            263组:词条floater ------ flounder2(26201----26300)      ✓
            264组:词条flounderer ------ fluorosis(26301----26400)      ✓
            265组:词条fluorspar ------ foe(26401----26500)      ✓
            266组:词条foehn ------ font1(26501----26600)      ✓
            267组:词条font2 ------ forbear1(26601----26700)      ✓
            268组:词条forbear2 ------ forepaw(26701----26800)      ✓
            269组:词条forepeak ------ formalization(26801----26900)      ✓
            270组:词条formalize ------ fossil fuel(26901----27000)      ✓
            271组:词条fossiliferous ------ fps(27001----27100)      ✓
            272组:词条Fr ------ fraudulent(27101----27200)      ✓
            273组:词条fraudulently ------ freeze-frame(27201----27300)      ✓
            274组:词条freezer ------ Friday(27301----27400)      ✓
            275组:词条fridge ------ froghopper(27401----27500)      ✓
            276组:词条frogman ------ fruit cake(27501----27600)      ✓
            277组:词条fruit cocktail ------ fulgurite(27601----27700)      ✓
            278组:词条fuliginous ------ functionary(27701----27800)      ✓
            279组:词条function key ------ furry(27801----27900)      ✓
            280组:词条fur seal ------ gabbroic(27901----28000)      ✓
            281组:词条gabbroid ------ galleried(28001----28100)      ✓
            282组:词条gallery ------ gammon1(28101----28200)      ✓
            283组:词条gammon2 ------ garrison(28201----28300)      ✓
            284组:词条garrison town ------ Gatling(28301----28400)      ✓
            285组:词条GATT ------ gee-string(28401----28500)      ✓
            286组:词条geezer ------ generousness(28501----28600)      ✓
            287组:词条genesis ------ geographical latitude(28601----28700)      ✓
            288组:词条geographically ------ gerontological(28701----28800)      ✓
            289组:词条gerontologist ------ giftedly(28801----28900)      ✓
            290组:词条giftedness ------ girlish(28901----29000)      ✓
            291组:词条girlishly ------ glassmaker(29001----29100)      ✓
            292组:词条glass-making ------ glockenspiel(29101----29200)      ✓
            293组:词条glom ------ glycogenesis(29201----29300)      ✓
            294组:词条glycogenic ------ go-between(29301----29400)      ✓
            295组:词条goblet ------ Golden Horde(29401----29500)      ✓
            296组:词条Golden Horn ------ goodliness(29501----29600)      ✓
            297组:词条good-looker ------ gospel(29601----29700)      ✓
            298组:词条gospeller ------ gradate(29701----29800)      ✓
            299组:词条gradation ------ grandmama(29801----29900)      ✓
            300组:词条grand master ------ -graphy(29901----30000)      ✓
            
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    来自 38楼
     楼主| 发表于 2019-1-7 07:06:51 | 只看该作者
    本帖最后由 zhuode 于 2019-1-14 13:54 编辑

    数据分组及更新日志(100一组,后面数据打包与发布也将以组为单位)<带✓号为已更新内容>:
            301组:词条grapnel ------ gray1(30001----30100)      ✓
            302组:词条gray2 ------ greengrocer(30101----30200)      ✓
            303组:词条greengrocery ------ grieve2(30201----30300)      ✓
            304组:词条griever ------ grossly(30301----30400)      ✓
            305组:词条gross national product ------ growth stock(30401----30500)      ✓
            306组:词条groyne ------ guesswork(30501----30600)      ✓
            307组:词条guest ------ gun(30601----30700)      ✓
            308组:词条gunboat ------ gymnasial(30701----30800)      ✓
            309组:词条gymnasium ------ hackette(30801----30900)      ✓
            310组:词条hackle ------ hairdryer(30901----31000)      ✓
            311组:词条haired ------ half-relief(31001----31100)      ✓
            312组:词条half-seas-over ------ hammy(31101----31200)      ✓
            313组:词条hamper1 ------ Hanoverian(31201----31300)      ✓
            314组:词条Hansa ------ hard palate(31301----31400)      ✓
            315组:词条hardpan ------ haruspex(31401----31500)      ✓
            316组:词条Harvard classification ------ Hawaiian(31501----31600)      ✓
            317组:词条hawfinch ------ head of hair(31601----31700)      ✓
            318组:词条head of state ------ hearty(31701----31800)      ✓
            319组:词条heat ------ hedgerow(31801----31900)      ✓
            320组:词条hedge sparrow ------ hellebore(31901----32000)      ✓
            321组:词条helleborine ------ hen-roost(32001----32100)      ✓
            322组:词条hen-run ------ heritably(32101----32200)      ✓
            323组:词条heritage ------ heterograft(32201----32300)      ✓
            324组:词条heterologous ------ hide3(32301----32400)      ✓
            325组:词条hide-and-seek ------ high kick(32401----32500)      ✓
            326组:词条high-kicking ------ hillwalking(32501----32600)      ✓
            327组:词条hilly ------ histology(32601----32700)      ✓
            328组:词条histolysis ------ Hobson's choice(32701----32800)      ✓
            329组:词条hock1 ------ hollow-eyed(32801----32900)      ✓
            330组:词条hollow-hearted ------ homeopath(----33000)      ✓
            331组:词条homeopathy ------ homophonically(33001----33100)      ✓
            332组:词条homophonous ------ hooligan(33101----33200)      ✓
            333组:词条hooliganism ------ hors d'oeuvre(33201----33300)      ✓
            334组:词条horse ------ hotbed(33301----33400)      ✓
            335组:词条hot blast ------ housekeeping(33401----33500)      ✓
            336组:词条houseleek ------ huff(33501----33600)      ✓
            337组:词条huffily ------ humous(33601----33700)      ✓
            338组:词条hump ------ hustings(33701----33800)      ✓
            339组:词条hustle ------ hydronium ion(33801----33900)      ✓
            340组:词条hydropathic ------ hyperconscious(33901----34000)      ✓
            341组:词条hypercritical ------ hypomanic(34001----34100)      ✓
            342组:词条hyponastic ------ ICBM(34101----34200)      ✓
            343组:词条ICE ------ ictus(34201----34300)      ✓
            344组:词条icy ------ -iform(34301----34400)      ✓
            345组:词条Igbo ------ illiterately(34401----34500)      ✓
            346组:词条illiterateness ------ imbibition(34501----34600)      ✓
            347组:词条imbricate ------ immunization(34601----34700)      ✓
            348组:词条immunize ------ imperfection(34701----34800)      ✓
            349组:词条imperfective ------ importable(34801----34900)      ✓
            350组:词条importance ------ improvisatory(34901----35000)      ✓
            351组:词条improvise ------ inarguably(35001----35100)      ✓
            352组:词条inarticulacy ------ incinerate(35101----35200)      ✓
            353组:词条incineration ------ incongruity(35201----35300)      ✓
            354组:词条incongruous ------ incunable(35301----35400)      ✓
            355组:词条incunabulum ------ index(35401----35500)      ✓
            356组:词条indexation ------ indistinct(35501----35600)      ✓
            357组:词条indistinctive ------ industriously(35601----35700)      ✓
            358组:词条industriousness ------ inexpensiveness(35701----35800)      ✓
            359组:词条inexperience ------ infinitival(35801----35900)      ✓
            360组:词条infinitivally ------ infrequency(35901----36000)      ✓
            361组:词条infrequent ------ inhospitably(36001----36100)      ✓
            362组:词条inhospitality ------ inner planet(36101----36200)      ✓
            363组:词条inner space ------ insatiate(36201----36300)      ✓
            364组:词条inscape ------ insolvency(36301----36400)      ✓
            365组:词条insolvent ------ insufferable(36401----36500)      ✓
            366组:词条insufferableness ------ intelligibly(36501----36600)      ✓
            367组:词条Intelpost ------ intercropping(36601----36700)      ✓
            368组:词条intercross ------ intermediateness(36701----36800)      ✓
            369组:词条intermediate technology ------ interregnum(36801----36900)      ✓
            370组:词条interrelate ------ intractable(36901----37000)      ✓
            371组:词条intractableness ------ invaluableness(37001----37100)      ✓
            372组:词条invaluably ------ involuntarily(37101----37200)      ✓
            373组:词条involuntariness ------ Irishman(37201----37300)      ✓
            374组:词条Irish moss ------ irremovable(37301----37400)      ✓
            375组:词条irremovably ------ ISO(37401----37500)      ✓
            376组:词条iso- ------ -ite1(37501----37600)      ✓
            377组:词条-ite2 ------ Jack Russell(37601----37700)      ✓
            378组:词条jack snipe ------ jasmine(37701----37800)      ✓
            379组:词条jasmine tea ------ Jesuitical(37801----37900)      ✓
            380组:词条Jesuitically ------ job lot(37901----38000)      ✓
            381组:词条Job's comforter ------ journalese(38001----38100)      ✓
            382组:词条journalism ------ ju-ju(38101----38200)      ✓
            383组:词条jujube ------ justiciary(38201----38300)      ✓
            384组:词条justifiability ------ kaolinic(38301----38400)      ✓
            385组:词条kaolinize ------ Kenyan(38401----38500)      ✓
            386组:词条kepi ------ kibitka(38501----38600)      ✓
            387组:词条kibitz ------ kind-heartedness(38601----38700)      ✓
            388组:词条kindle ------ Kirghiz(38701----38800)      ✓
            389组:词条kirk ------ knee-breeches(38801----38900)      ✓
            390组:词条kneecap ------ knotweed(38901----39000)      ✓
            391组:词条knotwork ------ krummhorn(39001----39100)      ✓
            392组:词条krypton ------ laboriousness(39101----39200)      ✓
            393组:词条labour ------ lactoprotein(39201----39300)      ✓
            394组:词条lactose ------ lain(39301----39400)      ✓
            395组:词条lair1 ------ lampshade(39401----39500)      ✓
            396组:词条lamp shell ------ languid(39501----39600)      ✓
            397组:词条languidly ------ larrup(39601----39700)      ✓
            398组:词条Larry ------ latitude(39701----39800)      ✓
            399组:词条latitudinal ------ law of nature(39801----39900)      ✓
            400组:词条law of parsimony ------ leadless(39901----40000)      ✓
            
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    来自 39楼
     楼主| 发表于 2019-1-7 07:06:55 | 只看该作者
    本帖最后由 zhuode 于 2019-1-15 23:17 编辑

    数据分组及更新日志(100一组,后面数据打包与发布也将以组为单位)<带✓号为已更新内容>:
            401组:词条lead-off ------ lecherousness(40001----40100)      ✓
            402组:词条lechery ------ legendarily(40101----40200)      ✓
            403组:词条legendary ------ lend(40201----40300)      ✓
            404组:词条lendable ------ let's(40301----40400)      ✓
            405组:词条Lett ------ lexicographic(40401----40500)      ✓
            406组:词条lexicographical ------ license plate(40501----40600)      ✓
            407组:词条licenser ------ ligamentous(40601----40700)      ✓
            408组:词条ligand ------ Lilo(40701----40800)      ✓
            409组:词条lilt ------ linenfold(40801----40900)      ✓
            410组:词条line of credit ------ lip-sync(40901----41000)      ✓
            411组:词条lip-syncer ------ lithographer(41001----41100)      ✓
            412组:词条lithographic ------ lividly(41101----41200)      ✓
            413组:词条lividness ------ localness(41201----41300)      ✓
            414组:词条local option ------ logician(41301----41400)      ✓
            415组:词条logion ------ long-legged(41401----41500)      ✓
            416组:词条long-life ------ loquaciously(41501----41600)      ✓
            417组:词条loquaciousness ------ loury(41601----41700)      ✓
            418组:词条louse ------ lowly(41701----41800)      ✓
            419组:词条low-lying ------ Luger(41801----41900)      ✓
            420组:词条luggage ------ lunisolar(41901----42000)      ✓
            421组:词条lunisolar period ------ Lycra(42001----42100)      ✓
            422组:词条Lydian ------ machinate(42101----42200)      ✓
            423组:词条machination ------ mag(42201----42300)      ✓
            424组:词条magazine ------ maguey(42301----42400)      ✓
            425组:词条magus ------ major(42401----42500)      ✓
            426组:词条major axis ------ malicious(42501----42600)      ✓
            427组:词条maliciously ------ managerially(42601----42700)      ✓
            428组:词条managership ------ manikin(42701----42800)      ✓
            429组:词条Manila ------ manufacture(42801----42900)      ✓
            430组:词条manufacturer ------ margravine(42901----43000)      ✓
            431组:词条marguerite ------ marrowless(43001----43100)      ✓
            432组:词条marrowy ------ masquerade(43101----43200)      ✓
            433组:词条masquerader ------ match point(43201----43300)      ✓
            434组:词条matchstick ------ mauler(43301----43400)      ✓
            435组:词条maulstick ------ meadow rue(43401----43500)      ✓
            436组:词条meadow saffron ------ med.(43501----43600)      ✓
            437组:词条medal ------ meet2(43601----43700)      ✓
            438组:词条meeting ------ meltingly(43701----43800)      ✓
            439组:词条melting point ------ mental block(43801----43900)      ✓
            440组:词条mental cruelty ------ mermaid(43901----44000)      ✓
            441组:词条mermaid's purse ------ metalanguage(44001----44100)      ✓
            442组:词条metal detector ------ methodizer(44101----44200)      ✓
            443组:词条methodological ------ miaow(44201----44300)      ✓
            444组:词条miasma ------ microtone(44301----44400)      ✓
            445组:词条microtubule ------ might2(44401----44500)      ✓
            446组:词条might-have-been ------ millefeuille(44501----44600)      ✓
            447组:词条millenarian ------ mineralogical(44601----44700)      ✓
            448组:词条mineralogist ------ minute1(44701----44800)      ✓
            449组:词条minute2 ------ misconception(44801----44900)      ✓
            450组:词条misconduct ------ misprize(44901----45000)      ✓
            451组:词条mispronounce ------ mitre box(45001----45100)      ✓
            452组:词条mitred ------ mock-up(45101----45200)      ✓
            453组:词条MOD ------ mole3(45201----45300)      ✓
            454组:词条mole4 ------ money market(45301----45400)      ✓
            455组:词条money of account ------ monographer(45401----45500)      ✓
            456组:词条monographic ------ monument(45501----45600)      ✓
            457组:词条monumental ------ moray(45601----45700)      ✓
            458组:词条morbid ------ mortmain(45701----45800)      ✓
            459组:词条mortuary ------ motorable(45801----45900)      ✓
            460组:词条motor area ------ mousseline(45901----46000)      ✓
            461组:词条moustache ------ muck sweat(46001----46100)      ✓
            462组:词条mucky ------ multicolour(46101----46200)      ✓
            463组:词条multicultural ------ mummy2(46201----46300)      ✓
            464组:词条mumpish ------ mushroom cloud(46301----46400)      ✓
            465组:词条mushroom growth ------ mute(46401----46500)      ✓
            466组:词条mute button ------ myosotis(46501----46600)      ✓
            467组:词条myotonia ------naif(46601----46700)      ✓
            468组:词条nail ------ narcotic(46701----46800)      ✓
            469组:词条narcotically ------ nation state(46801----46900)      ✓
            470组:词条nationwide ------ navel(46901----47000)      ✓
            471组:词条navel-gazing ------ necessarily(47001----47100)      ✓
            472组:词条necessary ------ negative quantity(47101----47200)      ✓
            473组:词条negative sign ------ nepenthe(47201----47300)      ✓
            474组:词条nepenthes ------ neurolinguistics(47301----47400)      ✓
            475组:词条neurological ------ newspaperman(47401----47500)      ✓
            476组:词条Newspeak ------ niftily(47501----47600)      ✓
            477组:词条niftiness ------ nip and tuck(47601----47700)      ✓
            478组:词条nipper ------ nocturnal(47701----47800)      ✓
            479组:词条nocturnal emission ------ nonagon(47801----47900)      ✓
            480组:词条non-alcoholic ------ non-invasive(47901----48000)      ✓
            481组:词条non-iron ------ non-violent(48001----48100)      ✓
            482组:词条non-volatile ------ noseband(48101----48200)      ✓
            483组:词条nosebleed ------ Nov.(48201----48300)      ✓
            484组:词条nova ------ nucleosynthetic(48301----48400)      ✓
            485组:词条nucleotide ------ nurseling(48401----48500)      ✓
            486组:词条nursemaid ------ oarlock(48501----48600)      ✓
            487组:词条oarsman ------ obligor(48601----48700)      ✓
            488组:词条oblique ------ obtrusively(48701----48800)      ✓
            489组:词条obtrusiveness ------ octagonally(48801----48900)      ✓
            490组:词条octahedral ------ oestradiol(48901----49000)      ✓
            491组:词条oestrogen ------ off the wall(49001----49100)      ✓
            492组:词条off-time ------ Old Bailey(49101----49200)      ✓
            493组:词条Old Bill ------ olive drab(49201----49300)      ✓
            494组:词条olive green ------ onerousness(49301----49400)      ✓
            495组:词条oneself ------ opal(49401----49500)      ✓
            496组:词条opalesce ------ ophthalmological(49501----49600)      ✓
            497组:词条ophthalmologist ------ optoelectronics(49601----49700)      ✓
            498组:词条optometer ------ orderly officer(49701----49800)      ✓
            499组:词条orderly room ------ original(49801----49900)      ✓
            500组:词条original instrument ------ orthorhombic(49901----50000)      ✓
            
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    来自 40楼
     楼主| 发表于 2019-1-7 07:07:00 | 只看该作者
    本帖最后由 zhuode 于 2019-1-17 12:23 编辑

    数据分组及更新日志(100一组,后面数据打包与发布也将以组为单位)<带✓号为已更新内容>:
            501组:词条orthotone ------ -ot2(50001----50100)      ✓
            502组:词条OTC ------ outdoor(50101----50200)      ✓
            503组:词条outdoor pursuits ------ outsail(50201----50300)      ✓
            504组:词条outsat ------ overalled(50301----50400)      ✓
            505组:词条overambition ------ overestimation(50401----50500)      ✓
            506组:词条overexcite ------ overpass(50501----50600)      ✓
            507组:词条overpay ------ overtone(50601----50700)      ✓
            508组:词条overtop ------ oxidize(50701----50800)      ✓
            509组:词条oxidized ------ packet(50801----50900)      ✓
            510组:词条packet switching ------ paired(50901----51000)      ✓
            511组:词条pairing ------ pallet1(51001----51100)      ✓
            512组:词条pallet2 ------ pander(51101----51200)      ✓
            513组:词条pandit ------ paperless(51201----51300)      ✓
            514组:词条papermaker ------ parallel(51301----51400)      ✓
            515组:词条parallel bars ------ pardner(51401----51500)      ✓
            516组:词条pardon ------ parole(51501----51600)      ✓
            517组:词条parolee ------ partnership(51601----51700)      ✓
            518组:词条part of speech ------ paste(51701----51800)      ✓
            519组:词条pasteboard ------ pathogenesis(51801----51900)      ✓
            520组:词条pathogenetic ------ pavior(51901----52000)      ✓
            521组:词条pavior, paviour ------ peak1(52001----52100)      ✓
            522组:词条peak2 ------ pedaller(52101----52200)      ✓
            523组:词条pedalo ------ pelagic(52201----52300)      ✓
            524组:词条pelargonium ------ penitent(52301----52400)      ✓
            525组:词条penitential ------ penurious(52401----52500)      ✓
            526组:词条penuriously ------ peremptoriness(52501----52600)      ✓
            527组:词条peremptory ------ periodicity(52601----52700)      ✓
            528组:词条periodic table ------ permit(52701----52800)      ✓
            529组:词条permittee ------ persona non grata(52801----52900)      ✓
            530组:词条personate ------ pestilently(52901----53000)      ✓
            531组:词条pestle ------ petunia(53001----53100)      ✓
            532组:词条petuntse ------ phenomenal(53101----53200)      ✓
            533组:词条phenomenalism ------ -phobic(53201----53300)      ✓
            534组:词条phoebe ------ photoemission(53301----53400)      ✓
            535组:词条photoemitter ------ phyllo(53401----53500)      ✓
            536组:词条phyllo- ------ pica1(53501----53600)      ✓
            537组:词条pica2 ------ pieman(53601----53700)      ✓
            538组:词条pier ------ pilewort(53701----53800)      ✓
            539组:词条pilfer ------ pinguid(53801----53900)      ✓
            540组:词条pinhead ------ piperidine(53901----54000)      ✓
            541组:词条pipe roll ------ piteously(54001----54100)      ✓
            542组:词条piteousness ------ plagiarist(54101----54200)      ✓
            543组:词条plagiaristic ------ plaquette(54201----54300)      ✓
            544组:词条plash1 ------ playback(54301----54400)      ✓
            545组:词条playbill ------ pleura1(54401----54500)      ✓
            546组:词条pleura2 ------ plump2(54501----54600)      ✓
            547组:词条plumpish ------ pocketbook(54601----54700)      ✓
            548组:词条pocket borough ------ poker-faced(54701----54800)      ✓
            549组:词条pokerwork ------ pollard(54801----54900)      ✓
            550组:词条pollee ------ polymerism(54901----55000)      ✓
            551组:词条polymerization ------ pond life(55001----55100)      ✓
            552组:词条pond-skater ------ poppet-head(55101----55200)      ✓
            553组:词条poppet-valve ------ portent(55201----55300)      ✓
            554组:词条portentous ------ postally(55301----55400)      ✓
            555组:词条postal meter ------ pot3(55401----55500)      ✓
            556组:词条potability ------ pouncet-box(55501----55600)      ✓
            557组:词条pound1 ------ practise(55601----55700)      ✓
            558组:词条practiser ------ prebendal(55701----55800)      ✓
            559组:词条prebendary ------ predecease(55801----55900)      ✓
            560组:词条predecessor ------ preform(55901----56000)      ✓
            561组:词条preformation ------ prepensely(56001----56100)      ✓
            562组:词条pre-plan ------ preservation(56101----56200)      ✓
            563组:词条preservationist ------ pretty(56201----56300)      ✓
            564组:词条prettyish ------ primary(56301----56400)      ✓
            565组:词条primary coil ------ printhead(56401----56500)      ✓
            566组:词条printing ------ proa(56501----56600)      ✓
            567组:词条proaction ------ prodigal(56601----56700)      ✓
            568组:词条prodigality ------ prognosticative(56701----56800)      ✓
            569组:词条prognosticator ------ promise(56801----56900)      ✓
            570组:词条promised land ------ proper name(56901----57000)      ✓
            571组:词条properness ------ prosencephalon(57001----57100)      ✓
            572组:词条prosenchyma ------ protonic(57101----57200)      ✓
            573组:词条protonotary ------ proxemics(57201----57300)      ✓
            574组:词条proximal ------ psyche1(57301----57400)      ✓
            575组:词条psyche2 ------ PTO(57401----57500)      ✓
            576组:词条Ptolemaic ------ puerperal fever(57501----57600)      ✓
            577组:词条Puerto Rican ------ pummel(57601----57700)      ✓
            578组:词条pump1 ------ puppy(57701----57800)      ✓
            579组:词条puppy fat ------ purulently(57801----57900)      ✓
            580组:词条purvey ------ pyorrhoea(57901----58000)      ✓
            581组:词条pyracantha ------ quackery(58001----58100)      ✓
            582组:词条quackish ------ quantitative analysis(58101----58200)      ✓
            583组:词条quantitatively ------ queen consort(58201----58300)      ✓
            584组:词条queendom ------ quid1(58301----58400)      ✓
            585组:词条quid2 ------ quizzer(58401----58500)      ✓
            586组:词条quizzical ------ rack6(58501----58600)      ✓
            587组:词条rack-and-pinion ------ radioisotope(58601----58700)      ✓
            588组:词条radioisotopic ------ raider(58701----58800)      ✓
            589组:词条rail1 ------ rammer(58801----58900)      ✓
            590组:词条rammer ------ rapine(58901----59000)      ✓
            591组:词条rapist ------ rational horizon(59001----59100)      ✓
            592组:词条rationalism ------ RC(59101----59200)      ✓
            593组:词条RCA ------ reallocation(59201----59300)      ✓
            594组:词条reallot ------ rebounder(59301----59400)      ✓
            595组:词条rebroadcast ------ reck(59401----59500)      ✓
            596组:词条reckless ------ recorded delivery(59501----59600)      ✓
            597组:词条recorder ------ redaction(59601----59700)      ✓
            598组:词条redactional ------ red man(59701----59800)      ✓
            599组:词条red meat ------ re-emphasis(59801----59900)      ✓
            600组:词条re-emphasize ------ Reformational(59901----60000)      ✓
            
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    来自 41楼
     楼主| 发表于 2019-1-7 07:07:04 | 只看该作者
    本帖最后由 zhuode 于 2019-1-19 11:47 编辑

    数据分组及更新日志(100一组,后面数据打包与发布也将以组为单位)<带✓号为已更新内容>:
            601组:词条reformative ------ regermination(60001----60100)      ✓
            602组:词条reggae ------ Reich(60101----60200)      ✓
            603组:词条Reichstag ------ relative density(60201----60300)      ✓
            604组:词条relative humidity ------ remarry(60301----60400)      ✓
            605组:词条remaster ------ reneger(60401----60500)      ✓
            606组:词条renegotiable ------ repellent(60501----60600)      ✓
            607组:词条repellently ------ representationism(60601----60700)      ✓
            608组:词条representationist ------ re-readable(60701----60800)      ✓
            609组:词条re-record ------ resistance(60801----60900)      ✓
            610组:词条resistant ------ restatement(60901----61000)      ✓
            611组:词条restaurant ------ retardation(61001----61100)      ✓
            612组:词条retardative ------ retrod(61101----61200)      ✓
            613组:词条retrodden ------ reverentially(61201----61300)      ✓
            614组:词条reverently ------ Reynolds number(61301----61400)      ✓
            615组:词条Rf ------ rhymester(61401----61500)      ✓
            616组:词条rhyming slang ------ riffle(61501----61600)      ✓
            617组:词条riff-raff ------ rime2(61601----61700)      ✓
            618组:词条rimless ------ riskily(61701----61800)      ✓
            619组:词条riskiness ------ roaring forties(61801----61900)      ✓
            620组:词条roaringly ------ roe2(61901----62000)      ✓
            621组:词条roebuck ------ romanticize(62001----62100)      ✓
            622组:词条Romany ------ rosaline(62101----62200)      ✓
            623组:词条rosaniline ------ rotten(62201----62300)      ✓
            624组:词条rotten apple ------ rove2(62301----62400)      ✓
            625组:词条rove3 ------ rubber stamp(62401----62500)      ✓
            626组:词条rubbery ------ rule of the road(62501----62600)      ✓
            627组:词条rule of three ------ rural district(62601----62700)      ✓
            628组:词条ruralism ------ sably(62701----62800)      ✓
            629组:词条sabot ------ sadism(62801----62900)      ✓
            630组:词条sadist ------ sailorly(62901----63000)      ✓
            631组:词条sailor suit ------ salivary(63001----63100)      ✓
            632组:词条salivate ------ salvage(63101----63200)      ✓
            633组:词条salvageable ------ sand-crack(63201----63300)      ✓
            634组:词条sand dollar ------ sapience(63301----63400)      ✓
            635组:词条sapient ------ sass(63401----63500)      ✓
            636组:词条sassaby ------ sauciness(63501----63600)      ✓
            637组:词条saucy ------ saxophone(63601----63700)      ✓
            638组:词条saxophonic ------ scantily(63701----63800)      ✓
            639组:词条scantiness ------ scenically(63801----63900)      ✓
            640组:词条scenic railway ------ schoolmastering(63901----64000)      ✓
            641组:词条schoolmasterly ------ scolex(64001----64100)      ✓
            642组:词条scoliosis ------ scourer(64101----64200)      ✓
            643组:词条scourge ------ screw valve(64201----64300)      ✓
            644组:词条screwy ------ scum(64301----64400)      ✓
            645组:词条scumbag ------ sealant(64401----64500)      ✓
            646组:词条sea lavender ------ Sec.(64501----64600)      ✓
            647组:词条sec1 ------ sectarian(64601----64700)      ✓
            648组:词条sectarianism ------ seem(64701----64800)      ✓
            649组:词条seeming1 ------ seleno-(64801----64900)      ✓
            650组:词条selenographer ------ self-criticism(64901----65000)      ✓
            651组:词条self-deceit ------ self-interested(65001----65100)      ✓
            652组:词条self-involved ------ self-starter(65101----65200)      ✓
            653组:词条self-sterile ------ semi-lunar valve(65201----65300)      ✓
            654组:词条semi-metal ------ senior tutor(65301----65400)      ✓
            655组:词条senna ------ Sept.(65401----65500)      ✓
            656组:词条sept ------ sergeant-fish(65501----65600)      ✓
            657组:词条sergeant major ------ serviette(65601----65700)      ✓
            658组:词条servile ------ sex(65701----65800)      ✓
            659组:词条sex act ------ shaggy(65801----65900)      ✓
            660组:词条shagreen ------ sharp-featured(65901----66000)      ✓
            661组:词条sharpish ------ shelf mark(66001----66100)      ✓
            662组:词条shelf room ------ Shi'ism(66101----66200)      ✓
            663组:词条shiitake ------ shirtsleeve(66201----66300)      ✓
            664组:词条shirt-tail ------ shoplifter(66301----66400)      ✓
            665组:词条shoplifting ------ short whist(66401----66500)      ✓
            666组:词条short wind ------ shrilly(66501----66600)      ✓
            667组:词条shrimp ------ sick building syndrome(66601----66700)      ✓
            668组:词条sick call ------ sieve(66701----66800)      ✓
            669组:词条sievelike ------ silicify(66801----66900)      ✓
            670组:词条silicon ------ simple interest(66901----67000)      ✓
            671组:词条simple interval ------ singularity(67001----67100)      ✓
            672组:词条singularization ------ sitting room(67101----67200)      ✓
            673组:词条sitting tenant ------ sketchily(67201----67300)      ✓
            674组:词条sketchiness ------ ski stick(67301----67400)      ✓
            675组:词条skit1 ------ slap in the face(67401----67500)      ✓
            676组:词条slapjack ------ sleeved(67501----67600)      ✓
            677组:词条sleeveless ------ slippy(67601----67700)      ✓
            678组:词条slip ring ------ sluggardly(67701----67800)      ✓
            679组:词条slugger ------ smashingly(67801----67900)      ✓
            680组:词条smash-up ------ smooth-tongued(67901----68000)      ✓
            681组:词条smorgasbord ------ sneaky(68001----68100)      ✓
            682组:词条sneck ------ snow-blink(68101----68200)      ✓
            683组:词条snowblower ------ Soc.(68201----68300)      ✓
            684组:词条soca ------ -soever(68301----68400)      ✓
            685组:词条sofa ------ solderable(68401----68500)      ✓
            686组:词条solderer ------ Som.(68501----68600)      ✓
            687组:词条soma1 ------ soothe(68601----68700)      ✓
            688组:词条soother ------ soul food(68701----68800)      ✓
            689组:词条soulful ------ south pole(68801----68900)      ✓
            690组:词条South Sea ------ spang(68901----69000)      ✓
            691组:词条spangle ------ spatulate(69001----69100)      ✓
            692组:词条spavin ------ spectrochemistry(69101----69200)      ✓
            693组:词条spectrogram ------ spermacetic(69201----69300)      ✓
            694组:词条spermatic ------ spigot(69301----69400)      ✓
            695组:词条spike1 ------ spirit lamp(69401----69500)      ✓
            696组:词条spiritless ------ splinter(69501----69600)      ✓
            697组:词条splinter-bar ------ sporadic(69601----69700)      ✓
            698组:词条sporadically ------ sprightliness(69701----69800)      ✓
            699组:词条sprightly ------ Sqn. Ldr.(69801----69900)      ✓
            700组:词条squab ------ squiggle(69901----70000)      ✓
            
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    来自 42楼
     楼主| 发表于 2019-1-7 07:07:09 | 只看该作者
    本帖最后由 zhuode 于 2019-1-20 21:40 编辑

    数据分组及更新日志(100一组,后面数据打包与发布也将以组为单位)<带✓号为已更新内容>:
            701组:词条squiggly ------ staffed(70001----70100)      ✓
            702组:词条staffer ------ stalker(70101----70200)      ✓
            703组:词条stalk-eyed ------ staple gun(70201----70300)      ✓
            704组:词条stapler ------ state of the art(70301----70400)      ✓
            705组:词条state of war ------ stay-in strike(70401----70500)      ✓
            706组:词条stay-rod ------ stein(70501----70600)      ✓
            707组:词条steinbock ------ sterlet(70601----70700)      ✓
            708组:词条sterling ------ still life(70701----70800)      ✓
            709组:词条stillness ------ stock car(70801----70900)      ✓
            710组:词条stock company ------ stoneground(70901----71000)      ✓
            711组:词条stonehatch ------ storm trooper(71001----71100)      ✓
            712组:词条storm troops ------ strangurious(71101----71200)      ✓
            713组:词条strangury ------ streptocarpus(71201----71300)      ✓
            714组:词条streptococcal ------ stripper(71301----71400)      ✓
            715组:词条strippergram ------ stubbornness(71401----71500)      ✓
            716组:词条stubby ------ stylishness(71501----71600)      ✓
            717组:词条stylist ------ subfusc(71601----71700)      ✓
            718组:词条subgeneric ------ subprogram(71701----71800)      ✓
            719组:词条subregion ------ subtracter(71801----71900)      ✓
            720组:词条subtraction ------ suf-(71901----72000)      ✓
            721组:词条suffer ------ sulphonamide(72001----72100)      ✓
            722组:词条sulphonate ------ sun-dance(72101----72200)      ✓
            723组:词条Sunday ------ supercharger(72201----72300)      ✓
            724组:词条superciliary ------ supersaturate(72301----72400)      ✓
            725组:词条supersaturation ------ suppressor(72401----72500)      ✓
            726组:词条suppurate ------ surprisingly(72501----72600)      ✓
            727组:词条surprisingness ------ swaggeringly(72601----72700)      ✓
            728组:词条swagger stick ------ sweetener(72701----72800)      ✓
            729组:词条sweetening ------ Swiss(72801----72900)      ✓
            730组:词条Swiss chard ------ symbiosis(72901----73000)      ✓
            731组:词条symbiotic ------ syndesmosis(73001----73100)      ✓
            732组:词条syndetic ------ systemize(73101----73200)      ✓
            733组:词条systemizer ------ tack3(73201----73300)      ✓
            734组:词条tacker ------ take-out(73301----73400)      ✓
            735组:词条takeover ------ tamer(73401----73500)      ✓
            736组:词条Tamil ------ tap-dancing(73501----73600)      ✓
            737组:词条tape ------ Tartarus(73601----73700)      ✓
            738组:词条tartily ------ tawny eagle(73701----73800)      ✓
            739组:词条tawny owl ------ tearaway(73801----73900)      ✓
            740组:词条teardrop ------ teeny-weeny(73901----74000)      ✓
            741组:词条teepee ------ telepoint(74001----74100)      ✓
            742组:词条teleport ------ temporariness(74101----74200)      ✓
            743组:词条temporary ------ tensility(74201----74300)      ✓
            744组:词条tensimeter ------ terminist(74301----74400)      ✓
            745组:词条terminological ------ Tesla coil(74401----74500)      ✓
            746组:词条TESOL ------ tetrasyllable(74501----74600)      ✓
            747组:词条tetrathlon ------ theatricalize(74601----74700)      ✓
            748组:词条theatrically ------ there's(74701----74800)      ✓
            749组:词条therethrough ------ thicken(74801----74900)      ✓
            750组:词条thickener ------ Thomistic(74901----75000)      ✓
            751组:词条Thomistical ------ thremmatology(75001----75100)      ✓
            752组:词条threnodial ------ thunder(75101----75200)      ✓
            753组:词条thunderbird ------ tideline(75201----75300)      ✓
            754组:词条tidemark ------ time(75301----75400)      ✓
            755组:词条time-and-motion ------ tinselled(75401----75500)      ✓
            756组:词条tinselly ------ titratable(75501----75600)      ✓
            757组:词条titrate ------ Togolese(75601----75700)      ✓
            758组:词条toil ------ toneburst(75701----75800)      ✓
            759组:词条tone control ------ top dog(75801----75900)      ✓
            760组:词条top-down ------ torment(75901----76000)      ✓
            761组:词条tormentedly ------ total war(76001----76100)      ✓
            762组:词条tote1 ------ tower block(76101----76200)      ✓
            763组:词条towered ------ track2(76201----76300)      ✓
            764组:词条trackage ------ tragic irony(76301----76400)      ✓
            765组:词条tragicomedy ------ transcriptional(76401----76500)      ✓
            766组:词条transcriptive ------ transmigrant(76501----76600)      ✓
            767组:词条transmigrate ------ trapper(76601----76700)      ✓
            768组:词条trappings ------ treelessness(76701----76800)      ✓
            769组:词条treelike ------ triangulation(76801----76900)      ✓
            770组:词条triangulation point ------ trifecta(76901----77000)      ✓
            771组:词条trifid ------ triphthongal(77001----77100)      ✓
            772组:词条triplane ------ trog2(77101----77200)      ✓
            773组:词条troglodyte ------ troy(77201----77300)      ✓
            774组:词条trs. ------ trying-plane(77301----77400)      ✓
            775组:词条try-on ------ tug(77401----77500)      ✓
            776组:词条tugboat ------ turbinal(77501----77600)      ✓
            777组:词条turbinate ------ turret lathe(77601----77700)      ✓
            778组:词条turtle ------ twill(77701----77800)      ✓
            779组:词条'twill ------ typesetting(77801----77900)      ✓
            780组:词条type site ------ ugly(77901----78000)      ✓
            781组:词条ugly customer ------ umbrella stand(78001----78100)      ✓
            782组:词条umbrella tree ------ unanimous(78101----78200)      ✓
            783组:词条unanimously ------ unbacked(78201----78300)      ✓
            784组:词条unbalance ------ uncase(78301----78400)      ✓
            785组:词条uncashed ------ uncommonly(78401----78500)      ✓
            786组:词条uncommonness ------ uncorroborated(78501----78600)      ✓
            787组:词条uncorrupted ------ underclothing(78601----78700)      ✓
            788组:词条undercoat ------ undershoot(78701----78800)      ✓
            789组:词条undershorts ------ undisciplined(78801----78900)      ✓
            790组:词条undisclosed ------ unenviable(78901----79000)      ✓
            791组:词条unenviably ------ unfenced(79001----79100)      ✓
            792组:词条unfermented ------ungodliness (79101----79200)      ✓
            793组:词条ungodly ------ uni-(79201----79300)      ✓
            794组:词条Uniate ------ uninterestingly(79301----79400)      ✓
            795组:词条uninterestingness ------ university(79401----79500)      ✓
            796组:词条univocal ------ unmalleable(79501----79600)      ✓
            797组:词条unman ------ unneighbourliness(79601----79700)      ✓
            798组:词条unneighbourly ------ unplaceable(79701----79800)      ✓
            799组:词条unplaced ------ unproved(79801----79900)      ✓
            800组:词条unprovided ------ unreliable(79901----80000)      ✓
            
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    来自 43楼
     楼主| 发表于 2019-1-7 07:07:13 | 只看该作者
    本帖最后由 zhuode 于 2019-1-22 07:50 编辑

    数据分组及更新日志(100一组,后面数据打包与发布也将以组为单位)<带✓号为已更新内容>:
            801组:词条unreliableness ------ unroyal(80001----80100)      ✓
            802组:词条unruffled ------ unsexed(80101----80200)      ✓
            803组:词条unsexy ------ unspiritual(80201----80300)      ✓
            804组:词条unspirituality ------ unsuspiciousness(80301----80400)      ✓
            805组:词条unsustainable ------ untransportable(80401----80500)      ✓
            806组:词条untravelled ------ unwhipped(80501----80600)      ✓
            807组:词条unwholesome ------ upmost(80601----80700)      ✓
            808组:词条upon ------ urbanite(80701----80800)      ✓
            809组:词条urbanity ------ usurper(80801----80900)      ✓
            810组:词条usury ------ vagabondage(80901----81000)      ✓
            811组:词条vagal ------ vampire(81001----81100)      ✓
            812组:词条vampiric ------ variolar(81101----81200)      ✓
            813组:词条variole ------ Vedda(81201----81300)      ✓
            814组:词条vedette ------ venerate(81301----81400)      ✓
            815组:词条veneration ------ verboseness(81401----81500)      ✓
            816组:词条verbosity ------ verso(81501----81600)      ✓
            817组:词条verst ------ viably(81601----81700)      ✓
            818组:词条viaduct ------ vide(81701----81800)      ✓
            819组:词条videlicet ------ vindicate(81801----81900)      ✓
            820组:词条vindication ------ Virgoan(81901----82000)      ✓
            821组:词条virgule ------ visual field(82001----82100)      ✓
            822组:词条visuality ------ vizcacha(82101----82200)      ✓
            823组:词条vizier ------ volt1(82201----82300)      ✓
            824组:词条volt2 ------ voyageur(82301----82400)      ✓
            825组:词条voyeur ------ wage-earning(82401----82500)      ✓
            826组:词条wager ------ walk-up(82501----82600)      ✓
            827组:词条walkway ------ wardenship(82601----82700)      ✓
            828组:词条war department ------ washboard(82701----82800)      ✓
            829组:词条washday ------ water-cannon(82801----82900)      ✓
            830组:词条Water-carrier ------ watery grave(82901----83000)      ✓
            831组:词条Wathawurung ------ weakly(83001----83100)      ✓
            832组:词条weak-minded ------ wee2(83101----83200)      ✓
            833组:词条weed ------ well-bred(83201----83300)      ✓
            834组:词条well-built ------ Welshwoman(83301----83400)      ✓
            835组:词条welt ------ whang(83401----83500)      ✓
            836组:词条whangee ------ whicker(83501----83600)      ✓
            837组:词条whidah ------ whitebait(83601----83700)      ✓
            838组:词条whitebeam ------ wholegrain(83701----83800)      ✓
            839组:词条wholehearted ------ widow's peak(83801----83900)      ✓
            840组:词条widow's weeds ------ wimple(83901----84000)      ✓
            841组:词条Wimpy ------ wine red(84001----84100)      ✓
            842组:词条winery ------ wire-walker(84101----84200)      ✓
            843组:词条wire wheel ------ wizard(84201----84300)      ✓
            844组:词条wizardly ------ wood(84301----84400)      ✓
            845组:词条wood alcohol ------ word(84401----84500)      ✓
            846组:词条wordage ------ world-class(84501----84600)      ✓
            847组:词条World Cup ------ wrangler(84601----84700)      ✓
            848组:词条wrangling ------ wryness(84701----84800)      ✓
            849组:词条WSW ------ yackety-yack(84801----84900)      ✓
            850组:词条yaffle ------ yellowhammer(84901----85000)      ✓
            851组:词条yellowish ------ yorker(85001----85100)      ✓
            852组:词条Yorkist ------ zealot(85101----85200)      ✓
            853组:词条zealotry ------ Zollner's lines(85201----85300)      ✓
            854组:词条zollverein ------ zymurgy(85301----85375)      ✓
            

            USAGE :


            Appendices :暂定不做提取,详见说明5

  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    来自 44楼
     楼主| 发表于 2019-1-7 07:09:55 | 只看该作者
    本帖最后由 zhuode 于 2019-1-20 01:27 编辑

    COD9光盘mdx化首版建议:
    说明:数据当然是公开不受限制地供大家使用的,但是首版呢,楼主有一点小希望,寄望大家满足一下作为对楼主这二十天劳动的小尊重,好吧...。可能是出于楼主的怀旧情节或者官方情节吧,首版楼主的打算是出一个原盘复刻版。那出于楼主对这些数据的了解呢,楼主提一些建议以供参考,当然这些建议只适用于首版。


    1.大家要通读18楼的提取笔记增加对数据的了解。
    2.数据去重要多次,原因在于主词条与该主词条下的子词条pdf文件内容是相同的,而个别主词条可能会有巨量子词条。
    3.希望保留原版的字体、加粗、斜体、上标等格式。
    4.保留原版的颜色同时颜色可在之后以css之类方式进行调整。
    5.索引覆盖要全面。
    6.在此基础上,排版要尽量美观,比如通过调节行间距避免上下行个别字母过紧乃至交叉影响分辨。

  • TA的每日心情
    慵懒
    2018-9-28 00:22
  • 签到天数: 273 天

    [LV.8]以坛为家I

    6

    主题

    600

    回帖

    6635

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6635

    灌水大神章

    推荐
    发表于 2019-1-11 21:36:05 | 只看该作者
    本帖最后由 Saxons 于 2019-1-17 10:45 编辑

    完全可以。刚做了一个保留格式的测试版,各种必要的元素都有识别度。这是测试,里面的东西,除了字体调大,我都没改动。
    这是最接近你转换出来的pdf的版本了。
    就是css会随着pdf的增加而变大,想想后面还有8万多页的pdf,它的体积会变得多大,想想都可怕,这个需要优化。
    这是最接近复刻的了,也就是说pdf是什么样,它就是什么样,如果加上颜色,就更像了。









    点评

    大概是这么个方向  发表于 2019-1-12 00:04
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    推荐
     楼主| 发表于 2019-1-4 22:38:08 | 只看该作者
    喬治兄 发表于 2019-1-4 22:31
    zhuode 師姐:
    剛想到有一工具或許得以試之
    为知笔记可以存 html format

    感谢,后面或许会用到,也有可能犯懒,就既有步骤做到底了
    bbs 该用户已被删除
    2
    发表于 2019-1-4 11:52:33 | 只看该作者
    对啊,就是这样,思路完全正确。然后把你这个过程,用按键精灵实现自动化。就可以完成一个完美的MDX了。就看谁愿意去实现了。一般都是比较懒的,比如我。你要是有兴趣,可以去研究一下按键精灵。
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    3
     楼主| 发表于 2019-1-4 12:04:16 | 只看该作者
    bbs 发表于 2019-1-4 11:52
    对啊,就是这样,思路完全正确。然后把你这个过程,用按键精灵实现自动化。就可以完成一个完美的MDX了。就 ...

    这么好的词典都没人动心?我能想到的是可以用按键精灵或类似工具得到大量单个单词的pdf文件,但这些文件如何合成一个文件及之后的mdx化我就完全是外行了。
    bbs 该用户已被删除
    4
    发表于 2019-1-4 12:06:54 | 只看该作者
    zhuode 发表于 2019-1-4 12:04
    这么好的词典都没人动心?我能想到的是可以用按键精灵或类似工具得到大量单个单词的pdf文件,但这些文件如 ...

    你如果得到全部单词的pdf文件,再生成mdx就简单,就费不了多少工夫,那我可以帮忙生成一下。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    5
    发表于 2019-1-4 12:10:09 | 只看该作者
    bbs 发表于 2019-1-4 11:52
    对啊,就是这样,思路完全正确。然后把你这个过程,用按键精灵实现自动化。就可以完成一个完美的MDX了。就 ...


    bbs 兄:
    這兩天小弟也在思考一個問題
    目前網上多的是PDF printer 若是有 HTML printer
    則很多資料便能迎刃而解
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    6
     楼主| 发表于 2019-1-4 12:13:04 | 只看该作者
    bbs 发表于 2019-1-4 12:06
    你如果得到全部单词的pdf文件,再生成mdx就简单,就费不了多少工夫,那我可以帮忙生成一下。 ...

    好!我再探索下,不过还有一个可以想见的问题,就是之后得稍微排下版,例如去掉pdf的分页和图4中"Concise Oxford Dictionary Ninth Edition"一行
    bbs 该用户已被删除
    7
    发表于 2019-1-4 12:15:15 | 只看该作者
    喬治兄 发表于 2019-1-4 12:10
    bbs 兄:
    這兩天小弟也在思考一個問題
    目前網上多的是PDF printer 若是有 HTML printer

    只是差一步pdf转HTML而已。文字版的 pdf 可以用 Adobe Acrobat Reader DC 或者 福昕PDF阅读器 转成 HTML  的。转成HTML之后,可以用python正则表达式提取内容。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    8
    发表于 2019-1-4 12:27:38 | 只看该作者
    本帖最后由 喬治兄 于 2019-1-4 12:40 编辑
    bbs 发表于 2019-1-4 12:15
    只是差一步pdf转HTML而已。文字版的 pdf 可以用 Adobe Acrobat Reader DC 或者 福昕PDF阅读器 转成 HTML  ...


    bbs 兄:
    所言及是, 但若是有個 HTML printer 則任何打印的資料就是網頁的格式
    就算無法解鎖光盤的資料也能用窮舉法把資料導出,或用 auto it 寫個程序把資料依序導出
    時間上不比解鎖光盤來的費時

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    9
    发表于 2019-1-4 13:22:54 | 只看该作者
    光盘内容虚拟打印成PDF,里面的内容并不完全是标准纯文本,PDF到html依然靠的是OCR,虽然大部分内容和格式能识别出来,但是还会有乱码。换句话说,看个人是想用内容 完全正确但格式不完美的COD9还是想用能保留大部分格式但内容 可能 有问题的COD9?

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    10
    发表于 2019-1-4 13:41:59 | 只看该作者
    有个取巧的办法,得到了pdf,转成图片,不就保留格式了吗?

    然而,似乎大部分用英语词典mdx的都不大能接受「图片版COD」吧
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    11
    发表于 2019-1-4 13:49:24 | 只看该作者
    tsiank 发表于 2019-1-4 13:22
    光盘内容虚拟打印成PDF,里面的内容并不完全是标准纯文本,PDF到html依然靠的是OCR,虽然大部分内容和格式 ...

    tsiank 兄:
    所言及是呀!,能導出文本資料已屬不易了
    此工作費時費力
    小弟也在導個光盤資料
    都掛在那兩天了還不到 6000 筆資料
    我看 7~8 跑不掉了

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    12
    发表于 2019-1-4 14:08:53 来自手机 | 只看该作者
    喬治兄 发表于 2019-1-4 13:49
    tsiank 兄:
    所言及是呀!,能導出文本資料已屬不易了
    此工作費時費力

    多开几个虚拟机
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    13
    发表于 2019-1-4 14:14:45 | 只看该作者
    tsiank 发表于 2019-1-4 14:08
    多开几个虚拟机

    對喔怎沒想到這招
    謝謝 tsiank 兄 指點迷津

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    14
    发表于 2019-1-4 17:35:33 | 只看该作者
    楼主正解;)

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    15
    发表于 2019-1-4 20:31:36 | 只看该作者
    我知道为什么会有乱码了,是可以重新做并完全保留原格式了
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    78

    主题

    479

    回帖

    8680

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    8680

    管理组专用章

    16
    发表于 2019-1-4 20:49:27 | 只看该作者
    你的cod9的光盘可以在Mac上打开么?如果可以的话,我可以试试,看能不能写个python程序把这个提取程序自动化一下。
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    17
     楼主| 发表于 2019-1-4 21:17:38 | 只看该作者
    GL_n 发表于 2019-1-4 20:49
    你的cod9的光盘可以在Mac上打开么?如果可以的话,我可以试试,看能不能写个python程序把这个提取程序自动 ...

    不能,我是在Mac上用虚拟机装的xp然后运行的。別说Mac,windows7据说都不行

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    19
    发表于 2019-1-4 22:21:51 来自手机 | 只看该作者
    zhuode 发表于 2019-1-4 21:17
    不能,我是在Mac上用虚拟机装的xp然后运行的。別说Mac,windows7据说都不行

    已经在重新提取中了,感谢提示
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    21
    发表于 2019-1-4 22:31:32 | 只看该作者
    zhuode 師姐:
    剛想到有一工具或許得以試之
    为知笔记可以存 html format
    不用打印成 pdf
    https://www.wiz.cn/
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    22
     楼主| 发表于 2019-1-4 22:31:40 | 只看该作者
    tsiank 发表于 2019-1-4 22:21
    已经在重新提取中了,感谢提示

    你之前不是用的类似方法吗,我也在进行数据提取,但我只会提数据,后面就靠论坛了。
  • TA的每日心情
    慵懒
    2021-12-14 13:16
  • 签到天数: 403 天

    [LV.9]以坛为家II

    2

    主题

    940

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13665

    QQ 章灌水大神章笑傲江湖章推广专家

    24
    发表于 2019-1-4 23:34:30 | 只看该作者
    对楼主的努力表示深深的支持!会持续关注!辛苦了
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

    18

    主题

    583

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10974
    25
     楼主| 发表于 2019-1-4 23:58:58 | 只看该作者
    tsiank 发表于 2019-1-4 20:31
    我知道为什么会有乱码了,是可以重新做并完全保留原格式了

    瞬间感觉伸手党的日子又回来了!