查看: 5439|回复: 81
打印 上一主题 下一主题

[英英] Wiktionary English Lite Demo converted from enwiktionary-20160801-pages-artic...

[复制链接]
匿名
跳转到指定楼层
1
匿名  发表于 2016-8-6 19:55:19 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 匿名 于 2016-8-13 13:25 编辑



网页抓取这种制作途径已经在终止,原因是速度太慢。所以改从 https://dumps.wikimedia.org/enwiktionary/20160801/ 这里的 enwiktionary-20160801-pages-articles-multistream.xml.bz2 文件解析制作。



Wiktionary English Lite Demo converted from enwiktionary-20160801-pages-articles.xml

Total XML Page Element Count: 5123659
Total Entry Count: 4795094
Total English Entry Count: 664419



目前只是简单抽取出名字空间为 0,页面含有 ==English== 的 Entry 中的:

    音标
    词源
    释义
   
三块内容。尽管所做的工作看似不多。但已经耗费近 1195 行代码。而这三块当中,还存在大量形如:

    {{present participle of|zzz|lang=en|nocat=1}}
   
之类的模版未做解析。解析模版可参考(https://en.wiktionary.org/wiki/Category:Templates)。

以上,也就是 Lite 和 Demo 的原因了。BUG 比较多,暂时不推荐给大家下载使用!目前先作为研究解析维基词典 xml 的尝试。



______________________________________

目前解析  {{...}} 这样的模式文本,工作量太多,只能先中断一段时间。视个人时间安排再重启解析工作。

前日所提供的 DEMO,应该有 2 人保存,3 人下载。针对这 (3 ~ 5 ?)个感兴趣的朋友,只能暂时说声抱歉,希望理解整个进程的难度。目前比较多的就是大量 {{...}} 未做转换。

文字大小,改动 CSS 里面的内容即可。隐藏词源、音标、复数等,可以添加:

  1. .etyhead, .etyl_detail, .pronhead,
  2. .pronunciation, .Proto-Indo-European-root,
  3. .addinfo {
  4.     display: none;
  5. }
复制代码


目前本人也是暂时这样用着。
毕竟手机用 zim,无关内容太多,词源、音标、复数,有其它词典可以参考。
Wiktionary 看看释义就好。没太多要求。

本帖被以下淘专辑推荐:

该用户从未签到

59

主题

960

回帖

8774

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
8774

灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

推荐
发表于 2016-9-17 12:10:13 | 只看该作者
雏形
细节太多,离完工还有距离。。。

点评

要不先发出来吧,大家先用着,然后再慢慢更新。而且经常更新还有新鲜感呢  发表于 2016-9-23 12:12
期待这个重磅大作!因为这个wiktionary本身也是我自己非常喜欢的  发表于 2016-9-21 12:07

该用户从未签到

59

主题

960

回帖

8774

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
8774

灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

推荐
发表于 2016-9-25 10:08:40 | 只看该作者
匿名者 发表于 2016-9-25 09:15
是用的联网发音吗?

http://wiki.qt.io/Qt_Webkit_HTML5_Score
http://html5test.com/compare/browser/ios-10.0.html
确实Goldendict的内核QtWebkit和ios平台均不支持ogg格式,可能只有某些型号的安卓手机才支持
  • TA的每日心情
    慵懒
    2022-10-27 16:11
  • 签到天数: 326 天

    [LV.8]以坛为家I

    130

    主题

    3638

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    20089

    灌水大神章小蜜蜂章笑傲江湖章

    推荐
    发表于 2016-9-21 18:16:50 | 只看该作者
    bt4baidu 发表于 2016-9-21 13:46
    谢谢,用了Apache的batik,终于可以转png了
    还是Apache的软件最好用

    哈哈  太棒了!!没想到能上忙。应该快制作完成了吧?这几天等得好激动~~

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    推荐
    发表于 2016-9-21 13:46:05 | 只看该作者
    woaini123 发表于 2016-9-21 09:59
    B大,找到这个工具,不知有没有用:http://www.xiazaiba.com/html/26367.html

    还有其他几个:http://w ...

    谢谢,用了Apache的batik,终于可以转png了
    还是Apache的软件最好用
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    99

    主题

    1477

    回帖

    3万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    35504

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    推荐
    发表于 2016-8-6 22:42:51 来自手机 | 只看该作者
    感谢并期待!yourdictionary.com自身的辞典释义以及例句不知道楼主大大有没有兴趣爬下来,O大在这个帖子里也说过这部辞典也不错,坛子里至今还没有。https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=12712&extra=&page=1&mobile=2

    点评

    我印象中阁下做过一版wiktionary词典,我还在用。但是效果的确不佳,但也一直没找到更好的版本  发表于 2016-9-21 12:08
  • TA的每日心情
    开心
    2021-4-30 05:36
  • 签到天数: 1 天

    [LV.1]初来乍到

    27

    主题

    1336

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13273

    笑傲江湖章灌水大神章

    3
    发表于 2016-8-6 21:48:04 | 只看该作者
    热烈欢迎,应该更新了
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    99

    主题

    1477

    回帖

    3万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    35504

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    4
    发表于 2016-8-6 22:49:21 来自手机 | 只看该作者
    这个网站上还有美国传统5,例句也很有特色的感觉,每个例句下面也有像城市辞典那样的点赞与否的标志,感觉蛮新颖的!
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    427

    主题

    4539

    回帖

    9万

    积分

    超级版主

    Rank: 12Rank: 12Rank: 12

    积分
    92011

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章城管大队长

    8
    发表于 2016-8-11 22:53:52 | 只看该作者
    https://www.pdawiki.com/forum/fo ... hread&tid=16926
    這個帖子似乎有一點兒幫助,樓主可以看一下。
    匿名
    9
    匿名  发表于 2016-8-11 23:25:45
    本帖最后由 匿名 于 2016-9-25 22:16 编辑



    由于楼主匿名大侠正在修复,这里提供楼主先前提供测试的mdx。仅供测试,请在测试之后删除!

    enwiktionary_lite.mdx by 匿名.part01.rar

    4.3 MB, 下载次数: 55, 下载积分: 米 -5 粒

    enwiktionary_lite.mdx by 匿名.part02.rar

    4.3 MB, 下载次数: 30, 下载积分: 米 -5 粒

    enwiktionary_lite.mdx by 匿名.part03.rar

    4.3 MB, 下载次数: 18, 下载积分: 米 -5 粒

    enwiktionary_lite.mdx by 匿名.part04.rar

    4.3 MB, 下载次数: 18, 下载积分: 米 -5 粒

    enwiktionary_lite.mdx by 匿名.part05.rar

    4.3 MB, 下载次数: 18, 下载积分: 米 -5 粒

    enwiktionary_lite.mdx by 匿名.part06.rar

    4.3 MB, 下载次数: 18, 下载积分: 米 -5 粒

    enwiktionary_lite.mdx by 匿名.part07.rar

    4.3 MB, 下载次数: 18, 下载积分: 米 -5 粒

    enwiktionary_lite.mdx by 匿名.part08.rar

    4.3 MB, 下载次数: 18, 下载积分: 米 -5 粒

    enwiktionary_lite.mdx by 匿名.part09.rar

    4.3 MB, 下载次数: 18, 下载积分: 米 -5 粒

    enwiktionary_lite.mdx by 匿名.part10.rar

    3.03 MB, 下载次数: 18, 下载积分: 米 -5 粒

  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    427

    主题

    4539

    回帖

    9万

    积分

    超级版主

    Rank: 12Rank: 12Rank: 12

    积分
    92011

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章城管大队长

    10
    发表于 2016-8-13 20:57:36 | 只看该作者
    本帖最后由 kyletruman 于 2016-8-13 21:07 编辑

    楼主的en-wiktionary.mdx版本新(20160801),对比liuyunrushui大的en-wiktionary2014,relevant词条下第一个义项的释义是完整的,而liuyunrushui大的babylon版en-wiktionary第一个义项下的释义缺失。但是楼主这部词典relevant第二个义项下的例句缺失。
  • TA的每日心情
    开心
    2020-3-25 07:07
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    129

    主题

    2409

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    17783

    灌水大神章小蜜蜂章笑傲江湖章

    11
    发表于 2016-8-14 09:54:57 | 只看该作者
    Wiktionary的确是一个很好的词典,其一,收词量大;其二,释义简明,含义较新。
  • TA的每日心情
    开心
    2021-4-30 05:36
  • 签到天数: 1 天

    [LV.1]初来乍到

    27

    主题

    1336

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13273

    笑傲江湖章灌水大神章

    12
    发表于 2016-8-14 15:17:30 | 只看该作者
    感谢楼主的工作,非常期待,Wiktionary的编辑总体还是很严谨 的,参考价值很大,谢谢楼主
  • TA的每日心情
    奋斗
    2022-8-10 09:09
  • 签到天数: 940 天

    [LV.10]以坛为家III

    12

    主题

    1667

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    14109

    笑傲江湖章灌水大神章

    13
    发表于 2016-9-10 16:16:19 | 只看该作者
    想知道这个词典后继还在修正吗?偶然搜两个单词的对比使用时才遇到这个网站,发现真的很实用
  • TA的每日心情
    慵懒
    2022-10-27 16:11
  • 签到天数: 326 天

    [LV.8]以坛为家I

    130

    主题

    3638

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    20089

    灌水大神章小蜜蜂章笑傲江湖章

    14
    发表于 2016-9-12 17:38:03 | 只看该作者
    非常感谢,期待早日出炉!!
  • TA的每日心情
    慵懒
    2022-10-27 16:11
  • 签到天数: 326 天

    [LV.8]以坛为家I

    130

    主题

    3638

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    20089

    灌水大神章小蜜蜂章笑傲江湖章

    15
    发表于 2016-9-12 17:41:21 | 只看该作者
    匿名者 发表于 2016-8-11 23:25
    楼主,我刚发现您分享的mdx中有这样的问题,如果某个英语名词词条有复数形式,就会出现lang=en这样的问题, ...

    附件全部下了,但是解压错误,是不是还少分卷?

    点评

    没少,是论坛服务器的问题,从昨天下午开始下载论坛附件解压时老出错,先前我下载时没有任何问题  发表于 2016-9-12 17:44

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    16
    发表于 2016-9-12 18:36:03 | 只看该作者
    网页抓取这种制作途径已经在终止,原因是速度太慢。


    https://en.wiktionary.org/wiki/Index:English/a1取得全部的单词表,然后开多线程批量抓,也不会太慢吧?之前用单词表去轰炸dictionary.com,刷120万个网页也不过半天的时间;
    抓网页好处是数据直接就是HTML,不讲究格式的话打包就可以用,不用再解析wiki的各种xml模板;
    wiki的模板超级变态,几个月的工夫恐怕都搞不明白,把时间花在这上面没必要

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    17
    发表于 2016-9-13 13:00:34 | 只看该作者
    本帖最后由 bt4baidu 于 2016-9-13 13:03 编辑
    kyletruman 发表于 2016-8-13 20:57
    楼主的en-wiktionary.mdx版本新(20160801),对比liuyunrushui大的en-wiktionary2014,relevant词条下第一个 ...


    en-wiktionary.mdx一共多少词条?
    Total English Entry Count: 664419好像不对吧,是否包含了其它语言的?
    根据官方索引页https://en.wiktionary.org/wiki/Index:English/0的统计结果为268228 words totally

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    18
    发表于 2016-9-13 13:08:08 | 只看该作者
    kyletruman 发表于 2016-9-13 13:04
    这部词典不是我制作的,楼主匿名大侠的词条数664419

    是goldendict的统计结果吗?跟网站的索引数目对不上啊

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    19
    发表于 2016-9-13 13:47:05 | 只看该作者
    bt4baidu 发表于 2016-9-13 13:08
    是goldendict的统计结果吗?跟网站的索引数目对不上啊

    晕,索引居然不是同步更新的,而且都几年没更新了。。。
    ...extracted from the 2012-Apr-28 database dump.
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    427

    主题

    4539

    回帖

    9万

    积分

    超级版主

    Rank: 12Rank: 12Rank: 12

    积分
    92011

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章城管大队长

    20
    发表于 2016-9-13 14:23:36 | 只看该作者
    bt4baidu 发表于 2016-9-13 13:47
    晕,索引居然不是同步更新的,而且都几年没更新了。。。
    ...extracted from the 2012-Apr-28 database d ...

    可是我每次用在线版的en-wiktionary查词时,显示的最后编辑时间有很多是最近几天或者十几天的,内容数据更新太频繁了。

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    21
    发表于 2016-9-13 16:24:43 | 只看该作者
    本帖最后由 bt4baidu 于 2016-9-13 16:27 编辑
    kyletruman 发表于 2016-9-13 14:23
    可是我每次用在线版的en-wiktionary查词时,显示的最后编辑时间有很多是最近几天或者十几天的,内容数据 ...


    是的,所以这个wiktionary很让人纠结,做离线版吧很快就落后网页数据,不做吧那个在线版很多东西干扰视线,排版看起来也很累

    根据网站提示(https://en.wiktionary.org/wiki/Index:English
    In practice, this index is rarely updated. For a list that is guaranteed to be up to date, see Category:English lemmas.
    索引页居然在https://en.wiktionary.org/wiki/Category:English_lemmas
    The following 200 pages are in this category, out of 440,460 total.
    那也才44万,和楼主的66万还是有差距
    匿名
    22
    匿名  发表于 2016-9-13 17:11:03
    维基词典每月应该有两次自动 DUMP。其实只要把代码写出来,就像 superfan89 或者 i-wiki 的离线维基百科引擎一样,只要有人愿意花自己的电费用电脑来转换,就能用上最新的离线版了。

    但转换模版的代码是个耗费体力和时间的活。所以我不会全部自己做。因为我能容忍 {{...}},毕竟不是完美主义控。
    我知道目前 MDX 届 100% 的词典都有问题,不管是原始数据的问题,还是制作中的问题,还是排版问题。只是程度轻重而已。不过,对于查阅来说,可以忽略不计。

    我的想法是。谁有设计代码整体框架的经验。把整体代码框架设计出来。剩下的工作,就是谁想参与,就完善下转换 {{...}} 的代码。然后集成到主体代码中。逐步迭代,知道最终完成全部解析 {{...}} 模版。

    迭代初期的代码只要考虑释义和例句模块就好了。这样的基本版基本可以满足大众的查阅需求,可以免费完全开放给所有人,毕竟维基就是免费让人学习用的。

    不过,谁要是想要引语或其他模块。
            :就让他们找愿意干活的人,支付几千|几万|几十万的开发费用,购买定制化的代码。(不要找我,有些事,你给钱都没用。)
            :否则就自己解决,或者等着哪个公司去做。
            :或者,就打消完全离线话的念头。
            :或者,就用不能折叠的干扰比较多的 zim。
            :或者,时刻 Online,用原装在线官方正版。

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    23
    发表于 2016-9-13 17:45:51 | 只看该作者
    匿名者 发表于 2016-9-13 17:11
    维基词典每月应该有两次自动 DUMP。其实只要把代码写出来,就像 superfan89 或者 i-wiki 的离线维基百科引 ...

    解析XML太痛苦了,而且那个dump文件有N个G,打开很费劲
    我要是做的话,会考虑直接抓网页,这样连图片也可以抓下来

    只是不知道楼主的词条数为何比官方宣称的(https://en.wiktionary.org/wiki/Category:English_lemmas)还多二十多万
    匿名
    24
    匿名  发表于 2016-9-13 17:57:14
    本帖最后由 匿名 于 2016-9-13 18:04 编辑
    bt4baidu 发表于 2016-9-13 17:45
    解析XML太痛苦了,而且那个dump文件有N个G,打开很费劲
    我要是做的话,会考虑直接抓网页,这样连图片也 ...


    1.    <namespaces>
    2.       <namespace key="-2" case="case-sensitive">Media</namespace>
    3.       <namespace key="-1" case="first-letter">Special</namespace>
    4.       <namespace key="0" case="case-sensitive" />                     <---------------------------------------------------------------------------------
    5.       <namespace key="1" case="case-sensitive">Talk</namespace>
    6.       <namespace key="2" case="first-letter">User</namespace>
    7.       <namespace key="3" case="first-letter">User talk</namespace>
    8.       <namespace key="4" case="case-sensitive">Wiktionary</namespace>
    9.       <namespace key="5" case="case-sensitive">Wiktionary talk</namespace>
    10.       <namespace key="6" case="case-sensitive">File</namespace>
    11.       <namespace key="7" case="case-sensitive">File talk</namespace>
    12.       <namespace key="8" case="first-letter">MediaWiki</namespace>
    13.       <namespace key="9" case="first-letter">MediaWiki talk</namespace>
    14.       <namespace key="10" case="case-sensitive">Template</namespace>
    15.       <namespace key="11" case="case-sensitive">Template talk</namespace>
    16.       <namespace key="12" case="case-sensitive">Help</namespace>
    17.       <namespace key="13" case="case-sensitive">Help talk</namespace>
    18.       <namespace key="14" case="case-sensitive">Category</namespace>
    19.       <namespace key="15" case="case-sensitive">Category talk</namespace>
    20.       <namespace key="90" case="case-sensitive">Thread</namespace>
    21.       <namespace key="91" case="case-sensitive">Thread talk</namespace>
    22.       <namespace key="92" case="case-sensitive">Summary</namespace>
    23.       <namespace key="93" case="case-sensitive">Summary talk</namespace>
    24.       <namespace key="100" case="case-sensitive">Appendix</namespace>
    25.       <namespace key="101" case="case-sensitive">Appendix talk</namespace>
    26.       <namespace key="102" case="case-sensitive">Concordance</namespace>
    27.       <namespace key="103" case="case-sensitive">Concordance talk</namespace>
    28.       <namespace key="104" case="case-sensitive">Index</namespace>
    29.       <namespace key="105" case="case-sensitive">Index talk</namespace>
    30.       <namespace key="106" case="case-sensitive">Rhymes</namespace>
    31.       <namespace key="107" case="case-sensitive">Rhymes talk</namespace>
    32.       <namespace key="108" case="case-sensitive">Transwiki</namespace>
    33.       <namespace key="109" case="case-sensitive">Transwiki talk</namespace>
    34.       <namespace key="110" case="case-sensitive">Wikisaurus</namespace>
    35.       <namespace key="111" case="case-sensitive">Wikisaurus talk</namespace>
    36.       <namespace key="114" case="case-sensitive">Citations</namespace>
    37.       <namespace key="115" case="case-sensitive">Citations talk</namespace>
    38.       <namespace key="116" case="case-sensitive">Sign gloss</namespace>
    39.       <namespace key="117" case="case-sensitive">Sign gloss talk</namespace>
    40.       <namespace key="118" case="case-sensitive">Reconstruction</namespace>
    41.       <namespace key="119" case="case-sensitive">Reconstruction talk</namespace>
    42.       <namespace key="828" case="case-sensitive">Module</namespace>
    43.       <namespace key="829" case="case-sensitive">Module talk</namespace>
    44.       <namespace key="2300" case="case-sensitive">Gadget</namespace>
    45.       <namespace key="2301" case="case-sensitive">Gadget talk</namespace>
    46.       <namespace key="2302" case="case-sensitive">Gadget definition</namespace>
    47.       <namespace key="2303" case="case-sensitive">Gadget definition talk</namespace>
    48.       <namespace key="2600" case="first-letter">Topic</namespace>
    49.     </namespaces>
    复制代码


    注意添加箭头的部分(<namespace key="0" case="case-sensitive" />),这就是 Dictionary 的命名空间,总共如我主帖所说:Total Entry Count: 4795094
    而在 Dictionary (<namespace key="0" case="case-sensitive" />)的命名空间之内,含有 ==English== 的内容块,就是我统计出来的:Total English Entry Count: 664419
    如下面所示:

    1. <page>
    2.     <title>pseudorings</title>
    3.     <ns>0</ns>
    4.     <id>4988421</id>
    5.     <revision>
    6.       <id>34406341</id>
    7.       <timestamp>2015-09-16T19:47:58Z</timestamp>
    8.       <contributor>
    9.         <username>Equinox</username>
    10.         <id>84390</id>
    11.       </contributor>
    12.       <comment>Creating plural form of [[pseudoring]] ([[WT:ACCEL|Accelerated]])</comment>
    13.       <model>wikitext</model>
    14.       <format>text/x-wiki</format>
    15.       <text xml:space="preserve">==English==                                <---------------------------------------------------------------------------------

    16. ===Noun===
    17. {{head|en|noun plural form}}

    18. # {{plural of|pseudoring|lang=en}}</text>
    19.       <sha1>3nsh2u4vd7cxfmbuoqd3275ndjkp2qf</sha1>
    20.     </revision>
    21.   </page>
    复制代码


    而不含有 ==English== 的内容块,像下面这样,不计入英语词条总数,因为它们不是法语、德语、俄语,就是其它语言:

    1.   <page>
    2.     <title>ghindasse</title>
    3.     <ns>0</ns>
    4.     <id>3458927</id>
    5.     <revision>
    6.       <id>30988239</id>
    7.       <parentid>30079370</parentid>
    8.       <timestamp>2014-12-07T14:22:33Z</timestamp>
    9.       <contributor>
    10.         <username>MewBot</username>
    11.         <id>345682</id>
    12.       </contributor>
    13.       <minor />
    14.       <comment>Adjust inflection tags</comment>
    15.       <model>wikitext</model>
    16.       <format>text/x-wiki</format>
    17.       <text xml:space="preserve">==Italian==                        <---------------------------------------------------------------------------------

    18. ===Verb===
    19. {{head|it|verb form}}

    20. # {{inflection of|ghindare||3|s|impf|subj|lang=it}}

    21. [[it:ghindasse]]</text>
    22.       <sha1>jbr8popj9pajz5biq9ktuhhqk63xw89</sha1>
    23.     </revision>
    24.   </page>
    复制代码


    4795094 实际词条,去除非英语词条,英语词条总共是 664419。这说明,其它类语言总计 4130675。以上统计是基于 2016.08.01 DUMP XML 数据。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    427

    主题

    4539

    回帖

    9万

    积分

    超级版主

    Rank: 12Rank: 12Rank: 12

    积分
    92011

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章城管大队长

    25
    发表于 2016-9-13 18:04:27 来自手机 | 只看该作者
    很多时候,查wiktionary很快,能查到很多单词的新释义,查词效率很高;但是去查OED3 online,要翻很长时间才能找到想要的,查词效率太低了。