|
本帖最后由 jijizhazha 于 2016-4-24 15:28 编辑
---------------------
Update
更新2016.04数据, 词条增加至近48万对
顺便瞅了眼wikipedia自己的统计, 现在英文articles已达到513万了
https://en.wikipedia.org/wiki/Wikipedia:Size_of_Wikipedia
---------------------
目前用的kiwix.org发布的离线zim版wiki (en+zh)
不时遇到一些中/英wiki词条,想看看对应的英/中条目的内容,却不知道相应条目的名称,只好到wikipedia上去找那个词条对应的语言链接
现在干脆从数据库的page/langlinks两张表里直接抽数据,做成了一个中英对照表,大约42万对词条,做成中英/英中对照的版本
词典格式用dsl,纯文本,方便使用
想要挂在goldendict词典里的,下载wikititlepair.ann/wikititlepair.dsl
只想要单独的中英词条列表的,下载wikititlepair.txt
下载地址: http://pan.baidu.com/s/1pJsO9Sn# ... ctionaries%252FMine
wikititlepair.ann内容:
- ZZ's wikipedia titlepair
- ver 2015.02
- 使用离线en/zh-wiki时偶尔有些词需查对应的中/英译,往往只能上网搜索
- wikipedia网站在词条页面左侧的语言链接栏里有对应各语言的链接,但现有离线wiki基本都只含page而不包括langlinks
- 说明:
- 1)根据2015.02的en-wiki的langlinks数据库生成的中英词条标题对
- 2)只列出在wikipedia.org上同时存在中、英页面且建有链接的词条对
- 只包括标题(词条名),不包括内容
- 如: Smithornis|非洲阔嘴鸟属
- Evolutionary psychology|演化心理學
- 另,在制作dsl时,每对title分别生成'中-英'和'英-中'两个词条
- 3)zh/en-wiki各有自己的langlinks数据,相差不大,少数数据有冲突
- 本处仅参考en-wiki
- 4)wiki中文词条里繁简混杂,这里保留原样,不做处理
- 数据: 2015.02的en-wiki
- page.sql.gz 约3000万记录
- langlinks.sql.gz 约2000万记录,标记为"zh"(中文)的有50万多条
- 去掉category等,仅提取所有article条目(page_namaspace == 0),共436528条
- 去掉重复标题(如'Btrfs'的中文词条标题仍为'Btrfs'),共426009条
- 参考:
- https://dumps.wikimedia.org/backup-index-bydb.html 进入enwiki页下载
- http://www.mediawiki.org/wiki/Category:MediaWiki_database_tables 各表、字段说明
- ZZ
复制代码 |
|