查看: 3977|回复: 22
打印 上一主题 下一主题

[日语] 研究社新英和中辞典第五版 mdx格式

[复制链接]

该用户从未签到

1

主题

10

回帖

883

积分

举人

Rank: 4

积分
883
跳转到指定楼层
1
发表于 2021-3-25 00:02:00 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 無我夢中 于 2021-3-25 01:43 编辑

大家好,初来本论坛。
我本人之前是以日语为主要外语的,当时主要用安卓版EBPocket配合広辞苑、小学館中日日中等几部epwing格式日语辞典。近几年转向了英语学习,一开始用的是EBPocket上的研究社新英和中辞典第五版,是一部中型英日辞典,有一定影响力。
由于最近逐渐觉得国内的非日语系外语学习环境里面EBPocket+epwing格式辞典资源不多,更多的是mdx,加上发现欧路词典的app的设计比EBPocket友好很多,所以转向了欧路+mdx的组合。虽然也有诸如牛津高阶等很好的辞典,但由于难以割舍之前的主力研究社新英和中辞典第五版,搜索了一下没有找到现成资源,所以决定自己动手把格式转换过来。后来发现本论坛上有人在求这部辞典的mdx资源,所以我把成品贡献上来给大家分享。
转换所用的系统环境是:Windows 10 64位 + EBWin 4.7.8 64位 + MdxBuilder 3.0 RC1 + MDict for PC 2.0.12 + Python 3.8 (依赖库:pyautogui、pyperclip、psutil、pywinauto)
思路是用EBWin载入辞典,然后逐个首字母(ABCDEFG...)输入搜索框,显示该首字母下的所有词条,在内容显示区域查看源(html源码)并复制、解析,得到包含加粗、倾斜、上下标、插入图片等带有样式的词条内容,最后整理输出成制作mdx所需的纯文本文档,用MdxBuilder生成最终的mdx和mdd文件。gaiji专门收集整理到一个文件夹内,当中除了极个别gaiji,绝大部分在utf-8中都是可以显示的,所以gaiji中的一部分我直接转换成了文字,没有再以图片格式保存,经过测试在安卓手机欧路词典和电脑的各个mdx阅读器中都可以正常显示。每个词条的标题相对于欧路词典进行了优化,确保可以输入字母可以检索到对应词条。另外原来的资源中有一些错字,我设计了一个勘误表在输出的时候都改正过来了(我不清楚这些错误是原版词典带的还是之前的epwing制作者在转换时的疏忽造成的)。至于辞典本身因为时代问题与当下的出入我都没有改动,保持了本辞典最原始的风味。

mdx格式的辞典目前我不清楚是否有完美支持日语辞典的办法,因为日语存在汉字/假名对应查询的问题,找到的几部mdx格式的日语辞典都无法完美做到汉字/假名对应查询,所以日语辞典目前仍然保留EBPocket+epwing,而英语辞典用欧路+mdx则更友好。所以epwing转换mdx我只做了研究社新英和中辞典第五版这一部。其他的英日辞典运用我的代码应该也可以做,但日语辞典恐怕不行。如果有mdx或者其他欧路词典所支持格式完美支持日语辞典的方式还请各位指教。
这里把最后的成品mdx、mdd文件分享出来,源代码两个py文件和gaiji文件夹的压缩包也分享出来。EBWin、MdxBuilder、MDictPC、Python在网上都有现成的,这里就不上传了。采用的技术路线可能有比较笨拙的地方,有高手有更好的解决方案请不吝赐教。如果觉得我的代码有使用价值,可以尽管拿取。对于转换效果我个人已经经过了几天的观察,没有发现大问题,如果大家发现有什么问题请留言,我尽可能修正。

pan.baidu.com/s/1PwakRjvpZBUh2fFr_fHq4w 提取码:erxp

原版epwing格式研究社新英和中辞典第五版
pan.baidu.com/s/1H8YjaG0gWqw09ioII5H6TA 提取码:mpgk

评分

6

查看全部评分

  • TA的每日心情
    开心
    前天 19:29
  • 签到天数: 765 天

    [LV.10]以坛为家III

    17

    主题

    974

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    23854
    推荐
    发表于 2021-8-14 12:14:46 | 只看该作者


    这个帖子里面的是第六版,而且mdx词条不全,t后面的都没了。我做过对比,应该是从https://ejje.weblio.jp/这个网站抓的。
    而这个网站上面声明是第六版

    该用户从未签到

    1

    主题

    10

    回帖

    883

    积分

    举人

    Rank: 4

    积分
    883
    推荐
     楼主| 发表于 2021-4-1 12:53:44 | 只看该作者
    本帖最后由 無我夢中 于 2023-1-16 14:47 编辑

    -百度网盘已更新到最新-

    2021.4.1
    1.根据emdict大侠的提示,将多种拼写单词的索引改为一个主词条+若干索引链接的形式
    2.勘误了一个词条:forecast 第4行

    2021.4.6
    1.撤销了2021.4.1版本的第1条改动,由于索引去掉了词条的具体上标号信息,导致链接指向不明确,查询有bug,改回了原写入模式。

    2021.4.28
    1.勘误了一个词条:-ville 第4行

    2021.5.17
    1.勘误了一个词条:Platonic 第8行

    2021.7.29
    1.勘误了一个词条:embroil 第4行
    2.修改了一处代码逻辑,“get_source”(得到源码)函数中判断记事本加载完毕的逻辑由磁盘读写判断改为循环全选粘贴直至剪贴板内容更新。

    2021.8.2
    1.勘误了三个词条:consequence 第5行、effect 第4行、beer 第4行

    2021.8.6
    1.勘误了七个词条:Babel 第6行、Byzantine 第11行、Catholic 第5行、第12行、Mecca 第5行、Plutonic 第6行、Saturnalia 第5行、Waterloo 第5行

    2021.8.7
    1.勘误了一个词条:scholarship 第6行

    2021.8.8
    1.勘误了一个词条:brow 第6行

    2021.8.9
    1.勘误了六个词条:boil(1) 第7行、etcher 第3行、skivvy(1) 第3行、s.g. 第3行、SG 第1行、simulacrum 第3行

    2021.8.10
    1.勘误了三十一个词条:acting 第4行、business 第45行、第46行、第49行、course(1) 第64行、economically 第9行、ethically 第5行、fear 第49行、第50行、herself 第20行、himself 第5行、第6行、第10行、第22行、第23行、hope 第55行、第56行、第58行、inexplicably 第5行、interestingly 第5行、mean(1) 第15行、mind 第122行、more 第69行、not 第37行、第38行、offhand 第4行、palais 第5行、suppose 第9行、teacher 第5行、ultimately 第6行、unaccountably 第6行、undersecretary 第4行、unhappily 第6行、unquestionably 第4行、unreasonably 第6行、will(1) 第28行、第29行、第30行、第34行、第35行、第36行、dash 第59行、die(2) 第7行、diet(2) 第4行、indisposed 第4行、第6行、statute mile 第3行
    2.修改了一处代码逻辑:鉴于“SG”词条本身在勘误之后标题应变为“S.G.”,完善了代码对于索引标题由于勘误而发生改变的情况的适应性。

    2021.8.22
    1.勘误了两个词条:insupportable 第3行、pocket第63行

    2021.9.22
    1.勘误了一个词条:first class 第3行

    2021.10.2
    1.勘误了一个词条:testimony 第5行

    2021.10.4
    1.勘误了一个词条:list(4) 第4行

    2021.10.8
    1.勘误了二十三个词条:around 第20行、bock 第3行、break 第123行、bromide 第3行、caul 第3行、compound(1) 第12行、concede 第22行、conform 第6行、country 第14行、crystal-clear 第3行、doubt 第14行、each 第21行、grandiose 第4行、inch 第17行、infrequently 第4行、moquette 第3行、mult-, multi- 第3行、Protestant 第6行、show 第39行、tape 第5行、variety 第11行、vary 第11行、V sign 第1行

    2021.10.21
    1.勘误了三个词条:divining rod 第3行、Poseidon 第3行、trident 第3行、第4行、第6行

    2021.10.22
    1.勘误了四个词条:Bhutan 第3行、caique 第4行、Calais 第3行、Mont Blanc 第3行

    2021.10.25
    1.勘误了三个词条:blue law 第3行、Calcutta 第3行、cockney 第4行
    2.修改了保存txt文本时的等待时间,避免了保存异常的问题。

    2021.11.12
    1.勘误了一个词条:deluge 第6行

    2021.11.22
    1.勘误了一个词条:inspirit 第3行

    2021.12.15
    1.勘误了一个词条:Sirius 第3行
    2.代码微调,优化了写入纯文本文档时控制台显示文字的逻辑。

    2021.12.20
    1.勘误了一个词条:shilly-shally 第2行

    2022.4.29
    1.勘误了一个词条:polyphony 第4行

    2022.6.22
    1.勘误了一个词条:illustrate 第12行

    2022.8.8
    1.勘误了一个词条:Lilliputian 第5行、第8行

    2022.10.14
    1.勘误了一个词条:Palomar, Mt. 第3行

    2022.12.25
    1.勘误了一个词条:boiling point 第3行

    2022.12.27
    1.勘误了一个词条:elasticity 第2行

    2023.1.16
    1.勘误了一个词条:cogitation 第2行

    该用户从未签到

    1

    主题

    10

    回帖

    883

    积分

    举人

    Rank: 4

    积分
    883
    推荐
     楼主| 发表于 2021-3-25 17:45:14 | 只看该作者
    emdict 发表于 2021-3-25 16:06
    支持一下,其实epwing是有现成的转换txt工具EBDump
    不过由于年代久远可能在新的系统上有兼容性问题包括编码 ...

    感谢指点。
    这个@@@LINK=的方式我还没有用过,可以尝试一下,在这部英语辞典里面也有同样的问题,比如diarrhea, diarrhoea这个词在epwing里面搜索逗号前后任何一者都能搜索到,但在mdx中我就是拆成两个不同索引,rural (free) delivery也是在epwing中搜索rural delivery或rural free delivery都可以搜索到,在mdx中我也是拆成了两个不同的索引。此外还存在外字转换和不同索引是否重码的判断问题等。
    不过我用的办法比较笨,是把索引写了一遍,再把内容写一遍,这个地方确实可以改进一下。
  • TA的每日心情
    开心
    前天 19:29
  • 签到天数: 765 天

    [LV.10]以坛为家III

    17

    主题

    974

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    23854
    2
    发表于 2021-3-25 00:10:59 | 只看该作者
    感谢楼主分享,我其实也有一个版本的 研究社英和中词典,只是有些乱码还没改

    该用户从未签到

    1

    主题

    10

    回帖

    883

    积分

    举人

    Rank: 4

    积分
    883
    3
     楼主| 发表于 2021-3-25 00:14:41 | 只看该作者
    Kawaei 发表于 2021-3-25 00:10
    感谢楼主分享,我其实也有一个版本的 研究社英和中词典,只是有些乱码还没改 ...

    是怎样的乱码呢?什么原因造成的呢?我还没有遇到过乱码的问题,除了保存的txt的编码格式和MdxBuilder的编码格式都选择UTF-8之外,就没遇到坑了。
  • TA的每日心情
    开心
    前天 19:29
  • 签到天数: 765 天

    [LV.10]以坛为家III

    17

    主题

    974

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    23854
    4
    发表于 2021-3-25 00:26:28 | 只看该作者
    無我夢中 发表于 2021-3-25 00:14
    是怎样的乱码呢?什么原因造成的呢?我还没有遇到过乱码的问题,除了保存的txt的编码格式和MdxBuilder的 ...

    就是一些在字母上面标`和´,需要用图片显示出来,然后含有这些图片的mdd丢失了

    该用户从未签到

    1

    主题

    10

    回帖

    883

    积分

    举人

    Rank: 4

    积分
    883
    5
     楼主| 发表于 2021-3-25 00:35:14 | 只看该作者
    Kawaei 发表于 2021-3-25 00:26
    就是一些在字母上面标`和´,需要用图片显示出来,然后含有这些图片的mdd丢失了 ...

    你是说gaiji吧,原本epwing中的gaiji绝大多数都可以用字符表示出来,我就没再用图片保存,而是都转成字符了。只有三个打不出来的字符仍保留了图片,所以我的mdd很小,因为里面只有三个分辨率16*16的bmp图片。

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    昨天 10:39
  • 签到天数: 1059 天

    [LV.10]以坛为家III

    7

    主题

    2431

    回帖

    5万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    54185

    笑傲江湖章灌水大神章

    7
    发表于 2021-3-25 08:20:03 | 只看该作者
    谢谢大侠分享。。。
  • TA的每日心情

    2023-2-18 14:22
  • 签到天数: 143 天

    [LV.7]常住居民III

    5

    主题

    586

    回帖

    9942

    积分

    进士

    Rank: 8Rank: 8

    积分
    9942
    8
    发表于 2021-3-25 08:31:24 | 只看该作者
    至宝看怀袖,明珠出后收。向人光不定,离掌势难留。皎澈虚临夜,孤圆冷莹秋。乍来惊月落,疾转怕星流。有泪甘瑕弃,无媒自暗投。今朝感恩处,将欲报隋侯。
  • TA的每日心情
    开心
    前天 19:29
  • 签到天数: 765 天

    [LV.10]以坛为家III

    17

    主题

    974

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    23854
    9
    发表于 2021-3-25 08:33:09 | 只看该作者
    無我夢中 发表于 2021-3-25 00:35
    你是说gaiji吧,原本epwing中的gaiji绝大多数都可以用字符表示出来,我就没再用图片保存,而是都转成字符 ...

    现在那些gaiji我是手改,有两百多个,等我改好了也发到论坛,到时候艾特你一下。
    我下载了你的这个版本和我的对比,内容有点不一样,不知道我的是第几版

    该用户从未签到

    4

    主题

    650

    回帖

    4482

    积分

    贡士

    Rank: 6Rank: 6

    积分
    4482

    灌水大神章

    10
    发表于 2021-3-25 08:36:12 | 只看该作者
    英日词典很多都很好!不过英和中词典第5版,旧了一点。不知道是否能找到研究社的Lighthouse英和词典,以及大修馆的Genius第6版。这些都是非常好的词典,对中国人尤其合适。

    该用户从未签到

    42

    主题

    1737

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    20641

    灌水大神章小蜜蜂章笑傲江湖章

    11
    发表于 2021-3-25 09:40:27 | 只看该作者
    感谢授人以渔。

    该用户从未签到

    1

    主题

    10

    回帖

    883

    积分

    举人

    Rank: 4

    积分
    883
    12
     楼主| 发表于 2021-3-25 10:04:09 | 只看该作者
    Kawaei 发表于 2021-3-25 08:33
    现在那些gaiji我是手改,有两百多个,等我改好了也发到论坛,到时候艾特你一下。
    我下载了你的这个版本和 ...

    对,我就是手改,有的一看就知道的可以直接改,有的一眼看过去不知道的还要在代码中插一句判断,碰到了就输出看看一下具体的上下文,就知道了。

    该用户从未签到

    1

    主题

    10

    回帖

    883

    积分

    举人

    Rank: 4

    积分
    883
    13
     楼主| 发表于 2021-3-25 10:04:30 | 只看该作者
    yuanjiaming 发表于 2021-3-25 08:36
    英日词典很多都很好!不过英和中词典第5版,旧了一点。不知道是否能找到研究社的Lighthouse英和词典,以及 ...

    好的,谢谢提醒,我试试看。
  • TA的每日心情
    开心
    前天 19:29
  • 签到天数: 765 天

    [LV.10]以坛为家III

    17

    主题

    974

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    23854
    14
    发表于 2021-3-25 11:20:37 | 只看该作者
    無我夢中 发表于 2021-3-25 10:04
    对,我就是手改,有的一看就知道的可以直接改,有的一眼看过去不知道的还要在代码中插一句判断,碰到了就 ...

    https://ejje.weblio.jp/
    我是照着这个网站改的,这个网站有在线版的 研究社英和中词典 和 研究社和英中词典
    我的那个版本跟这个网站的内容完全一致
  • TA的每日心情
    开心
    前天 19:29
  • 签到天数: 765 天

    [LV.10]以坛为家III

    17

    主题

    974

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    23854
    15
    发表于 2021-3-25 11:39:56 | 只看该作者
    yuanjiaming 发表于 2021-3-25 08:36
    英日词典很多都很好!不过英和中词典第5版,旧了一点。不知道是否能找到研究社的Lighthouse英和词典,以及 ...

    论坛有一个Genius英日日英词典,但是不知道是第几版
    https://mdx.mdict.org/%E6%8C%89% ... 574%5D%28090529%29/
  • TA的每日心情
    奋斗
    2023-3-22 13:43
  • 签到天数: 753 天

    [LV.10]以坛为家III

    0

    主题

    969

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    23277
    16
    发表于 2021-3-25 12:07:45 | 只看该作者
    谢谢大师的分享,祝大师天天开心。

    该用户从未签到

    1

    主题

    10

    回帖

    883

    积分

    举人

    Rank: 4

    积分
    883
    17
     楼主| 发表于 2021-3-25 12:57:36 | 只看该作者
    Kawaei 发表于 2021-3-25 11:20
    https://ejje.weblio.jp/
    我是照着这个网站改的,这个网站有在线版的 研究社英和中词典 和 研究社和英中 ...

    原来如此,这是个好办法。谢谢提醒。
  • TA的每日心情
    擦汗
    2020-3-7 19:50
  • 签到天数: 387 天

    [LV.9]以坛为家II

    0

    主题

    379

    回帖

    1万

    积分

    状元

    宇宙最不强词典

    Rank: 9Rank: 9Rank: 9

    积分
    16864

    灌水大神章

    18
    发表于 2021-3-25 16:06:23 | 只看该作者
    本帖最后由 emdict 于 2021-3-25 20:17 编辑

    支持一下,现在还愿意搞epwing的已经不多了
    其实epwing是有现成的转换txt工具EBDump,不过由于年代久远可能在新的系统上有兼容性问题包括编码等

    新英和中辞典最新版应该是第7版,LogoVista的格式可以直接转成epwing也可以按照楼主所说,放在EBWin里面复制粘贴

    mdx格式的辞典目前我不清楚是否有完美支持日语辞典的办法

    没有特别完美的
    目前的做法是,假如有个词条あいかわらず【相変(わ)らず】
    那么主词头就是あいかわらず【相変(わ)らず】,然后再加三个索引
    1. あいかわらず
    2. @@@LINK=あいかわらず【相変(わ)らず】
    3. </>
    4. 相変らず
    5. @@@LINK=あいかわらず【相変(わ)らず】
    6. </>
    7. 相変わらず
    8. @@@LINK=あいかわらず【相変(わ)らず】
    9. </>
    复制代码
  • TA的每日心情
    开心
    2018-11-8 16:40
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    20

    主题

    1158

    回帖

    1万

    积分

    版主

    Z384

    Rank: 10Rank: 10Rank: 10

    积分
    11735

    笑傲江湖章灌水大神章管理组专用章

    20
    发表于 2021-3-31 11:04:46 | 只看该作者
    本帖最后由 H-梦想缤纷 于 2021-3-31 13:29 编辑
    yuanjiaming 发表于 2021-3-25 08:36
    英日词典很多都很好!不过英和中词典第5版,旧了一点。不知道是否能找到研究社的Lighthouse英和词典,以及 ...


    研究社 新英和中辞典
    https://www.pdawiki.com/forum/fo ... hread&tid=36874
    (出处: 掌上百科 - PDAWIKI)

    论坛中已有第7版的研究社 新英和中辞典。

    另外,本词典的最大作用是用来比对修正21世纪电脑英汉汉英双向辞典、新世纪英汉辞典。
  • TA的每日心情
    擦汗
    2021-10-12 13:21
  • 签到天数: 129 天

    [LV.7]常住居民III

    2

    主题

    153

    回帖

    6929

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6929
    23
    发表于 2021-10-23 13:24:37 | 只看该作者
    英和辞典・和英辞典 - Weblio辞書 英和辞典・和英辞典
    https://ejje.weblio.jp/
    感觉这个不错