查看: 1150|回复: 15
打印 上一主题 下一主题

[教程] Epwing2Text && HTML+ 外字转换

[复制链接]

该用户从未签到

15

主题

137

回帖

2342

积分

解元

Rank: 5Rank: 5

积分
2342

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2015-6-26 17:43:52 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 qunwang6 于 2017-4-14 20:04 编辑

epwing转text主要有3种方法:

1.用ebdump(用ebdump提取epwing词典的文本图片等),不过这样提取出来格式不好分离出来,词条不好定位。(EPWING2HTML:用EBDump提取文本,再用ebd2html转为html.见补充部分)
2.PDIC(http://homepage3.nifty.com/TaN/unicode/),可以将epwing格式的词典转换为pdic格式,再从pdict格式中获取文本,转换过程中外字也可以替换掉,不过用PDIC提取,会有部分内容没有提取出来。(方法见:https://skalldan.wordpress.com/2 ... 3%81%99%E3%82%8B-2/
3.DDWIN 2.30 ,这里要介绍的方法,(参考自:http://diamondsky.org/other/japanese/pdic.php
工具:

主要步骤:
1.用DDWIN获取文本,得到的文本格式每个词条以空行分开。
2.将外字.map文件转换为.tsv格式

  1. on        [hA121]        @@u2019       
  2. on        [hA122]        @@u0192       
  3. on        [hA123]        @@u201E       
  4. on        [hA124]        @@u2020       
复制代码

(间隔为tab,@@本来为\,不过批量替换时会被EmEditor过滤掉,所以用@@代替,最后再替换为\)
3.用EmEditor导入.tsv文件,批量将外字替换为通用字符(\u123)格式。
4.将通用字符替换为Unicode。
效果:大部分的外字都可以替换掉,剩下少部分的是外字.map里没有收入的,可以手动替换掉。
详细转换过程见视频:
http://pan.baidu.com/s/1i3GjjRv



补充:EPWING2HTML:用EBDump提取文本,再用ebd2html转为html.
ebd2html:http://hp.vector.co.jp/authors/VA000022/ebd2html/ebd2html.html
注意以下几点:
ebd2html.ini (修改里面文件的路径)例如:
  1. #=======================================================================
  2. # ebd2html 設定ファイル ebd2html.ini
  3. #=======================================================================

  4. #-----------------------------------------------------------------------
  5. # BASEPATH: EBStudio基準ディレクトリ(srd2htmlの出力先)
  6. #-----------------------------------------------------------------------
  7. #BASEPATH =
  8. BASEPATH = c:\dic\

  9. #-----------------------------------------------------------------------
  10. # OUTPATH: EBStudio出力先(EPWING辞書の生成位置)
  11. #-----------------------------------------------------------------------
  12. #OUTPATH =
  13. #OUTPATH = c:\work\

  14. #-----------------------------------------------------------------------
  15. # SORTCMD: ebd2htmlが使用するソートコマンドのパス
  16. #-----------------------------------------------------------------------
  17. #SORTCMD =
  18. SORTCMD = c:\Windows\System32\sort.exe                # Windows XP
  19. #SORTCMD = c:\WinNT\System32\sort.exe                # Windows NT/2000
  20. #SORTCMD = c:\Windows\command\sort.exe                # Windows 98/SE/Me

  21. #-----------------------------------------------------------------------
  22. # AUTOKANA: 表記インデックスにかな検索語があればかなインデックスを生成
  23. #-----------------------------------------------------------------------
  24. AUTOKANA = 0                # かなインデックスを生成しない
  25. #AUTOKANA = 1                # かなインデックスを生成する

  26. #-----------------------------------------------------------------------
  27. # EBTYPE: 電子ブックを生成する
  28. #-----------------------------------------------------------------------
  29. EBTYPE = 0                # EPWING
  30. #EBTYPE = 1                # 電子ブック

  31. #-----------------------------------------------------------------------
  32. # BOOKTITLE: 書籍タイトル(2バイト文字のみ使用可能)
  33. #-----------------------------------------------------------------------
  34. #BOOKTITLE =
  35. BOOKTITLE = ラリホー英和辞典

  36. #-----------------------------------------------------------------------
  37. # BOOKTYPE: 書籍種別(いずれかを選択)
  38. #-----------------------------------------------------------------------
  39. #BOOKTYPE = 国語辞典
  40. #BOOKTYPE = 漢和辞典
  41. BOOKTYPE = 英和辞典
  42. #BOOKTYPE = 和英辞典
  43. #BOOKTYPE = 現代用語辞典
  44. #BOOKTYPE = 一般書物
  45. #BOOKTYPE = 類語辞典

  46. #-----------------------------------------------------------------------
  47. # BOOKDIR: 書籍ディレクトリ名(英大文字/数字/下線で8文字まで)
  48. #-----------------------------------------------------------------------
  49. #BOOKDIR =
  50. BOOKDIR = RARIHOO

  51. #
  52. # END
  53. #
复制代码



新建文件夹work,dic,将ebd2html程序文件放入work里,后面用EBDump导出的文件也要放在work文件夹里,点击程序运行,生成的文件在dic文件夹里。
用EBDump导出文本时要注意以下几点:


  1. 取り出し元           書籍構成要素             書き込み先ファイル
  2.   HONMON/START         [00]本文                 honmon.txt
  3.   HONMON/START         [90]前方一致かなINDEX    fkindex.txt
  4.   HONMON/START         [04]前方一致かな見出し   fktitle.txt
  5.   HONMON/START         [91]前方一致表記INDEX    fhindex.txt
  6.   HONMON/START         [05]前方一致表記見出し   fhtitle.txt
  7.   HONMON/START         [92]前方一致英字INDEX    faindex.txt
  8.   HONMON/START         [08]前方一致英字見出し   fatitle.txt
  9.   外字ファイル/START   [F1]外字(16×16ドット)   zgaiji.txt
  10.   外字ファイル/START   [F2]外字(8×16ドット)    hgaiji.txt
复制代码


本文 honmon.txt是必须要导出的。

  1. 前方一致かなINDEX    fkindex.txt +前方一致かな見出し   fktitle.txt
  2. 前方一致表記INDEX    fhindex.txt+前方一致表記見出し   fhtitle.txt
  3. 前方一致英字INDEX    faindex.txt+前方一致英字見出し   fatitle.txt
复制代码

上面三个组合根据需要任意选一组导出,导出的文件都放在work文件夹里。

结果:外字被替换成[��]格式,暂时想不出解码方式,谁知道告诉我。
  1. <dt id="000000030002">A</dt>
  2. <key title="A" type="表記">A</key>
  3. <key title="A" type="表記">A字形の物</key>
  4. <key title="A" type="表記">すっかり</key>
  5. <key title="A" type="表記">に関するすべて</key>
  6. <key title="A" type="表記">何も知らない</key>
  7. <key title="A" type="表記">完全に</key>
  8. <key title="A" type="表記">始めから終わりまで</key>
  9. <key title="A" type="表記">全く</key>
  10. <key title="A" type="表記">第一の既知数</key>
  11. <key title="A" type="表記">第一の既知量</key>
  12. <key title="A" type="表記">無知蒙昧である</key>
  13. <dd><p>
  14. [&#x4740838B;i] a<br>
  15. &#7945;&#x00;&#x02;━n.<br>
  16. &#7945;&#x00;&#x02;(pl. A&apos;s or As, a&apos;s or as)<br>
  17. &#7945;&#x00;&#x02;【1】英語アルファベットの第1字(母音字).<br>
  18. &#7945;&#x00;&#x02;【2】A, a 字によって表される音[ei](bake),[&#x11E39;](hat),[&#x474083A3;&#x47408535;](father),[&#x474083A4;&#x47408535;](small) など.<br>
  19. &#7945;&#x00;&#x02;【3】A 字形の物.<br>
  20. &#7945;&#x00;&#x02;【4】(印刷&#12539;スタンプ&#12539;手書きなどの)A, a 字.<br>
  21. &#7945;&#x00;&#x02;【5】&#x11E89;数学&#x11E8A;第一の既知数[量].<br>
  22. &#7945;&#x00;&#x02;<成句><br>
  23. &#7945;&#x00;&#x01;from A [or a] to Z [or izzard] 始めから終わりまで,すっかり,全く,完全に(completely):<br>
  24. &#7945;&#x00;&#x01;He knows the Bible from A to Z. 聖書のことなら隅から隅まで知っている.<br>
  25. &#7945;&#x00;&#x03;&#x11E58;形容詞は A-Z, A-to-Z.<br>
  26. &#7945;&#x00;&#x01;not know from A to B [=A from B] 何も知らない;無知蒙昧(もうまい)である.<br>
  27. &#7945;&#x00;&#x01;the A to Z of …に関するすべて.
  28. </p></dd>
  29. <dt id="00000003047E">A</dt>
  30. <key title="A" type="表記">A</key>
  31. <key title="A" type="表記">幹線道路</key>
  32. <dd><p>
  33.   <br>
  34. &#7945;&#x00;&#x02;ace;<br>
  35. &#7945;&#x00;&#x02;&#x11E89;電気&#x11E8A;ammeter, ampere(s), ampere-turn;<br>
  36. &#7945;&#x00;&#x02;&#x11E89;物理&#x11E8A;angstrom;<br>
  37. &#7945;&#x00;&#x02;answer;<br>
  38. &#7945;&#x00;&#x02;area;<br>
  39. &#7945;&#x00;&#x02;&#x11E87;英&#x11E88;arterial 幹線道路<br>
  40. &#7945;&#x00;&#x03;&#x11E58;道路番号と共に用いる:<br>
  41. &#7945;&#x00;&#x01;Take the A 525 to Ruthin. リシンへは525号線を行きなさい<br>
  42. &#7945;&#x00;&#x02;Australia(n).
  43. </p></dd>
复制代码

如果你用MAC OS X系统的话,可以转换成MAC OS X词典格式,两者格式很像。
工具:
ebd2html-osx:https://github.com/cielavenir/ebd2html-osx
epwing_conv: http://www.binword.com/wp/wp-con ... /epwing_conv001.zip

Epwing词典转换宇宙所有方法===>http://kazuo.fc2web.com/dic/ddwin2.htm

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • · 工具|主题: 61, 订阅: 28

该用户从未签到

4

主题

6

回帖

153

积分

童生

Rank: 2

积分
153
推荐
发表于 2017-4-14 07:16:54 | 只看该作者
楼主的帖子害人不浅啊,赶紧改一下吧,如果弄的别人也向我一样白费力气就糟糕了
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    99

    主题

    1477

    回帖

    3万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    35504

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    2
    发表于 2015-6-27 13:29:15 | 只看该作者
    多谢 楼主!

    自己慢慢试试看!

    该用户从未签到

    258

    主题

    1651

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    19159

    灌水大神章小蜜蜂章笑傲江湖章

    3
    发表于 2015-6-27 15:07:12 | 只看该作者
    厉害。这个都有了。

    该用户从未签到

    34

    主题

    755

    回帖

    2705

    积分

    解元

    Rank: 5Rank: 5

    积分
    2705

    灌水大神章小蜜蜂章笑傲江湖章

    4
    发表于 2015-6-28 01:57:11 | 只看该作者
    不懂帮顶!看上去很厉害!

    该用户从未签到

    15

    主题

    137

    回帖

    2342

    积分

    解元

    Rank: 5Rank: 5

    积分
    2342

    灌水大神章小蜜蜂章笑傲江湖章

    5
     楼主| 发表于 2015-6-28 09:34:01 | 只看该作者
    大熊部落 发表于 2015-6-28 01:57
    不懂帮顶!看上去很厉害!

    工具方法都是现成的,做个笔记而已。语言不同,思维方式也不同,一不小心就把你带进坑里了,所以要做点笔记,研究了好几次,每次都半途而废,看了n遍他们写的文档,这次终于从坑里爬出来了。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    99

    主题

    1477

    回帖

    3万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    35504

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    6
    发表于 2015-6-28 14:20:38 | 只看该作者
    感谢楼主提供了这么棒的转换方式!

    日语类的辞典,词头的检索不好处理。目前还是EBWIN系列最好用哈!

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    7
    发表于 2015-6-28 16:43:48 | 只看该作者
    哈哈 以后也许用得着的方法。谢谢指引。

    该用户从未签到

    7

    主题

    228

    回帖

    704

    积分

    举人

    Rank: 4

    积分
    704

    灌水大神章小蜜蜂章笑傲江湖章

    8
    发表于 2015-10-31 19:31:05 | 只看该作者
    正需要这个教程,感谢整理
  • TA的每日心情

    2019-2-16 11:33
  • 签到天数: 56 天

    [LV.5]常住居民I

    70

    主题

    878

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    18494

    灌水大神章小蜜蜂章笑傲江湖章

    9
    发表于 2016-4-13 19:47:57 | 只看该作者
    本帖最后由 cici920 于 2018-9-17 11:31 编辑

    整理得很详细,谢谢分享。

    该用户从未签到

    0

    主题

    3

    回帖

    22

    积分

    白身

    Rank: 1

    积分
    22
    11
    发表于 2016-5-25 08:54:30 来自手机 | 只看该作者
    谢谢楼主整理,最近也是想要把这种词典转成TXT格式,现在找到方法了

    该用户从未签到

    4

    主题

    6

    回帖

    153

    积分

    童生

    Rank: 2

    积分
    153
    12
    发表于 2017-4-14 07:04:01 | 只看该作者
    EPDump在哪里可以找到???

    是ebdump的笔误吧,害我搜了7个小时只搜到某人的非专业博客
  • TA的每日心情
    开心
    2018-3-19 02:23
  • 签到天数: 1 天

    [LV.1]初来乍到

    16

    主题

    117

    回帖

    711

    积分

    举人

    Rank: 4

    积分
    711
    14
    发表于 2017-4-14 09:36:17 | 只看该作者
    54010545817 发表于 2017-4-14 07:16
    楼主的帖子害人不浅啊,赶紧改一下吧,如果弄的别人也向我一样白费力气就糟糕了

    啥情况?能否具体说明?感谢
  • TA的每日心情
    开心
    昨天 19:36
  • 签到天数: 624 天

    [LV.9]以坛为家II

    539

    主题

    1981

    回帖

    5万

    积分

    超级版主

    Rank: 12Rank: 12Rank: 12

    积分
    53357

    翰林院专用章推广专家灌水大神章笑傲江湖章小蜜蜂章管理组专用章QQ 章

    15
    发表于 2017-4-18 07:23:43 | 只看该作者
    &#7945;&#x00;&#x02;ace;<br>8 U' r6 ^! J$ K: c7 {+ K
    &#7945;&#x00;&#x02;&#x11E89;電気&#x11E8A;ammeter, ampere(s), ampere-turn;<br>, F4 ], G' g) [9 p, a
    &#7945;&#x00;&#x02;&#x11E89;物理&#x11E8A;angstrom;<br>
    &#7945;&#x00;&#x02;answer;<br>( t; V3 r) y. b3 q$ m" A
    &#7945;&#x00;&#x02;area;<br>* B6 _3 f: ]+ D# P
    &#7945;&#x00;&#x02;&#x11E87;英&#x11E88;arterial 幹線道路<br>" N3 b5 ^2 d8 S* T
    &#7945;&#x00;&#x03;&#x11E58;道路番号と共に用いる:<br>( `% K5 q* Z; b" c
    &#7945;&#x00;&#x01;Take the A 525 to Ruthin. リシンへは525号線を行きなさい<br>0 b9 B" Z( C# R" t, ?9 k0 n' D4 f
    &#7945;&#x00;&#x02;Australia(n).2 z+ f& S; b; A5

    每行开头的内容如何转文字?
  • TA的每日心情
    慵懒
    2018-11-26 11:30
  • 签到天数: 130 天

    [LV.7]常住居民III

    2

    主题

    214

    回帖

    2056

    积分

    禁止发言

    积分
    2056
    16
    发表于 2018-9-17 03:27:09 | 只看该作者
    epwin4软件个人还是挺喜欢的有个性