|
本帖最后由 qunwang6 于 2017-4-14 20:04 编辑
epwing转text主要有3种方法:
1.用ebdump(用ebdump提取epwing词典的文本图片等),不过这样提取出来格式不好分离出来,词条不好定位。(EPWING2HTML:用EBDump提取文本,再用ebd2html转为html.见补充部分)
2.PDIC(http://homepage3.nifty.com/TaN/unicode/),可以将epwing格式的词典转换为pdic格式,再从pdict格式中获取文本,转换过程中外字也可以替换掉,不过用PDIC提取,会有部分内容没有提取出来。(方法见:https://skalldan.wordpress.com/2 ... 3%81%99%E3%82%8B-2/)
3.DDWIN 2.30 ,这里要介绍的方法,(参考自:http://diamondsky.org/other/japanese/pdic.php)
工具:
主要步骤:
1.用DDWIN获取文本,得到的文本格式每个词条以空行分开。
2.将外字.map文件转换为.tsv格式
- on [hA121] @@u2019
- on [hA122] @@u0192
- on [hA123] @@u201E
- on [hA124] @@u2020
复制代码
(间隔为tab,@@本来为\,不过批量替换时会被EmEditor过滤掉,所以用@@代替,最后再替换为\)
3.用EmEditor导入.tsv文件,批量将外字替换为通用字符(\u123)格式。
4.将通用字符替换为Unicode。
效果:大部分的外字都可以替换掉,剩下少部分的是外字.map里没有收入的,可以手动替换掉。
详细转换过程见视频:
http://pan.baidu.com/s/1i3GjjRv
补充:EPWING2HTML:用EBDump提取文本,再用ebd2html转为html.
ebd2html:http://hp.vector.co.jp/authors/VA000022/ebd2html/ebd2html.html
注意以下几点:
ebd2html.ini (修改里面文件的路径)例如:
- #=======================================================================
- # ebd2html 設定ファイル ebd2html.ini
- #=======================================================================
- #-----------------------------------------------------------------------
- # BASEPATH: EBStudio基準ディレクトリ(srd2htmlの出力先)
- #-----------------------------------------------------------------------
- #BASEPATH =
- BASEPATH = c:\dic\
- #-----------------------------------------------------------------------
- # OUTPATH: EBStudio出力先(EPWING辞書の生成位置)
- #-----------------------------------------------------------------------
- #OUTPATH =
- #OUTPATH = c:\work\
- #-----------------------------------------------------------------------
- # SORTCMD: ebd2htmlが使用するソートコマンドのパス
- #-----------------------------------------------------------------------
- #SORTCMD =
- SORTCMD = c:\Windows\System32\sort.exe # Windows XP
- #SORTCMD = c:\WinNT\System32\sort.exe # Windows NT/2000
- #SORTCMD = c:\Windows\command\sort.exe # Windows 98/SE/Me
- #-----------------------------------------------------------------------
- # AUTOKANA: 表記インデックスにかな検索語があればかなインデックスを生成
- #-----------------------------------------------------------------------
- AUTOKANA = 0 # かなインデックスを生成しない
- #AUTOKANA = 1 # かなインデックスを生成する
- #-----------------------------------------------------------------------
- # EBTYPE: 電子ブックを生成する
- #-----------------------------------------------------------------------
- EBTYPE = 0 # EPWING
- #EBTYPE = 1 # 電子ブック
- #-----------------------------------------------------------------------
- # BOOKTITLE: 書籍タイトル(2バイト文字のみ使用可能)
- #-----------------------------------------------------------------------
- #BOOKTITLE =
- BOOKTITLE = ラリホー英和辞典
- #-----------------------------------------------------------------------
- # BOOKTYPE: 書籍種別(いずれかを選択)
- #-----------------------------------------------------------------------
- #BOOKTYPE = 国語辞典
- #BOOKTYPE = 漢和辞典
- BOOKTYPE = 英和辞典
- #BOOKTYPE = 和英辞典
- #BOOKTYPE = 現代用語辞典
- #BOOKTYPE = 一般書物
- #BOOKTYPE = 類語辞典
- #-----------------------------------------------------------------------
- # BOOKDIR: 書籍ディレクトリ名(英大文字/数字/下線で8文字まで)
- #-----------------------------------------------------------------------
- #BOOKDIR =
- BOOKDIR = RARIHOO
- #
- # END
- #
复制代码
新建文件夹work,dic,将ebd2html程序文件放入work里,后面用EBDump导出的文件也要放在work文件夹里,点击程序运行,生成的文件在dic文件夹里。
用EBDump导出文本时要注意以下几点:
- 取り出し元 書籍構成要素 書き込み先ファイル
- HONMON/START [00]本文 honmon.txt
- HONMON/START [90]前方一致かなINDEX fkindex.txt
- HONMON/START [04]前方一致かな見出し fktitle.txt
- HONMON/START [91]前方一致表記INDEX fhindex.txt
- HONMON/START [05]前方一致表記見出し fhtitle.txt
- HONMON/START [92]前方一致英字INDEX faindex.txt
- HONMON/START [08]前方一致英字見出し fatitle.txt
- 外字ファイル/START [F1]外字(16×16ドット) zgaiji.txt
- 外字ファイル/START [F2]外字(8×16ドット) hgaiji.txt
复制代码
本文 honmon.txt是必须要导出的。
- 前方一致かなINDEX fkindex.txt +前方一致かな見出し fktitle.txt
- 前方一致表記INDEX fhindex.txt+前方一致表記見出し fhtitle.txt
- 前方一致英字INDEX faindex.txt+前方一致英字見出し fatitle.txt
复制代码
上面三个组合根据需要任意选一组导出,导出的文件都放在work文件夹里。
结果:外字被替换成[��]格式,暂时想不出解码方式,谁知道告诉我。
- <dt id="000000030002">A</dt>
- <key title="A" type="表記">A</key>
- <key title="A" type="表記">A字形の物</key>
- <key title="A" type="表記">すっかり</key>
- <key title="A" type="表記">に関するすべて</key>
- <key title="A" type="表記">何も知らない</key>
- <key title="A" type="表記">完全に</key>
- <key title="A" type="表記">始めから終わりまで</key>
- <key title="A" type="表記">全く</key>
- <key title="A" type="表記">第一の既知数</key>
- <key title="A" type="表記">第一の既知量</key>
- <key title="A" type="表記">無知蒙昧である</key>
- <dd><p>
- [�i] a<br>
- Ἁ�━n.<br>
- Ἁ�(pl. A's or As, a's or as)<br>
- Ἁ�【1】英語アルファベットの第1字(母音字).<br>
- Ἁ�【2】A, a 字によって表される音[ei](bake),[𑸹](hat),[��](father),[��](small) など.<br>
- Ἁ�【3】A 字形の物.<br>
- Ἁ�【4】(印刷・スタンプ・手書きなどの)A, a 字.<br>
- Ἁ�【5】𑺉数学𑺊第一の既知数[量].<br>
- Ἁ�<成句><br>
- Ἁ�from A [or a] to Z [or izzard] 始めから終わりまで,すっかり,全く,完全に(completely):<br>
- Ἁ�He knows the Bible from A to Z. 聖書のことなら隅から隅まで知っている.<br>
- Ἁ�𑹘形容詞は A-Z, A-to-Z.<br>
- Ἁ�not know from A to B [=A from B] 何も知らない;無知蒙昧(もうまい)である.<br>
- Ἁ�the A to Z of …に関するすべて.
- </p></dd>
- <dt id="00000003047E">A</dt>
- <key title="A" type="表記">A</key>
- <key title="A" type="表記">幹線道路</key>
- <dd><p>
- <br>
- Ἁ�ace;<br>
- Ἁ�𑺉電気𑺊ammeter, ampere(s), ampere-turn;<br>
- Ἁ�𑺉物理𑺊angstrom;<br>
- Ἁ�answer;<br>
- Ἁ�area;<br>
- Ἁ�𑺇英𑺈arterial 幹線道路<br>
- Ἁ�𑹘道路番号と共に用いる:<br>
- Ἁ�Take the A 525 to Ruthin. リシンへは525号線を行きなさい<br>
- Ἁ�Australia(n).
- </p></dd>
复制代码
如果你用MAC OS X系统的话,可以转换成MAC OS X词典格式,两者格式很像。
工具:
ebd2html-osx:https://github.com/cielavenir/ebd2html-osx
epwing_conv: http://www.binword.com/wp/wp-con ... /epwing_conv001.zip
Epwing词典转换宇宙所有方法===>http://kazuo.fc2web.com/dic/ddwin2.htm |
评分
-
1
查看全部评分
-
|