查看: 476|回复: 10
打印 上一主题 下一主题

[求助] 詞頭txt和詞條txt合併問題

[复制链接]
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    6

    主题

    976

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13997

    灌水大神章

    跳转到指定楼层
    1
    发表于 2016-9-10 05:50:21 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 group1234 于 2016-9-14 21:58 编辑

    我是第一次製作mdx辭典,對於正則還是html這些相關知識都不懂,
    但是想要製作Garner's Modern English Usage 4th,所以自己慢慢摸索中,
    這本辭典從mobi轉檔後,A-Z的內容使用UltraEdit已經整理出8千多個詞條,
    詞頭卻因為電子書本身的html和css格式干擾一直無法搞定,
    想要刪除所有格式來弄詞頭,
    只是有個疑問,如果詞頭.txt.和詞條.txt在windows系統下,
    有辦法用dos指令來交叉合併嗎?
    謝謝




    该用户从未签到

    19

    主题

    593

    回帖

    25万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    259792

    灌水大神章小蜜蜂章笑傲江湖章

    2
    发表于 2016-9-10 09:29:23 | 只看该作者
    建議 詞頭.txt詞條.txt 的內容, 提供一些範例, 這樣人家才好給建議.
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    6

    主题

    976

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13997

    灌水大神章

    3
     楼主| 发表于 2016-9-10 12:16:06 | 只看该作者
    本帖最后由 group1234 于 2016-9-10 12:20 编辑
    sky66 发表于 2016-9-10 09:29
    建議 詞頭.txt 和 詞條.txt 的內容, 提供一些範例, 這樣人家才好給建議.


    目前詞條整理好了,詞頭部分還沒整理,只是先把格式弄掉

    這是整理好的詞條



    這是把html和css格式弄掉要整理成詞頭的,還在想怎麼弄比較好


    如果各存一個txt檔,如何合併成這個樣子?

    该用户从未签到

    19

    主题

    593

    回帖

    25万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    259792

    灌水大神章小蜜蜂章笑傲江湖章

    4
    发表于 2016-9-10 12:55:43 | 只看该作者
    以圖一這個例子而言, 個人淺見, 格式弄掉反而不利整理出詞頭.
    若要簡單整理出圖三, Emeditor下使用正則,  找到 xxxxx">(.*?)<xxx 中間那個就是詞頭 (沒有文字檔, 不能複製貼上作範例)

    當然, 找出來的結果如底下這個帖子提到的, 有些詞頭與內文沒有分開
    https://www.pdawiki.com/forum/fo ... hread&tid=17193

    就要另外從 . , ; 這些符號來下手, 找出詞頭與內文分開的規則..
    如果規則測試理想的狀況, 也許一個指令就能全部完成..
    尋找 (^xxxxxx">)(.*?)([\.,;<].*$)
    取代為 \2\n\1\2\3\n</> 之類的

  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    6

    主题

    976

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13997

    灌水大神章

    5
     楼主| 发表于 2016-9-10 15:00:37 | 只看该作者
    sky66 发表于 2016-9-10 12:55
    以圖一這個例子而言, 個人淺見, 格式弄掉反而不利整理出詞頭.
    若要簡單整理出圖三, Emeditor下使用正則,   ...

    我有下載Langheping大製作的mdx,就是因為有些詞頭沒有分開,不好搜尋,所以才想要自己動手做,這本的格式非常複雜,像是詞頭部分,電子書有些並沒有連結,所以單純用有連結的來製作詞頭會有遺漏,我已經把大部分原電子書沒有連結的整理出來,加上刪併電子書有連結卻是大標B. C. E.等的詞條,目前暫時整理的詞條有8556。
    詞頭前面的格式其實也很複雜,我是模仿Langheping大把所有詞條前面的格式改成圖一的樣子,而詞頭部分,我原本也想要用正則替換,可是,製作過程發現格式千百種,而且有的單字後面有句點、有逗點或是只有空格,有的單字還被格式分割,有的詞頭有將近七個單字,原本想要整理完8556個詞頭後,再把這些有多個單字的詞頭再分別整理出個別單字,用@@@LINK連結,可是現在連8556個都整理不好,才會想要把所有格式移除,試著整理看看,光整理詞頭就已經弄了好幾天,製作期間還發現刪除空行時沒有加空格,導致單字連在一起,又重新來過,再弄不好只好先放棄了,等以後有能力再繼續做T_T

    詞條的格式有很多,列幾個出來:



  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    6

    主题

    976

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13997

    灌水大神章

    6
     楼主| 发表于 2016-9-11 15:06:44 | 只看该作者
    請問有人知道該如何合併嗎?
    我已經將headword和詞條整理好,共8551條
    因為是各存一個檔,不知道該如何合併

    该用户从未签到

    110

    主题

    685

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    23333

    灌水大神章小蜜蜂章笑傲江湖章

    7
    发表于 2016-9-11 15:42:40 | 只看该作者
    本帖最后由 Langheping 于 2016-9-11 15:47 编辑

    Windows 有两种方法:
    1. 用 MS Excel

    2. 用 UltraEdit 的 “Column mode”

    参考:
    多个文档合并、左边词头和右边词条合并 (Linux, Unix)
    https://www.pdawiki.com/forum/fo ... &fromuid=185183
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    6

    主题

    976

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13997

    灌水大神章

    8
     楼主| 发表于 2016-9-11 16:49:11 | 只看该作者
    本帖最后由 group1234 于 2016-9-11 17:11 编辑
    Langheping 发表于 2016-9-11 15:42
    Windows 有两种方法:
    1. 用 MS Excel



    google找到答案了,原來有空行@_@
    謝謝Langheping大大提供方法!!!
    我是參考你的分享的garner 4 th mdx學習製作epub轉mdx,非常感謝
    接下來要來整理@@@LINK的單字了~~

    ==============


    第一個方法會出現空格處會出現"_"

    我用第二個方法
    轉成MDX檔出現問題
    提示這個
    Begining loading source file...
    Invalid keyword at position: 4565181 of the source file
    Failed to load source file, process cancelled

    圖片現在不能上傳,所以沒辦法貼我的檔案畫面
    不知道該如何解決
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    6

    主题

    976

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13997

    灌水大神章

    9
     楼主| 发表于 2016-9-14 01:13:17 | 只看该作者
    本帖最后由 group1234 于 2016-9-14 05:18 编辑

    這本辭典的電子書排版不是普通的爛,3rd的字體大小和內容明明都很正常,4th電子書製作者是喝醉了嗎=_=?
    重新校稿一次,發現有內容錯置,不然就是有詞條沒跟前一條斷開= =||||
    因為種種原因,又重作了一次,頭都快暈了Orz,還好有作筆記起來,
    目前更新後,A-Z總共有8558條,我第一條用000防止bug,所以才會顯示8559,至於@@@LINK的部分還沒弄>"<
    我不會CSS,所以是用電子書原本的格式,而且電子書的格式亂七八糟,應該也不會想去動它=_="
    至於分享....我膽小,怕被抓,所以不方便分享@_@,不好意思
    謝謝提供協助的Langheping大大,不然我可能到現在還是對著詞頭和詞條的txt檔發呆....
    能完成這部辭典,真的很感恩!!



    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    10
    发表于 2016-9-17 04:08:47 | 只看该作者
    可以给两个文档的所有行都添加序号
    然后复制到一个文档里,排序一下就行啦~
    【Ultraedit】【EmEditor】

    点评

    原來還有這種方法,謝謝~~  发表于 2016-9-17 23:39