查看: 1586|回复: 14
打印 上一主题 下一主题

[讨论] 索引字典詞頭的排列順序

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    跳转到指定楼层
    1
    发表于 2019-1-18 15:11:28 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 喬治兄 于 2019-1-18 21:15 编辑

    不知這樣分類對嗎, 若有不妥請管理員移動....謝謝
    您若有制作索引字典
    以辭量較大的 wordlist 去匹配字典上每一頁的第一個字和最後一個字為基準頁碼時
    可能需注意一下, 以 Excel vlookup function 去匹配相對的頁碼時
    您的wordlist 可能需處理一下以免 vlookup 匹配到錯誤的頁碼
    情況在於一般紙質典詞的 headwords 排列的順序規則如下

    varying hare ==>varyinghare
    panic–stricken ==>panicstricken
    一般字典是以去空格和連接號來排序的
    所以需以紅色粗體字那樣來排序
    則其順序會和紙質典詞的 headwords 排列順序一樣
    若以籃色字體那樣的來排序則順序會和紙質典詞的 headwords 順序有所些微差異而導致跳頁
    貧道已試過蠻多次的,您可試試答案是否也是和貧道說的一樣


    PS. 補充: 感謝 tsiank 兄提醒
    还有带éè等字符的也要处理一下
    排序時都排到最后去
    èéêëìíîú
    ē
    類似這類的字元那就需替換成一般的英文字元再排序
    再看排序後的位置是否正確
    若不符在字典的順序還需調整


    评分

    1

    查看全部评分

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    推荐
    发表于 2019-1-18 21:07:40 | 只看该作者
    一般我都先正则替换掉所有普通英文字符和数字、空格
    然后剩下的特殊字符根据情况替换为相应的英文字符或者替换为空
    1. [a-z] [0-9] 空格 统统正则替换为空
    2. (\S)替换为 \1\n  删除重复行
    3. 替换特殊字符为普通字符

    评分

    1

    查看全部评分

  • TA的每日心情
    郁闷
    2018-5-17 09:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    56

    主题

    490

    回帖

    1万

    积分

    分区版主

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    12730

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    2
    发表于 2019-1-18 21:05:00 | 只看该作者
    只要有排好序的词头,我就能把mdx按这词头排序好。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    4
     楼主| 发表于 2019-1-18 21:15:28 | 只看该作者
    chigre3 发表于 2019-1-18 21:07
    一般我都先正则替换掉所有普通英文字符和数字、空格
    然后剩下的特殊字符根据情况替换为相应的英文字符或者 ...

    chigre3 兄:
    這樣的字元情況,.....在下沒處理過
    只是 tsiank 兄提醒,覺得可能是這樣處理吧
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    5
     楼主| 发表于 2019-1-18 21:18:32 | 只看该作者
    y8888 发表于 2019-1-18 21:05
    只要有排好序的词头,我就能把mdx按这词头排序好。

    不是很懂 y8888 兄的意思
    是另外做個字表嗎
  • TA的每日心情
    郁闷
    2018-5-17 09:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    56

    主题

    490

    回帖

    1万

    积分

    分区版主

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    12730

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    6
    发表于 2019-1-19 07:45:54 | 只看该作者
    喬治兄 发表于 2019-1-18 21:18
    不是很懂 y8888 兄的意思
    是另外做個字表嗎

    可能我也没有看清你的意思。你意思用电子字典按纸版词序对应起来?我意思若有纸版词头,则MDX我可以按纸版的排序对应出来。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    7
     楼主| 发表于 2019-1-19 12:16:58 | 只看该作者
    y8888 发表于 2019-1-19 07:45
    可能我也没有看清你的意思。你意思用电子字典按纸版词序对应起来?我意思若有纸版词头,则MDX我可以按纸 ...

    y8888 兄:
    我的意思是利用辭典頁面上的第一個字和最後一個字來作為區間
    然後用vlookup去匹配在此區間的其他單字
    所以wordlist 的順序一定要和辭典的順序一樣
    不然有的在此區間的字會跳到別的區間
  • TA的每日心情
    郁闷
    2018-5-17 09:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    56

    主题

    490

    回帖

    1万

    积分

    分区版主

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    12730

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    8
    发表于 2019-1-20 17:31:50 | 只看该作者
    估计你这方式不很精准。C大给我一份韦氏的词头我则按词头排序好了。其实你想实实现的效果与我说的是一回事。

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    9
    发表于 2019-1-20 17:45:29 | 只看该作者
    这个不能解决短语的问题

    W3(英汉辞海)把「no go」放到[go」下面,你怎么排都没用

    短语只能手动来

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    10
     楼主| 发表于 2019-1-22 09:54:50 | 只看该作者
    本帖最后由 喬治兄 于 2019-1-22 10:39 编辑
    y8888 发表于 2019-1-20 17:31
    估计你这方式不很精准。C大给我一份韦氏的词头我则按词头排序好了。其实你想实实现的效果与我说的是一回事 ...


    y8888 兄:
    若辭典的排列規則如小弟所述且並無 klwo2 兄 所遇到的狀況
    則必然在此區間
    Oxford, Longman 都是如此排列規則


    其實小弟此文的真意是
    1. 當您可能沒有此字典的wordlist 時想配其區間的字
    2. 當然不可能會精確因為不是此書的字表, 但是能確保匹配在其區間
    3. 按其字典的排列匹配在其區間==>只剩多配和少配的問題此取決您的 wordlist 辭彙量及密合度了

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    11
     楼主| 发表于 2019-1-22 10:02:01 | 只看该作者
    本帖最后由 喬治兄 于 2019-1-22 10:24 编辑
    klwo2 发表于 2019-1-20 17:45
    这个不能解决短语的问题

    W3(英汉辞海)把「no go」放到[go」下面,你怎么排都没用


    klwo2 兄:
    謝謝提醒,把短语給忘了...哈!哈!哈哈哈
    這樣的狀況短语只能要先抽出額外處理

    還是 klwo2 兄經驗老道呀
    一瞄就能看到此文缺失....太感謝了
    讚呀!
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    12
    发表于 2021-2-26 18:51:40 | 只看该作者
    chigre3 发表于 2019-1-18 21:07
    一般我都先正则替换掉所有普通英文字符和数字、空格
    然后剩下的特殊字符根据情况替换为相应的英文字符或者 ...

    为什么要“先正则替换掉所有普通英文字符和数字、空格”? 这些难道不是需要的吗?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    13
     楼主| 发表于 2021-2-26 20:17:14 | 只看该作者
    本帖最后由 喬治兄 于 2021-2-26 20:20 编辑
    starmars 发表于 2021-2-26 18:51
    为什么要“先正则替换掉所有普通英文字符和数字、空格”? 这些难道不是需要的吗? ...


    starmars 兄:
    道理很簡單這樣才能知道有多少特殊字元要處理
    若是這些特殊字元并不影響排序的順序,其實也可以不需要作替換處理
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    14
    发表于 2021-2-26 20:31:07 | 只看该作者
    喬治兄 发表于 2021-2-26 20:17
    starmars 兄:
    道理很簡單這樣才能知道有多少特殊字元要處理
    若是這些特殊字元并不影響排序的順序,其實也 ...

    原来先正则替换掉所有普通英文字符和数字、空格,是为了只留下特别字符看得更清楚啊!我还以为是在说普通英文字符和数字、空格都是做图片词典可以丢弃不用了呢。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    15
     楼主| 发表于 2021-2-26 20:46:50 | 只看该作者
    本帖最后由 喬治兄 于 2021-2-26 20:55 编辑
    starmars 发表于 2021-2-26 20:31
    原来先正则替换掉所有普通英文字符和数字、空格,是为了只留下特别字符看得更清楚啊!我还以为是在说普通 ...


    starmars 兄,Chigre 兄的作法是正規的處理方法,我猜他應該是把一些法文或西文的字符替代成英文字符後排序,但根据個人經驗,沒去替換好像也是不影響順序,你可以找幾個試試,基本上我是都沒去處理,只處理幾個我所提的字元

    '  ,   .  -   / 和 空格

    ( ) ==> 看詞典情況 可能只去括號, 也可能去掉括號+括號內的內容

    &==>and
    St. ==> saint ( 看詞典情況 )