查看: 763|回复: 16
打印 上一主题 下一主题

[讨论] Wordlists 匹配密合度(2)進階

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    跳转到指定楼层
    1
    发表于 2019-6-2 14:16:27 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 喬治兄 于 2019-6-6 01:08 编辑

    小弟不才深感各位同好製作辭典之辛勞
    只因幾個抽樣概念欲與同好們分享
    若用抽樣的 Defect Rate 來看匹配密合度也能有所答案
    假設如下:
    詞首表單字有 3000 個 (single plan sampling) 若您選定的 4個字表的 Wordlists 都是 20萬的字表 (所謂的 Lot Size N)
    而經由 vlookup 在 Lot Size N 分別對映到的單字數 a (Accept Number ) 分別為
    a = 2000 ,2500 , 2800, 2900

    AQL=acceptance quality level
    LTPD=lot tolerance percent defective
    AOQL=aver outgoing quality limit
    OC=operating characteristic curve
    AOQ=average outgoing quality .............後面的幾張表為 AOQ:  請留意一下, 當達到某個值時幾乎為 0 Loss
    也就是說以 L(Q0)=95% , L(Q1)=10%......(Type I, II) 的失誤率是相當低的

    倘若把 Lot Size N 當成是未知數則計算出的值應可為對那辭典匹配率的估算值.......詳見10,11樓

    若把 AQL 當成 匹配率
    a = 2000 , 65.3%
    a = 2500 , 82.2%
    a = 2800 , 92.6%
    a = 2900 , 96.1%

    誠如 Budha 兄所言此法並不精確, 純亂槍打鳥, 小弟思考在三, 此法....應該不屬...奇技淫巧.. 之範疇
    同好們多加指正......感謝大德
    此法僅僅是只能作為沒太多時間製作圖片式辭典的一個參考依據





    PS.
    所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已
    純.......參考
    并不需要真的去計算
    而是了解此現象
    把定量分析的性質
    轉化作為定性之選擇字表的依據的應用









    2019-06-02_140151.png (14.08 KB, 下载次数: 1)

    2019-06-02_140151.png

    2019-06-02_140203.png (4.22 KB, 下载次数: 0)

    2019-06-02_140203.png

    2019-06-02_162000.png (7.67 KB, 下载次数: 0)

    2019-06-02_162000.png

    2019-06-02_162013.png (2.11 KB, 下载次数: 1)

    2019-06-02_162013.png

    2019-06-02_162023.png (1.81 KB, 下载次数: 0)

    2019-06-02_162023.png

    2019-06-02_162033.png (1.86 KB, 下载次数: 0)

    2019-06-02_162033.png

    2019-06-02_162040.png (1.83 KB, 下载次数: 0)

    2019-06-02_162040.png

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    来自 10楼
     楼主| 发表于 2019-6-4 17:01:42 | 只看该作者
    本帖最后由 喬治兄 于 2019-6-4 17:11 编辑
    oversky 发表于 2019-6-2 18:20
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?


    oversky 兄:
    外研社新英漢詞典匹配度大概如下:
    共有 1795 頁.....也就是有1795 個詞首單字....Sample Size = 1795
    因小弟是用 72374 的字表去匹配 Lot Size N = 72374
    但因 1795 個詞首單字 在 Lot Size N = 72374 只找到 1172 個.....對映到的單字數 a = 1172
    但因不知外研社新英漢詞典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    經過算後匹配度 = 63.445 %
    由此可知選用的字表並不佳.......

    2019-06-04_165157.png (6.98 KB, 下载次数: 0)

    2019-06-04_165157.png

    2019-06-04_165217.png (4.28 KB, 下载次数: 0)

    2019-06-04_165217.png
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    来自 11楼
     楼主| 发表于 2019-6-4 17:34:11 | 只看该作者
    本帖最后由 喬治兄 于 2019-6-6 00:13 编辑
    oversky 发表于 2019-6-2 18:20
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?


    oversky 兄:
    另外考究其另一本字典朗文當代大辭典 , 也因有發燒友急欲以朗文6 的字表去匹配其朗文當代大辭典

    朗文當代大辭典詞典匹配度大概如下:
    辭典正文有 2039 頁.....也就是有2039 個詞尾單字....Sample Size = 2039
    因發燒友提供的字表處理一下是用 62190 的字表去匹配 Lot Size N = 62190
    但因 2039 個詞尾單字 在 Lot Size N = 62190 找到 1995 個.....對映到的單字數 a = 1995
    但因不知朗文當代大辭典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    經過算後匹配度 = 97.289 %
    由此得知應該算是不錯的選項


    2019-06-04_174457.png (7.29 KB, 下载次数: 0)

    2019-06-04_174457.png

    2019-06-04_175607.png (2.94 KB, 下载次数: 0)

    2019-06-04_175607.png
  • TA的每日心情
    奋斗
    2022-10-21 20:59
  • 签到天数: 282 天

    [LV.8]以坛为家I

    1

    主题

    535

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    18078
    2
    发表于 2019-6-2 15:25:59 | 只看该作者
    太深奥了!哈哈
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    2

    主题

    88

    回帖

    447

    积分

    秀才

    Rank: 3Rank: 3

    积分
    447
    3
    发表于 2019-6-2 17:29:04 | 只看该作者
    看不懂呀!!不过看上去,挺高大上的
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    4
     楼主| 发表于 2019-6-2 17:49:43 | 只看该作者
    本帖最后由 喬治兄 于 2019-6-2 18:01 编辑
    dailiangzhen 发表于 2019-6-2 17:29
    看不懂呀!!不过看上去,挺高大上的


    dailiangzhen 兄:
    沒有
    高大上


    只有小弟純脆在話(畫)唬爛  
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    17

    主题

    3142

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    25289

    灌水大神章

    5
    发表于 2019-6-2 18:20:59 | 只看该作者
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    6
     楼主| 发表于 2019-6-2 18:49:08 | 只看该作者
    本帖最后由 喬治兄 于 2019-6-2 18:52 编辑
    oversky 发表于 2019-6-2 18:20
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?


    oversky 兄:
    误差在前后一页

    這個不太一樣
    您所在乎的問題是屬處理英文單字排序的問題
    英文單字排序處理好了 vlookup 不會有錯頁的問題
    小弟這個是屬沒完整字表而去配那本字典.....屬就以字首字表當成隨機抽樣的樣本在您選用的字表若有擊中幾個, 則匹配率大概會落在多少百分比的情況


  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    7
     楼主| 发表于 2019-6-2 19:00:38 | 只看该作者
    oversky 发表于 2019-6-2 18:20
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    oversky 兄:
    小弟過兩天再以外研社新英漢詞典 那本為例子
    計算一下其匹配率解釋說明您應該就大概會了解了
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    2

    主题

    88

    回帖

    447

    积分

    秀才

    Rank: 3Rank: 3

    积分
    447
    8
    发表于 2019-6-2 19:34:58 | 只看该作者
    喬治兄 发表于 2019-6-2 17:49
    dailiangzhen 兄:
    沒有

    大師,謙虛了。一般厲害的人士,都是這麼說的 :)
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    9
     楼主| 发表于 2019-6-3 18:32:44 | 只看该作者
    本帖最后由 喬治兄 于 2019-6-3 18:42 编辑
    dailiangzhen 发表于 2019-6-2 19:34
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)


    dailiangzhen :
    仁兄謬讚了,小弟純胡搞瞎搞, 純話唬爛另外添加狗皮膏藥.....貼了不會好, 吃了不會硬....不具療效的方子
    若有硬純屬 placebo effect
    哈! 哈! 哈!哈! 哈!


  • TA的每日心情
    慵懒
    2022-3-16 01:47
  • 签到天数: 389 天

    [LV.9]以坛为家II

    8

    主题

    753

    回帖

    2099

    积分

    解元

    Rank: 5Rank: 5

    积分
    2099
    12
    发表于 2019-6-5 21:36:25 | 只看该作者
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一个有标准的选取了?请问这个以什么为宜??
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    13
     楼主| 发表于 2019-6-5 23:30:31 | 只看该作者
    本帖最后由 喬治兄 于 2019-6-6 00:58 编辑
    thresh 发表于 2019-6-5 21:36
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一 ...


    thresh 兄:
    小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表


    此是用
    1. 每一頁的第一個單字集合而成的單字列表 or
    2. 每一頁的最後一個單字集合而成的單字列表 or
    3. 每一頁第一個單字+ 最後一個集合而成的單字列表 ....的單字數當成是隨機抽樣的樣本數

    1 or 2 or 3 .......都可........隨著樣本數越多估算會越精確



    然後在你所要匹配的字表中( wordlist )看看能找到幾個......此為 a (Accept Number ) 合格的樣品數量
    有對到的當成是 合格樣品
    沒對到的當成是 有瑕疵樣品

    此也隨著 a (Accept Number ) 合格的樣品數量 遞增而匹配到的機率也增加
    此可由小弟所假設的例子得知

    此是以計數值的(single plan sampling) 為基準

    所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已
    純.......參考
    并不需要真的去計算
    而是了解此現象
    把定量分析的性質
    轉化作為定性之選擇字表的依據的應用









  • TA的每日心情
    慵懒
    2022-3-16 01:47
  • 签到天数: 389 天

    [LV.9]以坛为家II

    8

    主题

    753

    回帖

    2099

    积分

    解元

    Rank: 5Rank: 5

    积分
    2099
    14
    发表于 2019-6-7 00:03:48 | 只看该作者
    喬治兄 发表于 2019-6-5 23:30
    thresh 兄:
    小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表

    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如此字头的,譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?

    另,如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?

    如此疑惑颇多~特求教于兄
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    15
     楼主| 发表于 2019-6-7 10:27:02 来自手机 | 只看该作者
    thresh 发表于 2019-6-7 00:03
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...

    老兄,因人在外地,也沒帶電腦,待回台灣再詳細的跟你解釋
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    16
     楼主| 发表于 2019-6-9 00:41:32 | 只看该作者
    本帖最后由 喬治兄 于 2019-6-9 00:50 编辑
    thresh 发表于 2019-6-7 00:03
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...


    thresh 兄:
    譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?

    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Level ) 所估出來的值
      
    如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?   

    2. 如果能OCR一本字典取詞, 那就不需考慮匹配度問題, 因是 100% 全匹配

    若對計數值抽樣有所疑問, 可詳參 MIL-STD-105E 抽樣計劃 , 內有詳細的
    計數值抽樣檢驗方案及程序, 應也有各種公式的陳列
  • TA的每日心情
    慵懒
    2022-3-16 01:47
  • 签到天数: 389 天

    [LV.9]以坛为家II

    8

    主题

    753

    回帖

    2099

    积分

    解元

    Rank: 5Rank: 5

    积分
    2099
    17
    发表于 2019-6-9 02:15:05 | 只看该作者
    喬治兄 发表于 2019-6-9 00:41
    thresh 兄:

    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Lev ...

    好的~我抽时间先去把您给出的这个相关资料阅读了,如有不懂再行请教。