查看: 1004|回复: 4
打印 上一主题 下一主题

[讨论] 辭典詞彙量估算匹配

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    跳转到指定楼层
    1
    发表于 2019-3-21 13:07:14 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 喬治兄 于 2019-3-21 21:08 编辑

    辭典詞彙量估算匹配
    在此提供試算表 您可自行預估拿捏 wordlist 詞條數量
    延伸此點交代不清之處
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=
    1. 要先預估其要製作的辭典的辭彙量,
       若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量
       可能辭典序言上標示的辭彙量也不一定正確
       此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數
       算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量
       保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧
       因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典
       問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找

    P.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版)
    效果真的不佳
    此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁
    也就是說只要配到 26萬多就基本含蓋了
    不需用到 47 萬多的wordlist 來配
    其實用平均值6萬6 以上配, 應該是效果已不錯了
    僅供參考
    每頁匹配多少詞條可用 countif 來算
    比較一下每頁的詞條數和匹配的詞條數
    若是各依其數具計算出來的平均值和標準異差都很接近
    那表示你應該匹配的還可以吧

    辭典詞彙量估算匹配_4............應該是比較合理的預估模型
    (書頁詞條數-匹配數)<= 沒配到的詞條數
    沒配到的詞條數算出平均值標準異差.......各乘上頁數
    7240 , 3726
    也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數
    所以用 66595+7240=73834.......大概都能配到的平均值
    若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=85013
    所以 min=73834  max=85013

    2019-03-21_193557.png (13.12 KB, 下载次数: 0)

    2019-03-21_193557.png

    2019-03-21_202548.png (7.84 KB, 下载次数: 0)

    2019-03-21_202548.png

    辭典詞彙量估算匹配_4.zip

    1.33 MB, 下载次数: 4, 下载积分: 米 -5 粒

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    17

    主题

    3142

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    25289

    灌水大神章

    2
    发表于 2019-3-21 18:08:53 | 只看该作者
    本帖最后由 oversky 于 2019-3-21 18:25 编辑

    第一个想法
    可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。

    第二个想法
    用字频资料库来估比例。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    3
     楼主| 发表于 2019-3-21 18:42:01 | 只看该作者
    本帖最后由 喬治兄 于 2019-3-21 19:06 编辑
    oversky 发表于 2019-3-21 18:08
    可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。 ...


    oversky 兄:
    如此就不是隨機數了
    其實是不需如此, 因標準異差值本來就是設計來估誤差值的
    當您用到6萬6去匹配基本上50%的單詞都絕對配到
    加一個標準異差的量13萬2就68%以上都絕對配到
    加兩個標準異差的量19萬9就95%以上都絕對配到
    加三個標準異差的量26萬5就99.7%以上都絕對配到
    而且這是雙邊機率值
    若單邊其實機率值更高
    真的也不太需要用到加三個標準異差的量26萬5去匹配

    倒是可以考慮把幾本的 wordlist 作張表把頻數填上
    用 Bootstrap 的方法把頻數考慮上隨機抽取你算出的數量的 wordlist 去匹配
    重要的單字不漏也不至於多配太多和漏配太多
    可能命中率更能提高些
    也就是集中數個wordlist 於一張 wordlist 然後每次都從此 wordlist 隨機抽取你要的數量來匹配

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    4
     楼主| 发表于 2019-3-21 20:33:00 | 只看该作者
    本帖最后由 喬治兄 于 2019-3-21 21:23 编辑
    oversky 发表于 2019-3-21 18:08
    第一个想法
    可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。


    oversky 兄:
    剛又想了一下檔案和圖都改了好以次
    後來的預估模型應該是比較合理
    因若以每頁的標異差來估
    數量一定會膨脹太大
    但若以沒配到的平均值和標異差來估
    且加上則數值來看應該是比較合理



  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    17

    主题

    3142

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    25289

    灌水大神章

    5
    发表于 2019-3-21 21:20:39 | 只看该作者
    喬治兄 发表于 2019-3-21 20:33
    oversky 兄:
    剛又想了一下檔案和圖都改了好以次
    後來的預估模型應該是比較合理

    好久没碰机率,我再来研究看看。