查看: 606|回复: 3
打印 上一主题 下一主题

[求助] 有關隨機抽樣 Reshuffling 單字字表

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    跳转到指定楼层
    1
    发表于 2019-5-30 00:20:21 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 喬治兄 于 2019-5-30 14:48 编辑

    問題如下:
    想從兩三個或多個 wordlists 隨機抽出一定數量的單字
    但又具有機率高點的不遺漏又能兼顧較偏的單字(隨機抽取)

    想到一法似乎可行, 盼有興趣的同好指導之.............謝謝感恩
    模型如 Excel 附件 按 F9 可隨機選取
    缺點:
    當數量大時反應不及好像跑不動  
    您可以放多點字彙於B 欄
    其他欄位按每一欄的公式考背既可




    大概說明:
    B 欄 為字表(為兩三個字典的字表)
    F 欄, K 欄 為想抽取的字條
    若 B 欄有十萬(包含重複) ==> 字表若有重複字條則隨機抽出的機率也增加
    F 欄, K 欄 可為任意數

    PS. 因是以 Random 的函數產生此屬於 uniform distribution 的分配
          或許應以 binomial distribution 的分配來抽取應該會正確一點
          原因是此為計數值而非計量值

    大概想法:
    1. 是延續 辭典詞彙量估算匹配 https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33621&extra=
    2. 想從幾個字表抽取出一定數量的單字來匹配
    3. 若隨機抽出 30 組再整在一起去重應該是匹配度能達到一定的吻合度

    期盼有懂 VBA or Python 能搞一個自動化隨機抽取一個自定量的單字數.....謝謝


    Sampling.zip 同4樓解釋的檔案

    2019-05-30_002421.png (26.88 KB, 下载次数: 0)

    2019-05-30_002421.png

    reshuffling.zip

    9.41 KB, 下载次数: 3, 下载积分: 米 -5 粒

    Sampling.zip

    946.21 KB, 下载次数: 0, 下载积分: 米 -5 粒

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    来自 4楼
     楼主| 发表于 2019-5-30 14:26:55 | 只看该作者
    本帖最后由 喬治兄 于 2019-5-30 14:47 编辑
    zzzz_sleep 发表于 2019-5-30 09:56
    我的思路:
    python,纯随机:
    1. python 读取 excel 数据,取得单词总行数


    zzzz_sleep 兄:
    因我的 Excel 2007 分析工具箱 裝不起來
    用Excel 2000 分析工具箱解釋
    最下面附上 Excel 檔案
    從 60000 多個單字隨機抽出 1000個

    No1.png (3.93 KB, 下载次数: 0)

    No1.png

    No2.png (3.42 KB, 下载次数: 0)

    No2

    No2

    No3.png (3.83 KB, 下载次数: 0)

    No3

    No3

    No4.png (11.67 KB, 下载次数: 0)

    No4

    No4

    No5.png (7.95 KB, 下载次数: 0)

    No5

    No5

    No6.png (2.69 KB, 下载次数: 0)

    No6.png

    No7.png (5.55 KB, 下载次数: 0)

    No7.png

    No8.png (10.94 KB, 下载次数: 0)

    No8.png

    Sampling.zip

    946.21 KB, 下载次数: 0, 下载积分: 米 -5 粒

  • TA的每日心情

    2020-8-15 10:40
  • 签到天数: 146 天

    [LV.7]常住居民III

    23

    主题

    363

    回帖

    3万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    39693
    2
    发表于 2019-5-30 09:56:09 | 只看该作者
    我的思路:
    python,纯随机:
    1. python 读取 excel 数据,取得单词总行数
    2. python rand() 取随机数,数字是 单词 行号
    3. python 读取 行号上的单词
    4. 完成

    excel ,参考抽样审计方法:
    1. 分组。比如 设每组 500 个单词,可分组数 N = 总单词数 / 500
    2. 从 0 - 500 中取一个随机数,比如 128
    3. 取单词。从第一组中取第 128 单词,从第二组中取 第 128 单词,...  第 N 组 中取第 128 单词
    4. 完毕
    当然,python 也可以用这个方法。Excel 计算能力较弱,减轻计算而已

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    3
     楼主| 发表于 2019-5-30 11:22:50 | 只看该作者
    本帖最后由 喬治兄 于 2019-5-30 11:52 编辑
    zzzz_sleep 发表于 2019-5-30 09:56
    我的思路:
    python,纯随机:
    1. python 读取 excel 数据,取得单词总行数


    謝謝 zzzz_sleep 仁兄之思路
    剛發現 Excel 的分析工具箱可以搞定
    可以抽取自訂的數量
    只是抽取時需以數字基礎
    A 欄 為數字
    B 欄 為字表
    抽取A 欄數字出來後去重再用 Vlookup A 欄就可以對映B 欄字表 搞定

    Excel 的分析工具箱增益集需額外安裝