匹配索引量化及隨機抽取量化字表範圍

喬治兄 · 发表于 2019-11-24 19:35:40

本帖最后由喬治兄于 2019-11-29 08:23 编辑

此標題下的有點抽像難懂........簡單的說也就是如何搞出一張命中率高點的字表來匹配
鑒於粗略匹配了幾本辭典有的匹配度極差, 有的尚可, 正當坐困愁城之時, 剛好 lgmcw 兄通知更新
感謝 lgmcw 兄在更新 100W词频(含20W短语)[BNC+COCA+iWeb] + 1011m发音库(英美音) 時知會
忽然被 lgmcw 兄的 100W词频 兩字給觸發似乎合理的答案就在此二字词频於是朝此方向思考
感覺一個符合邏輯且可以量化的雛型且解釋上似乎說的過去的想法猶然而生

符合邏輯且量化的解釋如下

1. 辭典等級一般區分三級, 基礎, 進階, 高級
此三級所收錄的辭彙也大不相同......如何區分呢?
我想词频大概已經量化的呈現此區分..............此道理應該是不難理解的
也就是說 基礎級別辭典的辭彙不太可能去收錄词频很低的字
必然落於一個範圍的词频才會收錄.進階級別辭典亦然只是词频的範圍寬一點......
.....然此範圍如何求得, 又怎樣才能搞出一張命中率高點的字表來匹配
2. 此範圍的词频應可從辭典的每頁的詞頭詞尾表上去(vlookup)對映後獲得
再去求出平均值和標準異差

當然不一定要用此方法的樣本, 只不過因粗略匹配會需要用到此表
且每頁的詞頭詞尾表隨機性也夠應可作為抽樣之樣本
用此平均值和標準異差去估出的 词频的範圍應該不會失真太多

(平均值－3*標準異差) < 词频的範圍< (平均值＋3*標準異差)
然後依此 (词频的範圍) 去篩出此範圍大字表的所有單字
3. 範圍及單字已設定.........剩下的工作就剩選用多少個字彙去匹配了
篩出此範圍大字表的所有單字......可能 10 萬
但辭典總辭彙量可能只有 3 萬
用 10 萬去匹配 3 萬顯然太多整個畫面也會擠滿沒有的單字

倘若以上的假設符合邏輯那就剩下 2. & 3. 的選定來生成匹配的字表
初步構想如下:

1. 先估出辭典的詞彙量.............隨機抽樣 30 頁算出有多少個詞頭
然後以其每頁的平均值再去乘以(a~z)的總頁數==>辭典的詞彙量
得到辭典的詞彙量就好決定用多少單字去配了
2. 生成匹配的字表目前想到三種方式
2a. (平均值－X*標準異差) < 词频的範圍< (平均值＋X*標準異差)
   縮小 X 值.............則词频範圍的寬度也跟著縮小..............篩出的單字......可以從 10 萬縮到 3~4萬
缺點: 篩出的單詞表出格的機率小.....彈性會差點.......也就是一些頻數較低點的會被砍掉
      篩出的單詞會更集中在頻數較高的區域
優點: 穩定性高....匹配度應該會在一個可信度上

2b. 以此(平均值－3*標準異差) < 词频的範圍< (平均值＋3*標準異差)
   篩出所有單字後==>再隨機抽樣一次................抽取數量可自行決定......因此步驟已不再受來源的標準異差的牽絆

缺點: 篩出的單詞表出格的機率大.....匹配率可能下降, 因頻數較高的區域抽到的機會相對減少了
優點: 彈性較高, 一些頻數較低點的也可再隨機抽樣一次的過程中被選上

2c. 混合法
(平均值－X*標準異差) < 词频的範圍< (平均值＋X*標準異差)
X==>自行決定 . 例如: X=1~2
篩出所有單字後==>再隨機抽樣一次................抽取數量可自行決定
缺點:.......還沒想到
優點: 兩種優點兼顧

解釋
此雖以每頁的詞首, 詞尾表的樣本平均词频去計算推導出母體的範圍
因樣本數基本上至少都是幾百個上千個起跳........已足以去推導出母體的精確範圍

考量觀點:
匹配的好予否若無一個量化數據為考量
其實很難改善和調整出更佳的字表去匹配
猶如盲人摸象去瞎碰
若有量化數據為依據的字表去匹配
則必能改善此缺陷

若您對以上所述有任何其他的看法和構思..........非常歡迎提出您的看法和構思
若有錯誤也請予以指正, 指教..............感恩, 謝謝

PS.
因為這樣產生的字表一定遠比隨便找一本辭典的字表來匹配的命中率高
.......其實說了一堆, 是想求一個能按此想法的生成的程序
自動生成匹配的單字表.......

輸入: 詞首,or 詞尾表
輸出: 自動生成匹配的單字表

參數 X : 可輸入
隨機抽取數量: 可輸入

想法: ......lgmcw 兄在更新 100W词频(含20W短语)[BNC+COCA+iWeb]....此帖

100W絕對夠大可當成篩選用的母體
100W词频 [BNC+COCA+iWeb] 去分別映對到詞首, 詞尾表詞頻三種不同的詞頻數據
再依各自詞頻的範圍篩選出BNC 匹配詞表, COCA 匹配詞表 , iWeb 匹配詞表

謝謝
感恩.........

Normal Distribution  正態分配  如圖  350px-Boxplot_vs_PDF.svg.png
μ: 平均值
σ: 標準異差
整個詞頻應該也是類似 Normal Distribution 的分佈範圍及散開
如何套用在此模型
X  => 詞頻數量  |  Y => 單字數量

如此一切就能合理化了
因為詞頻數很高和很低的單字數量應該都是很少的
單字數量最大值應該會集中在詞頻的平均值
而圖的左右兩端則分別是詞頻的最小值和最大值==>也是單字數量最少的

下列純粹僅做為的說明範圍區域的分佈 (與實際差異只是於數字 σ....)
但基本上是依此特性展開, 由最右為起始點(μ + 3σ)而左的涵蓋
此三級別, 基礎, 進階, 高級收錄的詞彙各別分布的範圍
(μ + 1σ)~ (μ + 3σ)....基礎
(μ - 1σ) ~ (μ + 3σ)....進階
(μ - 3σ) ~ (μ + 3σ)....高級

然而各家的不管是基礎, 進階, 高級收錄的字彙 的差異
若是體現在共同母體(100W)上, 也會於 μ 和 σ 的不同而體現出來而得知
μ0: 母體(100W)平均值    σ0:母體(100W)標準異差.................(μ0, σ0) 此非辭典的母體但因這兩個值是固定的可供比較用, 我們僅是套用它的詞頻來計算抽樣的辭典參數而已, 辭典本身母體的平均值和標準異差和 (100W)沒有任何關係

μ1: 抽樣平均值             σ1 : 抽樣標準異差
哪一本收錄的詞彙是較難的...... μ1 若越小, 越往左靠就是整體收錄的詞彙是詞頻較小的此也可視為收錄的詞彙是較難的較少用的
                                          ....... μ1 若越大, 越往右靠就是整體收錄的詞彙是詞頻較大的  此也可視為收錄的詞彙是較簡單的較常用的
哪一本收錄的詞彙是較廣泛的........  σ1若越大則表示收錄的詞彙是較寬廣的, 簡單辭彙和較難的辭彙都有收錄, 同質性比較不高
                                    ..........σ1 若越小則表示收錄的詞彙是較窄的比較集中侷限在一個範圍......或許您可以僅用 SAT or GRE 的詞彙試試

也就是比較一下彼此的 抽樣平均值μ1, 抽樣標準異差σ1. 就能大概能窺出辭典的全貌和座落的區間了
                                       收錄辭彙的難易度和寬度了

解釋上面的概念和各類別辭典的差異
若把單字的按詞頻分成 24 個等分

基礎==>μ ≒ 20, σ ≒ 1.333
進階==>μ ≒ 16, σ ≒ 2.666
高級==>μ ≒ 12, σ ≒ 4
以基礎的圖表為例:
with 95% confidence more than 99% of the value are between 16.43~23.58
也就抽出字表後(不在考慮詞頻的比重下隨機抽樣10000個單字)
在 95% 信賴水準下超過 99% 的單字會落於16.43~23.58 區間

非常遺憾的 100W词频(含20W短语)[BNC+COCA+iWeb]
似乎不是词频而是已經轉換成 rank 的數字
站內  17萬詞詞頻BNC+ANC+COCA.  ......也是 rank 的數字
      36 COCA Frequency List ......也是 rank 的數字

試了17萬詞詞頻 BNC+ANC+COCA ......本以為 rank  的數字
只不過是從左而右的差異......but .似乎用 rank 的數字處理會有問題
因為已經失真
失真就如同 3D 被轉成 2D , 所有的數據的立足點就被壓縮掉了.....少了一維就很難再補回 3D

這道理很簡單
rank 10  ==>10000 次
rank 11 ==>100  次
rank 12 ==>50  次

也就是 rank 雖然差 1 但是詞頻卻差很大
rank 10  - rank 11==9900
rank 11 - rank 12 ==50
這頻數差這麼多但 rank 都是差 1

2019-11-27
昨晚處理 17萬詞詞頻BNC+ANC+COCA.
處理的不太理想因很多字典的詞彙是 17萬詞詞頻BNC+ANC+COCA. 沒收錄的
且17萬詞詞頻是由BNC+ANC+COCA 各十萬單詞合併而成的
以此詞彙庫抽取也尚嫌不足另外的最嚴重致命點是以rank 為數據
或許得轉個方向..修正一下..........
1. 把總字表以 30~50 本辭典或更多的本辭典來集合
2. 同樣的把出現的次數標記上
3. 因是來自於字典匹配率是也會相對提高
4. 以字典的詞彙庫來處理辭典會更合理且由此來分級辭典
座落的 μ , σ 區間應該比較對象也易懂, 應該也會更客觀點................

2018-11-28
感謝 lgmcw 兄 提供非常完整詞頻 Excel 表
把韋氏高階美語英漢雙解詞典詞尾表 vlookup BNC 詞頻數對映後
在 No Transformation 圖感覺資料有點呈現二元化........大概是詞頻數彼此差異太大
然而經由 Transforming data to normality 轉化後則此圖應屬 Johnson Family Distribution
在 Trans 圖上有其轉換公式
也就是需把詞頻數帶入其轉換公式後才能呈現 Normal Distribution
Test of Fit 數據正態化過程中有錯誤發生顯然靠近左邊尾部有些數據是逸出邊界的(偏离正态性)
待續......

   并非所有的數據都會呈現正態分佈, 很多數據往往需經過多道加工後才能還原正態分佈的原貌

或許您在處理資料時資料并非呈現正態分佈令你頭痛時
或許可借由統計軟件來幫你解譯您龐大數據背後的所隱含的意義....... Minitab®menu
menu

轉載  https://support.minitab.com/zh-cn/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/normality/test-for-normality/

正态性检验的类型

下面是可用来评估正态性的正态性检验的类型。

Anderson-Darling 检验此检验将样本数据的 ECDF（经验累积分布函数）与数据为正态时所预期的分布进行比较。如果观测到的差值足够大，则将否定总体正态性的原假设。Ryan-Joiner 正态性检验此检验通过计算数据和数据的正态评分之间的相关性来评估正态性。如果相关系数接近 1，则总体可能是正态的。Ryan-Joiner 统计量评估此相关的强度；如果它小于相应的临界值，则将否定总体正态性的原假设。此检验与 Shapiro-Wilk 正态性检验相似。Kolmogorov-Smirnov 正态性检验此检验将样本数据的 ECDF（经验累积分布函数）与数据为正态时所预期的分布进行比较。如果观测到的差值足够大，检验将否定总体正态性的原假设。如果此检验的 p 值小于所选择的 α，则可以否定原假设并得出总体是非正态的结论。
Anderson-Darling、Kolmogorov-Smirnov 和 Ryan-Joiner 正态性检验的比较

Anderson-Darling 和 Kolmogorov-Smirnov 检验基于经验分布函数。Ryan-Joiner（与 Shapiro-Wilk 类似）基于回归和相关。

所有这三个检验都会在分布偏斜时将分布很好地标识为非正态。当基础分布是 t 分布且非正态性源自峰度时，所有三个检验的区别不大。一般来说，在基于经验分布函数的检验之间，Anderson-Darling 在检测分布尾部的偏离方面更有效。通常，如果在尾部偏离正态性是大问题，许多统计人员将使用 Anderson-Darling 作为第一选择。

NOTE

如果要检查正态性以便为正态能力分析做准备，则尾部是分布的最关键部分。

轉載
https://support.minitab.com/zh-cn/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/normality/transform-nonnormal-data/

变换非正态数据

可以使用许多函数（如平方根函数、对数函数、幂函数、倒数函数或反正弦函数）变换数据。

要向工作表中的数据直接应用这些变换，请使用 Minitab 计算器。
要执行 Box-Cox 变换，请选择统计 > 控制图 > Box-Cox 变换。
Minitab 确定最优幂变换。Box-Cox 变换很容易理解，但是作用有限，通常无法确定适合的变换。而且，此变换仅适用于正值数据。
要执行 Johnson 转换，请选择统计 > 质量工具 > Johnson 变换。
如果 Box-Cox 算法无法确定合适的变换，请尝试使用 Johnson 变换。Johnson 变换函数较为复杂，但对于确定合适的变换而言功能非常强大。

另一狀況解釋: 平均值偏移
以基礎==>為解釋       基礎==>μ ≒ 20, σ ≒ 1.333

在某些情況下因抽樣之原因而可能導致平均值偏移 (+/- ≒ 1.5σ 偏移量)
如附圖
      Worst-Case 平均值偏移

@lgmcw 兄 , @tsiank 兄 , @vbnet 兄 , @chigre3 兄

zhu1234 · 发表于 2019-11-25 07:30:49

感觉高大上。。。。

喬治兄 · 发表于 2019-11-25 08:10:55

zhu1234 发表于 2019-11-25 07:30
感觉高大上。。。。

老哥，沒有高大上，只是一個想法，弄起來其實應該是很簡單的，我來弄一個 excel 的例子解釋，您看了就會知道意思是什麼了，主要是希望此也可以自動化而已，因為不難

地主哥哥 · 发表于 2019-11-25 15:41:44

没看没懂刷刷分

lgmcw · 发表于 2019-11-25 19:47:21

本帖最后由 lgmcw 于 2019-11-25 19:49 编辑

问题在于词典每页收词数量变化非常大，有时候常用词甚至能占到半页一页的。如果考虑到这个因素，那只用页首位词来估算误差未免有点大了。
而且那张100W的大表里是包括了曲折变形，衍生词在内的，如果硬按照比例来选词，感觉会有些问题。

喬治兄 · 发表于 2019-11-25 19:54:28

本帖最后由喬治兄于 2019-11-25 20:58 编辑

lgmcw 发表于 2019-11-25 19:47
问题在于词典每页收词数量变化非常大，有时候常用词甚至能占到半页一页的。如果考虑到这个因素，那只用页首 ...

lgmcw 兄:
這不礙事, 正因每页收词数量变化非常大
正好符合隨機性標準異差也會隨著變大和縮小
當然整個分佈不一定是正態分佈有可能是其他的分配圖型
甚至帶有 skew 偏態
但基本是以正態分佈去估我想應該不會差太多

因為以統計的 Central Limit Theorem ( 中央極限定理 ) 不管母體是否為正態分佈的分配圖型
在其任何母體隨機抽樣必然趨近於正態分佈的分配圖型

喬治兄 · 发表于 2019-11-25 20:06:39

本帖最后由喬治兄于 2019-11-25 20:12 编辑

lgmcw 发表于 2019-11-25 19:47
问题在于词典每页收词数量变化非常大，有时候常用词甚至能占到半页一页的。如果考虑到这个因素，那只用页首 ...

lgmcw 兄:
小弟認為問題應該不大
因為在估算辭典辭彙量時也沒把曲折变形，衍生词算在裏面
不知您能否用您那個 100W 的詞頻來生成一份匹配表

oversky · 发表于 2019-11-26 10:30:47

不知我有没有理解错误？
这是在已 OCR 弄出每页词头词尾表“后”，
要“猜”某一页有收录那些“字”？

喬治兄 · 发表于 2019-11-26 10:35:58

oversky 发表于 2019-11-26 10:30
不知我有没有理解错误？
这是在已 OCR 弄出每页词头词尾表“后”，
要“猜”某一页有收录那些“字”？

oversky 兄:
是的
需把詞頻利用上然後去算出平均值和標準異差後
再去篩出符合此範圍的單字

喬治兄 · 发表于 2019-11-27 03:35:00

zhu1234 发表于 2019-11-25 07:30
感觉高大上。。。。

非常遺憾的 100W词频(含20W短语)[BNC+COCA+iWeb]
似乎不是词频而是已經轉換成 rank 的數字
站內  17萬詞詞頻BNC+ANC+COCA.  ......也是 rank 的數字
      36 COCA Frequency List ......也是 rank 的數字
試了17萬詞詞頻 BNC+ANC+COCA ......本以為 rank  的數字
只不過是從左而右的差異......but .似乎用 rank 的數字處理會有問題
因為已經失真
失真就如同 3D 被轉成 2D , 所有的數據的立足點就被壓縮掉了.....少了一維就很難再補回 3D

這道理很簡單
rank 10  ==>10000 次
rank 11 ==>100  次
rank 12 ==>50  次

也就是 rank 雖然差 1 但是詞頻卻差很大
rank 10  - rank 11==9900
rank 11 - rank 12 ==50
這頻數差這麼多但 rank 都是差 1

lgmcw · 发表于 2019-11-27 03:54:11

喬治兄发表于 2019-11-27 03:35
非常遺憾的 100W词频(含20W短语)
似乎不是词频而是已經轉換成 rank 的數字
站內 17萬詞詞頻BNC+ANC+CO ...

frequency信息源数据都是有的，我qq发给你

喬治兄 · 发表于 2019-11-27 03:59:59

lgmcw 发表于 2019-11-27 03:54
frequency信息源数据都是有的，我qq发给你

lgmcw 兄:
太感謝您了

天生2015 · 发表于 2020-1-7 17:41:10

看看，学习学习

[讨论] 匹配索引量化及隨機抽取量化字表範圍

评分