本帖最后由 匿名 于 2020-10-11 00:44 编辑
已改版為此帖舊版的 % 已捨棄==>改成大塊區域代替
【粗略定位】譯文版牛津英漢雙解 vN
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=41038&extra=
【圖片辭典】譯文版牛津英漢雙解【粗略定位】
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=40999&extra=
看見有人求 譯文版牛津英漢雙解詞典 張柏然 pdf
譯文版牛津英漢雙解詞典 張柏然 2011_v2
字表是以流星兄的 Oxford American College Dictionary 匹配是全配
再次感謝流星兄的無私且卓越的排版
此譯文版牛津英漢雙解詞典圖片非小弟處理的只是代為匹配
此詞典匹配單字增加個百分比做為找定位的大概參考
參考看看....不一定準...只是大概
用每頁單字的順序號去除以那一頁的單字總數 0%~100%
50% 為大概的另一欄, 但大部份右欄的第一個單字大概會在 35%~~65%左右
50% ==> 此為假設的 第二欄的第一個單詞之平均值 μ =50 %
但大部份右欄的第一個單字大概會在 35%~~65%左右 ==> 此也是假設的粗估值
并無法成為完全可依靠判斷標準的範圍值
實際的偏離情況及座落範圍只能靠隨機抽樣計算後才會有較為精確的值可判斷
2020-0711 補解 或許您依然留有疑慮......您可以下列
解說的三組數據檢驗其可靠度能否成為判斷欄位的標準
其準確度和約莫的欄位判斷出錯率是否如同那三組數據
第二欄的第一個單詞之平均值 μ 只能經由實際隨機抽樣 >=30 頁的樣本後來反推母體的座落範圍
30 頁的樣本就足夠了....再多的樣本對於 (μ and σ) 應該是影響不會超過 1% 甚至 0.01%.....
同樣道理用於粗略匹配上也是一樣..........若把可以判讀的部份單字判斷值轉成欄位也就成了....【粗略匹配+粗略定位】
雖然無座標定位但你也會知道其大概位置
但下列是以此辭典幾乎全配來解說.....因依然還是有漏一些詞
但不管是【全配】或是【粗略匹配】...其分佈的特性不太可能改變...漏配或多配其實並不影響其【粗略定位】的模型
縱然會不太一樣但其統計的平均值和標準異差的特性一樣會消禰其數據的差異性而給出個概略的範圍值
經由實際隨機抽樣 30 頁後來反推母體的座落範圍
第二欄的第一個單詞之平均值 μ =56 %
標準異差 σ= 8.7%
若以 95% 的準度來估其第二欄的第一個單詞 座落範圍 39%~~74%
這個範圍和 Excel 用的 μ & σ 所估的會有出入....因分佈不一定是正態分佈
因數據經由正態化轉換之後最接近的 Best Fit 是 Bata Distribution
Excel 估的 Normal Distribution 95% confidence 95% value 和 Bata Distribution 95% confidence 90 % value 的範圍值恰巧很接近
所以當然用 Best Fit 的 Bata Distribution
以此法來判斷欄位, 約莫查 10次會錯 1 次
第一欄 < 39 %................95% 的信心水準 90% 值
第二欄 > 74% ................95% 的信心水準 90% 值
39%+(100%-74%) = 65% ..............約莫 65% 的所列單字可以判斷欄位, 約莫查 100次會錯 10 次
2715 頁 * 1/10 = 270 頁 約莫 270 頁 依此判斷會出錯
或者更加保守點以下列準則 來判斷欄位
約莫查 100次會錯 5 次
第一欄 < 37.2%...................95% 的信心水準 95% 值
第二欄 > 76.86% ................95% 的信心水準 95% 值
37%+(100%-77%)= 60% ..........約莫 60% 的所列單字可以判斷欄位....約莫查 100次會錯 5 次
2715 頁 * 1/20 = 135 頁 約莫 135 頁 依此判斷會出錯
或者更加保守點以下列準則 來判斷欄位
約莫查 100次會錯 1 次
第一欄 < 34.07 %................95% 的信心水準 99% 值
第二欄 > 80.29% ................95% 的信心水準 99% 值
34% + (100%-80%) =54%..............約莫 54% 的所列單字可以判斷欄位....約莫查 100次會錯 1 次
2715 頁 * 1/100 = 27 頁 約莫 27 頁 依此判斷會出錯
粗略定位 以下可能並不實用僅是一個想法
若分成四個區塊則大致上可實現粗略定位
若再細分區塊也沒甚意義.....因只有為數不多的 % 比例可以歸納到 單一區塊
大部分 跨兩個區塊或三個區塊,再細分區塊也起不了細分的作用
實務上圖面上需在一半處劃線或標記才不至於搞不清楚區塊分隔處
粗略定位的....對照表
當對照表算好後就可依其替換為區域
此表為依 μ (+/-) 2σ 其約 95% 範圍值去擬合 min max 線性迴歸公式後才能再反推而得出的 min max 對照區域表
所以依然會有約略 5% 錯誤.....但歸納到 4個區域錯誤應該會更少吧......不是很確定....只是假設的猜想
1~10% ==> 區塊 1, 97~100% ==> 區塊 4
11%~96% 很多單字基本上是跨兩個區塊....少部份更是跨三個區塊
36%~46% 跨三個區塊 1,2,3
62%~71% 跨三個區塊 2,3,4
或許因只切成 4 塊充其量也只能判斷到此程度
區域或許可再細分, 但是得降低預估的範圍值, 也就是擺在機率最大處來考量
可能相對精確些...........有待實驗證明..........
區域 4 ==> 區域 8 ==>精度增加一倍
μ (+/-) 2σ ==>μ (+/-) 1σ ==>μ (+/-) 0.5*σ
μ (+/-) 2σ ==> 0.4772*2 ==> 0.9544
μ (+/-) 1σ ==> 0.3413*2 ==> 0.6826
μ (+/-) 0.5*σ==> 0.1915*2 ==> 0.383
μ (+/-) 2σ / μ (+/-) 1σ ==> 1.3982 ===>顯然遠不如 區域再細分 的兩倍好
以上純屬假設的猜想..........
實際成效是怎樣.................有待實驗證明..........
基本上把線也弄成 % , 線的上下兩個單字% 相加後除以 2 ...平均值
Excel 表上的紅色數據欄位...線的平均值
50-mean, 25-mean, 75-mean ...........線的平均值
50, 25, 75.................線的比例位置名稱並非有什作用...只是好分辨而以
代入 y 值 % 反求 x 的區域值
區域 x 8, μ (+/-) 1σ
μ (+/-) 1σ ==> 0.3413*2 ==> 0.6826
比原本的 μ (+/-) 2σ 的範圍窄些
也意謂少了 27.18% 的範圍面積的框列,失誤率也相對增加但定位也相對精確
因為資料分佈的實際範圍是不變的
若遇如此情況沒找到,則再往外圍擴一區塊找
區域再細分, 等於只是增加刻度與精確度無關, 座落區域準一點而已
標準異差大表示數據的離散度也大較無法集中於一個區域.這是無法避免也
是無法改善的
下列不管是占了 1 個區域或 2 ,3 個區域 都只是 資料範圍面積 68.26%
但是這也是機率最大的區塊........資料分佈範圍不會因為增加一倍細分區域而改變分佈範圍的寬度
處理的方法還有很多,這只是個粗糙的用 30 頁 的 每頁 6 個數據來推估母體的分佈情況
而衍生的處理方法
然而隨著不同的定義法可能會衍生更精確的推估
|