查看: 2296|回复: 10
打印 上一主题 下一主题

[英英] 【圖片辭典】(粗略匹配) The American college dictionary.1953

[复制链接]
匿名
跳转到指定楼层
1
匿名  发表于 2019-12-2 01:08:03 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 匿名 于 2020-4-8 21:12 编辑

有關此辭典的前世今生請參考此帖粗略簡介....
[词典科普] The American College Dictionary
https://www.pdawiki.com/forum/thread-36850-1-1.html

首先得感謝 Klwo 兄資助此 PDF, 若無他熱心的提供文本, 小弟也無法目賭這已有點年代的辭典
在匹配過程中選擇何字表來匹配有點掙扎...在幾番考量下選擇了用 World Book Dictionary 的字表來匹配
但此辭典若以 Random House Webster's Unabridged Dictionary 的字表來匹配則基本匹配率會提高到 96%~
之所以沒選用以 RHWUD 來匹配是因 RHWUD 收詞量過多逾 40 萬吧...
粗估 The American College Dictionary 收詞量約 10 萬左右
怕 RHWUD 來匹配 整頁會是一堆沒有的單字占據整個畫面反而影響查詢
雖然完成但感覺不太滿意......或許以後有找到更佳的篩選字表方法再來重配吧

本想以詞頻作為條件來篩選字表
終因其詞頻的分佈非 Normal Distribution 模型且不太適用而作罷.....
或許您有更多的奇思覺得可能可以解小弟之困惑....不仿留個言....謝謝
[讨论] 匹配索引量化及隨機抽取量化字表範圍
https://www.pdawiki.com/forum/thread-37305-1-1.html

【圖片辭典】(粗略匹配) The American college dictionary.1953
https://share.weiyun.com/5xGcUjW

2019-12-02_014039.png (204.52 KB, 下载次数: 3)

2019-12-02_014039.png

2019-12-02_014259.png (209.07 KB, 下载次数: 13)

2019-12-02_014259.png

评分

2

查看全部评分

该用户从未签到

48

主题

570

回帖

6179

积分

会元

Rank: 7Rank: 7Rank: 7

积分
6179

灌水大神章小蜜蜂章笑傲江湖章

2
发表于 2019-12-2 08:54:30 | 只看该作者
"没有蜜蜂的勤劳,花海再大也不会有蜜"谢谢乔治兄为知识保存、积累、再制、传授!

该用户从未签到

3

主题

790

回帖

2720

积分

解元

Rank: 5Rank: 5

积分
2720

灌水大神章

3
发表于 2019-12-2 16:19:58 | 只看该作者
Thanks alot for efforting

该用户从未签到

3

主题

790

回帖

2720

积分

解元

Rank: 5Rank: 5

积分
2720

灌水大神章

4
发表于 2019-12-2 16:42:45 | 只看该作者
Hello my friend..Thanks again for nice working..Can you explain that how convert pdf for mdict in english?! My chiness is really weak!
  • TA的每日心情
    无聊
    2022-10-14 00:16
  • 签到天数: 190 天

    [LV.7]常住居民III

    0

    主题

    486

    回帖

    1384

    积分

    解元

    Rank: 5Rank: 5

    积分
    1384
    5
    发表于 2019-12-2 17:25:39 来自手机 | 只看该作者
    谢谢分享????
  • TA的每日心情
    奋斗
    2020-5-15 23:04
  • 签到天数: 236 天

    [LV.7]常住居民III

    4

    主题

    547

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    18105

    QQ 章

    6
    发表于 2019-12-2 20:53:57 | 只看该作者
    乔治兄发布的东西都很经典。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    7
    发表于 2019-12-3 19:14:18 | 只看该作者
    本帖最后由 喬治兄 于 2019-12-3 19:24 编辑
    tarzan1200 发表于 2019-12-2 16:42
    Hello my friend..Thanks again for nice working..Can you explain that how convert pdf for mdict in en ...


    tarzan1200 :
    1. export pdf to png format picture file.
    2. use aabby to crop each page top-left corner word ( each page first word)
    3. ocr every word and than create a page index sheet
    4. find a suitable wordlist to disburse these words via the page index sheet by excel vlookup function.
    5. before your disburse these words you have to give these words some treatment for matching.
    6. spare a column for  these treatmented words for matching ( page index sheet and wordlist sheet) ref. https://www.pdawiki.com/forum/thread-35890-1-1.html
    7. when you perfectly done vlookup the pages than copy the words and page no. to the vba tool to generate the text for mdxbuilder.https://www.pdawiki.com/forum/thread-33574-1-1.html
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    17

    主题

    3142

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    25289

    灌水大神章

    8
    发表于 2019-12-3 21:26:09 | 只看该作者
    本以为又要错过乔治兄的作品,沒想到 klwo2 有另外上传 .mdd 档。
    如果 .mdx 档不大,可以用一两个附件上传的话,想再麻烦你一下。

    该用户从未签到

    3

    主题

    790

    回帖

    2720

    积分

    解元

    Rank: 5Rank: 5

    积分
    2720

    灌水大神章

    9
    发表于 2019-12-9 15:50:42 | 只看该作者
    喬治兄 发表于 2019-12-3 19:14
    tarzan1200 :
    1. export pdf to png format picture file.
    2. use aabby to crop each page top-left cor ...

    Hello again my friend and THANK YOU for perfect descriptions
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    10
    发表于 2019-12-9 16:03:19 | 只看该作者
    本帖最后由 喬治兄 于 2019-12-9 17:13 编辑
    tarzan1200 发表于 2019-12-9 15:50
    Hello again my friend and THANK YOU for perfect descriptions


    Welcome, my friend.  The main point is making the spare column (matching column) to adjust each word for sorting and match the the Dictionary sequence. The Dictionary word's sequence is not follow words in excel sequence. So, you got to replace space with none character,   and replace any not English character with none, such - , . ' /... you got to delete it. and sorting all columns by the matching column and check the page's no. just by substract the prior one, if the results is not 0 or 1, that means could be error, and than check it, find the reason. if you got the logic and familiar with excel sorting technique and proper replace these none English characters, the making of indexes for the dictionary will be successfully.
    This method is suitable for disbursing the words to it's proper pages, which interval is delimited by each page first word. So you don't need the exactly wordslist and also can pick the right page and locate at the ballpark word.
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    11
    发表于 2020-3-13 14:26:11 | 只看该作者
    每次回帖、谢谢!辛苦了。