查看: 2220|回复: 9
打印 上一主题 下一主题

[求助] Word and phrase origins[2008版, 高清, 可复制]

[复制链接]
  • TA的每日心情
    开心
    2022-2-24 19:08
  • 签到天数: 40 天

    [LV.5]常住居民I

    3

    主题

    245

    回帖

    1696

    积分

    解元

    Rank: 5Rank: 5

    积分
    1696

    灌水大神章

    跳转到指定楼层
    1
    发表于 2013-9-27 17:46:08 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    请各位看看这个http://www.baidu.com/link?url=YB ... igasAC20NXFW8hNMJda, 看看能否转换成mdx

    该用户从未签到

    2121

    主题

    2961

    回帖

    6万

    积分

    翰林院修撰

    不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

    Rank: 12Rank: 12Rank: 12

    积分
    61056

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    来自 3楼
    发表于 2013-9-28 05:30:27 | 只看该作者
    dingyang 发表于 2013-9-27 23:06
    PDF很难转成mdx的

    {:5_227:}也不难,就是不管高手、低手,估计最低也得耗上两百个小时,才能把楼主链接里的pdf,做成能见人的mdx。
    文本版的pdf,跟扫描版的pdf相比,也就省了OCR一步,距离能直接build为mdx的txt还有十万八千里呢。

    Self-help is better than help from others; God helps those that help themselves.自己动手、丰衣足食啊。谁感兴趣谁动手啊。
    提供几个思路
    1. pdf转html,这样pdf里词头的加粗可能得以保留,但是会有很多问题,因为pdf页面里内容是两栏,转成html后内容会出现错位的情况,最后让人心力交瘁,还不如一条一条复制粘贴。
    2. pdf转word,pdf的两栏可能就变成文本框了,这样操作起来稍微简单些,但是最后说不定会发现,还是不如一条一条复制粘贴。
    未实际操作,供参考。

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    17

    主题

    393

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    14980
    来自 9楼
    发表于 2018-11-25 16:50:10 | 只看该作者
    本帖最后由 mikeee 于 2018-11-25 18:08 编辑

    有一个办法应该可行:先用 Abbyy Finereader 转成 docx,docx再转成 htm。

    我机器里没装Finereader,用在线 https://finereaderonline.com 做了十页(每天在线只能OCR十页),效果不错:htm里的页头自动消失。两列变成了单列,粗体保留,好像原pdf换行时的 hyphen 都去掉了,但原pdf里跨页的段落好像没有合并。

    Chrome Devtools 大致看了看:css selector: p.Bodytext21 可定位所有的释义
    css selector:p.Bodytext21>span.Bodytext2Bold 可定位释义里的粗体

    贴不了图,发个 docx 和 htm 文件(仅10页) 百度盘链接: https://pan.baidu.com/s/15Qc4tQeWcePy7AhTJLiJXQ 提取码: encg

    折腾了一阵,这个 python3 码处理上面说的 htm 得到的东西大致可以做成 mdx
    1. '''word and phrase orgins test
    2. '''
    3. from pyquery import PyQuery as pq

    4. file = r'WordandPhraseOrigins.htm'
    5. try:
    6.     html = open(file, 'rt', encoding='utf8').read()
    7. except Exception as exc:
    8.     print('error: {}. Trying gb2312...'.format(exc))
    9.     try:
    10.         html = open(file, 'rt', encoding='gb2312').read()
    11.         print('Looks good')
    12.     except Exception as exc:
    13.         SystemExit('error: {}. Giving up...'.format(exc))
    14. doc = pq(html)

    15. css_text = 'p.Bodytext21'
    16. css_bold = 'p.Bodytext21>span.Bodytext2Bold'

    17. items = doc(css_text)

    18. text = doc(css_text).map(lambda idx, elm: pq(elm)(
    19.     'span.Bodytext2Bold').text() + ('(hw)\n' if pq(elm)('span.Bodytext2Bold').text() else '\n') + pq(elm)('span.Bodytext20').text())
    20. print('\n\n'.join(text[:60]))
    复制代码
    上面码的输出大致这个样子:
    。。。
    A-Rod.(hw)
    People who have little or no knowledge of baseball might have trouble with these initials. They are short for Alex Rodriguez, the famous Yankee baseball star.

    around Cape Horn.(hw)
    An expression once used in whaling communities to mean “being away on a whaling voyage.” One old poem went:


    “I’ll tell your father, boys,” I cried To lads at play upon my lawn.


    They chorused back, “You’ll have to go Around Cape Horn.”

    around the horn.(hw)
    In the days of the tall ships any sailor who had sailed around Cape Horn was entitled to spit to windward; otherwise, it was a serious infraction of nautical rules of conduct. Thus, the permissible practice of spitting to windward was called Cape Horn isn’t so named because it is shaped like a horn. Captain Schouten, the Dutch navigator who first rounded it in 1616, named it after Hoorn, his birthplace in northern Holland.

    arrant thief; knight errant.(hw)
    was originally just a variation of nomadic or vagabond, the word best known in a knight who roamed the country performing good deeds. But from its persistent use in expressions such as an a thief who roamed the countryside holding up victims, came to mean thorough, downright, or out-
    。。。

    顺便安利一下 pyquery,是不是完爆正则、bs4、lxml



    评分

    1

    查看全部评分

    该用户从未签到

    19

    主题

    388

    回帖

    7702

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    7702

    灌水大神章小蜜蜂章笑傲江湖章

    2
    发表于 2013-9-27 23:06:41 | 只看该作者
    PDF很难转成mdx的
  • TA的每日心情
    开心
    2019-9-3 09:48
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    2

    主题

    108

    回帖

    1594

    积分

    解元

    Rank: 5Rank: 5

    积分
    1594
    4
    发表于 2013-9-29 17:38:36 来自手机 | 只看该作者
    pdf转 txt,格式有一定规律, 编程处理后可以做成mdict词库,我正在编程处理……
  • TA的每日心情
    开心
    2019-8-11 07:55
  • 签到天数: 606 天

    [LV.9]以坛为家II

    22

    主题

    1128

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11878

    小蜜蜂章笑傲江湖章灌水大神章

    5
    发表于 2013-9-29 20:56:28 | 只看该作者
    shbf 发表于 2013-9-29 17:38
    pdf转 txt,格式有一定规律, 编程处理后可以做成mdict词库,我正在编程处理……

    期待新作品,辛苦了。
  • TA的每日心情
    开心
    2022-2-24 19:08
  • 签到天数: 40 天

    [LV.5]常住居民I

    3

    主题

    245

    回帖

    1696

    积分

    解元

    Rank: 5Rank: 5

    积分
    1696

    灌水大神章

    6
     楼主| 发表于 2013-10-1 14:30:14 | 只看该作者
    shbf 发表于 2013-9-29 17:38
    pdf转 txt,格式有一定规律, 编程处理后可以做成mdict词库,我正在编程处理……

    期待新作品,辛苦了。Many thanks! {:5_213:}
  • TA的每日心情
    开心
    2019-9-3 09:48
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    2

    主题

    108

    回帖

    1594

    积分

    解元

    Rank: 5Rank: 5

    积分
    1594
    7
    发表于 2013-10-5 09:07:51 来自手机 | 只看该作者
    词典文本已导出并处理……基本无误,两栏问题完美解决。

    主要遗留一些小缺点,可以自行纠正,1. 部分.,)后面少一个空格。2.部分年份数字和英文单词之间少一个空格。这两个问题很好解决的。

    当然要做成mdx,还需把关键词标记出来,我用{}标记到字母C, 剩下的需要对照pdf,工作量有点大,不做了。发上源文本,请有时间的网友处理吧!
    http://pan.baidu.com/share/link?shareid=1686563253&uk=3759036089
  • TA的每日心情
    奋斗
    2019-3-25 01:00
  • 签到天数: 99 天

    [LV.6]常住居民II

    0

    主题

    166

    回帖

    3861

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3861
    8
    发表于 2018-11-24 22:20:14 | 只看该作者
    感谢 shbf 兄的辛勤工作。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    17

    主题

    393

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    14980
    10
    发表于 2018-12-27 13:39:42 | 只看该作者
    做成了 mdx 毛坯版,不完美,但可以用了,会找时间完善一下。15米,相当于免费的吧。
    下载mdx:https://www.pdawiki.com/forum/fo ... p;extra=#pid1035923

    欢迎制作校对精美版,可免费提供从 pdf 到 mdx 各环节的资料(文本,python程序等等)。详细步骤及相关资料可参考此贴 https://www.pdawiki.com/forum/fo ... &extra=page%3D1