查看: 5287|回复: 32
打印 上一主题 下一主题

[英英] Oxford Dictionary of Accounting & Handbook of International Financial Terms

[复制链接]

该用户从未签到

1

主题

87

回帖

942

积分

举人

Rank: 4

积分
942

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2015-8-26 20:50:10 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 goldmonkey 于 2016-2-24 09:52 编辑

从Oxford Reference Online上面抓取的。。。



BlueDict截图:



直接传附件吧。。。另外我不会样式。。。能看就行。。。

odoa08271615.rar (721.09 KB, 下载次数: 460)

后来看了下,发现有的词条是有图片的。。。算了。。。

0827:补上图片了

The Handbook of International Financial Terms

也是Oxford Reference Online上面的。。。关于财务的术语有很多,上面那本偏会计。。。

hoift.zip (2.95 MB, 下载次数: 178)

图片还蛮多的

词条的跳转可能有点问题(源网页的链接有点不太标准),跳转的地方最好还是自己手动查找吧。。。

该用户从未签到

1

主题

87

回帖

942

积分

举人

Rank: 4

积分
942

灌水大神章小蜜蜂章笑傲江湖章

推荐
 楼主| 发表于 2015-8-26 20:53:13 | 只看该作者
本帖最后由 goldmonkey 于 2015-8-27 16:26 编辑

Oxford Reference Online里面有很多词典,至于账号和密码Google能搜到
Oxford Dictionary of Accounting(4 ed.) 不算太厚,大概4000条不到的样子
我观察了下,发现这个网站的链接大概有这个规律
http://www.oxfordreference.com/v ... ef-9780199563050-e-(*)
9780199563050应该是ISBN号码
*代表从1到未知的一个数字
为什么说是未知呢?因为索引表的最后一个单词不一定是在数字最大的那个页面里。这个网站有点奇怪的地方在于,它的索引表的链接并非完全连续的,100个里面可能有五六个的链接里面的数字是跳到其他地方的。
比如3000到3100里面
http://www.oxfordreference.com/v ... 780199563050-e-3013
http://www.oxfordreference.com/v ... 780199563050-e-3027
http://www.oxfordreference.com/v ... 780199563050-e-3042
http://www.oxfordreference.com/v ... 780199563050-e-3043
http://www.oxfordreference.com/v ... 780199563050-e-3057
http://www.oxfordreference.com/v ... 780199563050-e-3059
http://www.oxfordreference.com/v ... 780199563050-e-3079
http://www.oxfordreference.com/v ... 780199563050-e-3096
http://www.oxfordreference.com/v ... 780199563050-e-3097
这些都是page not found
所以应当还是用索引表来下比较好

但是我不会python,全是用Firefox的DownThemAll下载的,这个扩展可以在下载地址里面加入批量描述符,比如:
http://www.oxfordreference.com/v ... ef-9780199563050-e-[1:5000]
取5000是因为不知道最大的数字有多大
page not found的页面DownThemAll会提示404

下载来以后提取词典正文的工作我是用autohotkey完成的,代码如下
  1. FileEncoding, UTF-8
  2. SetWorkingDir %A_ScriptDir%
  3. Loop, *.htm
  4. {
  5.         validity=0
  6.         ;validity用来判断这个htm是不是page not found
  7.         newfile=%A_ScriptDir%\shorten\%A_LoopFileName%
  8.         ;须预先建好文件夹
  9.         FileAppend, <div class="entryContent">, %newfile%
  10.         FileAppend, `r`n, %newfile%
  11.         deletestring1=<dl class="metaInfo"><dt class="source">Source:</dt><dd class="source">A Dictionary of Accounting</dd></dl>
  12.         ;去掉source部分
  13.         deletestring2=/view/10.1093/acref/9780199563050.001.0001/
  14.         ;修改跳转链接
  15.         ;msgbox, %deletestring1%
  16.         ;上面一句是调试用的
  17.         Loop, read, %A_LoopFileName%
  18.         {
  19.                 IfInString, A_LoopReadLine, headword
  20.                 {
  21.                         copyline=%A_LoopReadLine%
  22.                         StringReplace, copyline, copyline, %deletestring1%
  23.                         StringReplace, copyline, copyline, %deletestring2%, , All
  24.                         ; All之前那个选项如果没有必须用逗号表示,不能跳过
  25.                         StringReplace, copyline, copyline, #, .htm, All
  26.                         FileAppend, %copyline%, %newfile%
  27.                         validity=1
  28.                 }       
  29.         }
  30.         FileAppend, `r`n, %newfile%
  31.         FileAppend, </div>, %newfile%
  32.         If validity=0
  33.         {
  34.                 ;FileDelete, %newfile%
  35.                 ;把page not found的给删掉
  36.         }
  37. }
复制代码

这个ahk脚本现在觉得缺陷很大,有个别页面正文内容不在htm源代码的同一行上,就会导致处理后的htm缺少正文部分。解决办法是对文件夹下htm大小进行排序,那些特别小的就是有问题的,我只能手工处理

接下来要对htm文件进行处理,以符合Mdict的要求
这部分我是用EmEditor里的在文件中替换功能做的

先加上正文结束的符号
  1. ^</div>
  2. 替换成</div>\n</>
复制代码


我先是把所有换行符先去掉的(Mdict要求关键字、正文和结尾各占一行),便于提取关键字
把所有\n都替换掉
这里用的是转义符,不知道为什么正则表达式不行

修改跳转链接的规则
先得把#
替换成.htm
再把/view/10.1093/acref/9780199563050.001.0001/全删掉(前面的脚本里也有)
这时不能勾选正则表达式,然后

  1. <a href="acref-9780199563050-e-\d+\.htm" id="ref_acref-9780199563050-e-\d+">(.+?)</a>
  2. 替换成<a href="entry://\1">\1</a>
复制代码


像acref-9780199563050-e-13.htm这个页面下面这个规则就行不通了
所以用另外一个修改跳转链接的规则
  1. <a href="entry://<span class="sc"><span class="sc">(.+?)</span></span>"><span class="sc"><span class="sc">(.+?)</span></span></a>
  2. 替换成<a href="entry://\1">\1</a>
复制代码


下面是提取关键字
  1. <div class="entryContent"><div id="contentRoot"><h1 id="pagetitle" class="oxencycl-title"><span class="oxencycl-headword">(.+?)</span>
  2. 替换成\1\0
复制代码


再把换行符加上去
  1. ^(.+?)<div class="entryContent">
  2. 替换成\1\n<div class="entryContent">
复制代码

以及
  1. </>
  2. 替换成\n</>
复制代码


去掉source部分(前面的脚本里也有)
  1. <dl class="metaInfo"><dt class="source">Source:</dt><dd class="source">A Dictionary of Accounting</dd></dl>
复制代码


到这里原以为差不多了
htm批量重命名为txt我是用Total Commander做的
合并txt我也用了ahk脚本,代码如下
  1. FileEncoding, UTF-8
  2. SetWorkingDir %A_ScriptDir%
  3. Loop, *.txt
  4. {
  5.         newfile=%A_ScriptDir%\combine\combine.txt
  6.         ;须预先建好文件夹
  7.         Loop, read, %A_LoopFileName%
  8.         {
  9.                 FileAppend, %A_LoopReadLine%, %newfile%
  10.                 FileAppend, `r`n, %newfile%
  11.         }
  12. }
复制代码


一开始MdxBuilder提示Keyword is longer than 1024 at position
于是用^\w.{80,}来搜索合并好的txt,发现有些关键字和内容没有分开

到GoldenDict里面发现有的词条关键字被夹在<i></i>里面
于是用
  1. ^<i>(.+?)</i>
  2. 替换成\1
复制代码


有的关键字中&amp替换成&,还有’我换成了',不知道这两者有何区别

又发现有的词条关键字漏了缩写或别名,但是词典正文有,比如current ratio (working-capital ratio) 和Bank for International Settlements(BIS)以及directors' remuneration (directors' emoluments)等等
于是用
  1. ^(.+?)\n(.+?)\(<span class="oxencycl-headword">(.+?)</span>\)
  2. 替换成\1 \(\3\)\n\2\(<span class="oxencycl-headword">\3</span>\)
复制代码

注意\1 \(\3\)有个小空格
这么做是有风险的,因为我看了下比如current ratio词条里面有current assets的跳转链接,如果把关键字加上缩写或别名的话,跳转起来也不方便,所以后来想想还是不要这么做好


图片怎么办呢
提取出下载地址(还需补充)
<img src=.+?\.gif.+?class="math">
复制即可

下载地址大概是这种格式
http://www.oxfordreference.com/d ... -math-0008-full.gif

修改图片地址
  1. "/doc/10.1093/acref/9780199563050.001.0001/(acref-9780199563050.+?gif)"
  2. 替换成\1
复制代码


再小修一下
  1. gif alt=".+?" class="math"
  2. 替换成gif
复制代码

该用户从未签到

1

主题

87

回帖

942

积分

举人

Rank: 4

积分
942

灌水大神章小蜜蜂章笑傲江湖章

推荐
 楼主| 发表于 2015-8-26 22:27:19 | 只看该作者
好像用python的beautifulsoup提取正文很方便。。。但我不会。。。
后来又想了个提取正文的办法,应该可以克服htm源代码里正文不在同一行的情况
  1. FileEncoding, UTF-8
  2. SetWorkingDir %A_ScriptDir%
  3. Loop, *.htm
  4. {
  5.         newfile=%A_ScriptDir%\shorten\%A_LoopFileName%
  6.         i:=0
  7.         Loop, Read, %A_LoopFileName%
  8.         {
  9.                 IfInString, A_LoopReadLine, <div class="entryContent">
  10.                 {
  11.                         i:=1
  12.                         FileAppend, %A_LoopReadLine%, %newfile%
  13.                         FileAppend, `r`n, %newfile%
  14.                         ;msgbox, %i% is %A_LoopReadLine%
  15.                         Continue
  16.                 }
  17.                 If (i>=1)
  18.                 {
  19.                         IfInString, A_LoopReadLine, <div
  20.                                 {
  21.                                         i:=i+1
  22.                                 }
  23.                         IfInString, A_LoopReadLine, /div
  24.                                 {
  25.                                         i:=i-1
  26.                                 }
  27.                         If (i=0)
  28.                         {
  29.                                 FileAppend, `r`n, %newfile%
  30.                                 FileAppend, %A_LoopReadLine%, %newfile%
  31.                         }
  32.                         else
  33.                         {
  34.                                 FileAppend, %A_LoopReadLine%, %newfile%
  35.                         }
  36.                         ;msgbox, %i% is %A_LoopReadLine%
  37.                         }
  38.         }
  39. }
复制代码

该用户从未签到

1

主题

87

回帖

942

积分

举人

Rank: 4

积分
942

灌水大神章小蜜蜂章笑傲江湖章

推荐
 楼主| 发表于 2015-9-3 09:03:14 | 只看该作者
victorzhang21 发表于 2015-9-3 07:51
哇塞 好复杂 好牛x 辛苦了 谁能从Oxford Reference Online抓取linguistics词典就好了

Linguistics里面?你是说哪本?

该用户从未签到

29

主题

424

回帖

5232

积分

会元

Rank: 7Rank: 7Rank: 7

积分
5232

灌水大神章小蜜蜂章笑傲江湖章

4
发表于 2015-8-27 15:07:43 | 只看该作者
路过支持,人工置顶

该用户从未签到

38

主题

655

回帖

7509

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
7509

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

5
发表于 2015-8-27 15:11:17 | 只看该作者
楼主辛苦了!
  • TA的每日心情
    奋斗
    2019-6-9 08:27
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    1

    主题

    19

    回帖

    220

    积分

    童生

    Rank: 2

    积分
    220
    7
    发表于 2015-8-30 15:00:58 | 只看该作者
    楼主辛苦了!
  • TA的每日心情
    慵懒
    2021-3-9 21:18
  • 签到天数: 30 天

    [LV.5]常住居民I

    11

    主题

    463

    回帖

    933

    积分

    举人

    Rank: 4

    积分
    933
    8
    发表于 2015-9-3 07:51:34 | 只看该作者
    哇塞 好复杂 好牛x 辛苦了 谁能从Oxford Reference Online抓取linguistics词典就好了

    该用户从未签到

    0

    主题

    417

    回帖

    6416

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6416

    笑傲江湖章灌水大神章

    10
    发表于 2015-9-3 09:23:44 | 只看该作者
    楼主辛苦了!
  • TA的每日心情
    郁闷
    2018-3-21 02:38
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    1

    主题

    45

    回帖

    102

    积分

    童生

    Rank: 2

    积分
    102

    QQ 章

    11
    发表于 2015-9-3 11:00:15 | 只看该作者

    又一利器!鼎力支持~
  • TA的每日心情
    慵懒
    2021-3-9 21:18
  • 签到天数: 30 天

    [LV.5]常住居民I

    11

    主题

    463

    回帖

    933

    积分

    举人

    Rank: 4

    积分
    933
    12
    发表于 2015-9-3 20:27:58 | 只看该作者
    goldmonkey 发表于 2015-9-3 09:03
    Linguistics里面?你是说哪本?

    看到过外教社有引进的纸质版 不晓得有没有在线版的

    该用户从未签到

    0

    主题

    42

    回帖

    67

    积分

    白身

    Rank: 1

    积分
    67
    14
    发表于 2015-9-7 22:09:07 | 只看该作者
    感謝樓主無私的分享!

    该用户从未签到

    0

    主题

    577

    回帖

    409

    积分

    禁止发言

    积分
    409
    17
    发表于 2016-2-19 19:04:52 | 只看该作者
    Long time searching for it
  • TA的每日心情
    开心
    2022-3-13 15:03
  • 签到天数: 278 天

    [LV.8]以坛为家I

    2

    主题

    574

    回帖

    6453

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6453
    18
    发表于 2016-2-22 19:58:35 | 只看该作者
    谢谢分享哦

    该用户从未签到

    0

    主题

    24

    回帖

    71

    积分

    白身

    Rank: 1

    积分
    71

    QQ 章

    19
    发表于 2016-2-23 17:29:11 | 只看该作者
    这是好东西,可惜排版了~~~
  • TA的每日心情
    慵懒
    2021-3-9 21:18
  • 签到天数: 30 天

    [LV.5]常住居民I

    11

    主题

    463

    回帖

    933

    积分

    举人

    Rank: 4

    积分
    933
    21
    发表于 2016-4-2 13:57:01 | 只看该作者
    goldmonkey 发表于 2015-9-3 09:03
    Linguistics里面?你是说哪本?

    外教社有引进 不知道网站上有没有 谢了

    该用户从未签到

    3

    主题

    790

    回帖

    2720

    积分

    解元

    Rank: 5Rank: 5

    积分
    2720

    灌水大神章

    22
    发表于 2016-4-2 16:58:37 | 只看该作者
    Thanks alot for sharing