查看: 1107|回复: 11
打印 上一主题 下一主题

[求助] 怎么合并词典,作死的节奏

[复制链接]

该用户从未签到

1

主题

15

回帖

96

积分

白身

Rank: 1

积分
96
跳转到指定楼层
1
发表于 2017-2-4 16:12:21 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 pda1533 于 2017-2-5 09:59 编辑

之前下的词典,太多了。。。英英的就用其他大神的现成的就可以了,担心的是汉英这块,自己下的汉英字典更多,也比较全面,

大概内容包括以下:  看着都吓死了 。。。。


本人没有收藏癖,下载的字典这一辈子都不可能把所有词查一遍,但只因工作关系要接触到很多行业,离线状态下输入中文出不来英文就没安全感



但是搜索起来字典太多,太麻烦,为什么不能在一个字典里面完成呢?平时当伸手党当惯了,想要自己合并一个,包含所有下载的英汉、汉英的。。。所以本贴记录一下,


本人完全零经验,不知道怎么弄,随便弄弄吧,不知道会不会成功。。。慢慢弄。。。(请各位大神注意:借用各位的工具时未能完全搞明白怎么用就放弃了,是我不会用,不是工具不好


1、先是用MDX export 3.3  把需要的mdx全部解压了

2、了解了一下CSS这东东,知道是设置格式的。自己不会,所以mdd、CSS就算了,不需要,把style.css这些东西全部删除,因为本字典的功能只是需要输入中文有对应英文出来就行了。。。

3、解压完了,用Mdict Editor Tool v1.45_exs 合并字典,失败!!!!


4、好吧,Mdict-edit v0.08也用了,不知道怎么用,失败!!!



5、好吧,到论坛找其他工具:如下,累



6、不管了,不会弄,直接把第1步的txt合并在一起吧,开始有4.08G,9000多万行,没想到ultraedit居然打开了,这软件太神了(之前用Notepad++居然打不开500多M的txt),删除了一些乱码,现在要小一些了。。。



7、现在关心的是去重的问题,合并了那么多字典,肯定有无数的重复的单词,需要保留释义最多的一项,要是批量去重,程序上应该没有方法自动判断。。。怎么去重呢?
7.1 用了第3步的Mdict Editor Tool v1.45_exs 词条去重,提示内存不足,那也就是失败了。
7.2 用ultraedit,不会,失败;
7.3 拷到excel里面,提示未加载完全,一看,excel到底也只有100多万行;
7.4 先继续删除合并文件里面的<link***>以及乱码,去重的问题再想想。。。
7.5 2017.2.4下午把各个解压的txt打开看了,没有乱码,所以合并txt文件出问题了,方法不对,郁闷中。。。
7.6 2017.02.04 郁闷中。。。估计花了几天时间弄的东西又回到开始了。。。。
7.7 2017.02.05 因为这些字典本身就包含好几个分类,电力,法律,会计,医学,所以想先按这些分类合并、去重再说。。。这样做至少还是会减少几本字典。。。今天没空,过两天再忙吧。。。



该用户从未签到

1

主题

15

回帖

96

积分

白身

Rank: 1

积分
96
推荐
 楼主| 发表于 2017-2-5 10:12:44 | 只看该作者
rayman 发表于 2017-2-5 09:58
1. txt文件合并可以用Command 窗口命令做,非常简单:
copy /b a.txt+b.txt+...+z.txt all.txt

1、合并txt用的下面这个方法:
在txt当前目录用“type *.txt >>f:\111.txt”,该命令将把当前目录下的所有txt文件的内容输出到f:\111.txt。
http://jingyan.baidu.com/article/d3b74d64a7cf671f77e609b5.html

2、可以词典联合查询,只是自己想做一个更全面的,加载起来也快,方便,每次查出结果后也不用显示:什么字典什么意思(字典太多,重复太多),所以只需要合并一个最完整的就可以了。

该用户从未签到

45

主题

1420

回帖

1万

积分

管理员

Rank: 13Rank: 13Rank: 13Rank: 13

积分
10971

管理组专用章

推荐
发表于 2017-2-5 09:58:34 | 只看该作者
1. txt文件合并可以用Command 窗口命令做,非常简单:
copy /b a.txt+b.txt+...+z.txt all.txt

可以google "windows copy 合并" 看教程

2. 为啥不用多词典联合查询模式而要自己合并?

该用户从未签到

16

主题

128

回帖

2789

积分

解元

Rank: 5Rank: 5

积分
2789

灌水大神章小蜜蜂章笑傲江湖章

2
发表于 2017-2-5 01:21:39 来自手机 | 只看该作者
使用Mdict Editor Tool v1.45操作失败时报什么错没有?

另外楼主要合并这么多词典,没有谁这么干过呀,况且就算是合并了,词典数过多,导致词条的内容越长,使用起来也就我越不好用

该用户从未签到

16

主题

128

回帖

2789

积分

解元

Rank: 5Rank: 5

积分
2789

灌水大神章小蜜蜂章笑傲江湖章

3
发表于 2017-2-5 01:22:11 来自手机 | 只看该作者
使用Mdict Editor Tool v1.45操作失败时报什么错没有?

另外楼主要合并这么多词典,没有谁这么干过呀,况且就算是合并了,词典数过多,导致词条的内容越长,使用起来也就越不好用
  • TA的每日心情
    开心
    2018-3-19 02:23
  • 签到天数: 1 天

    [LV.1]初来乍到

    16

    主题

    117

    回帖

    711

    积分

    举人

    Rank: 4

    积分
    711
    4
    发表于 2017-2-5 01:29:18 | 只看该作者
    哪里几天就能学会所有的东西?着急没有用,要慢慢来
  • TA的每日心情
    开心
    2022-3-11 16:40
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    37

    主题

    411

    回帖

    1360

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    1360

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    5
    发表于 2017-2-5 04:46:36 | 只看该作者
    本帖最后由 mingqing007 于 2017-2-5 16:49 编辑

    楼主你是干翻译的么。。。

    加油加油, 好好学学, 合并起来到是很简单的事儿, 就是拆拆合合花点时间而已.

    你遇到的问题,论坛里的帖子都能解决,好好搜索, 多看看帖就可以了.
  • TA的每日心情
    开心
    2023-2-24 18:44
  • 签到天数: 339 天

    [LV.8]以坛为家I

    12

    主题

    1566

    回帖

    58万

    积分

    超级版主

    Rank: 12Rank: 12Rank: 12

    积分
    582062

    灌水大神章小蜜蜂章笑傲江湖章推广专家QQ 章翰林院专用章管理组专用章

    8
    发表于 2017-2-5 12:49:11 | 只看该作者
    1 你删掉所有CSS 那根本没法看的 换行都没有 就几个空格 颜色也全是黑色 怎么高效率查。。
    当然也不能简单的合并 同名的CSS选择器后面的会覆盖掉前面的
    2 就算合并了查词效率低下 如果不是某专业领域的翻译 大量需要的话 只需要最常见的 剑桥牛津科伦斯麦克米伦朗文高阶词典 里面随便选一本都行 如果是专业的 你自然知道需要什么专业的词典 你整理完也不一定全用得上
  • TA的每日心情
    开心
    昨天 06:41
  • 签到天数: 1417 天

    [LV.10]以坛为家III

    7

    主题

    1579

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    21656
    9
    发表于 2017-2-9 21:31:10 | 只看该作者
    我想说楼主,这么多的词典,肯定有5本以内的大词典,包含了其他小词典的绝大部分的词意,找出来合并他们就可以啦,全合并了,就算成功了,你也得看词意看到吐,一个词的词义就要有上百行了,楼主可以自己想想,这样会有效率嘛?
  • TA的每日心情
    开心
    2018-6-6 00:13
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    1

    主题

    50

    回帖

    309

    积分

    秀才

    Rank: 3Rank: 3

    积分
    309
    10
    发表于 2017-3-15 12:26:30 | 只看该作者
    工具无好坏,关键怎么用。合并去重《木头字典》