查看: 1709|回复: 8
打印 上一主题 下一主题

[讨论] 关于文本格式的使用及扫描版格式的一点建议

[复制链接]
  • TA的每日心情
    擦汗
    前天 07:00
  • 签到天数: 1090 天

    [LV.10]以坛为家III

    124

    主题

    1772

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10477

    灌水大神章小蜜蜂章笑傲江湖章

    跳转到指定楼层
    1
    发表于 2014-5-14 23:40:53 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 spoony1971 于 2014-5-14 23:46 编辑

    近来诸君工作如火如荼,无私精神令人惭愧。这里我发表一些愚见,若对诸君产生细微的帮助,则不胜欣慰。

    关于文本格式:markdown vs. XML
    个人推荐使用markdown格式。XML格式太过繁琐,直接输入不胜其繁。即使markdown也只应该采纳最基本的两点。
    1,空一行作为分段标记。(换行符不起作用,可由输入者自行决定,但换行符可作为全文检索时的单元划分,善加利用可更好的全文检索)。
    2,词头单独成一行,前加“###” (假如担心字典中段首会出现"###"的话,也可用"####"等)
    别的更丰富的标记可酌情采纳,但不可过多。

    关于扫描版格式:
    毋庸置虞,无损压缩清晰度没有丝毫损失,这里主要两种图像格式bmp和无损png压缩。但生成的最终文件太大。
    在图像有损压缩中,jpeg专门针对图像,文字边界清晰度损失较大,没有对扫描文字进行特殊优化,压缩率低。
    djvu是专门针对扫描文本的压缩算法,对普通图像处理效果不佳,但对扫描文本,清晰度保存高,压缩率超高。(特别推荐用minidjvu来压缩黑白扫描文本)

    欢迎大家讨论。

    该用户从未签到

    12

    主题

    407

    回帖

    1万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    11211

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    2
    发表于 2014-5-15 00:36:34 来自手机 | 只看该作者
    黑白格式的png完爆jpg/jpeg不解释

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    3
    发表于 2014-5-15 03:24:16 | 只看该作者
    spoony1971, 你说的markdown, 我google了解了一下, 暂时还未尝试过.
    目前我个人用Emeditor, 自定义高亮, 文本里除了`/\, 几乎没有添加另外的符号,
    感觉非常好.

    该用户从未签到

    2121

    主题

    2961

    回帖

    6万

    积分

    翰林院修撰

    不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

    Rank: 12Rank: 12Rank: 12

    积分
    61056

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    4
    发表于 2014-5-15 06:50:27 | 只看该作者
    dsl格式为GoldenDict直接支持,容错性高。

    我目前是直接录入为dsl格式。如图



    够简单吧?词头单独一行,内容前有tab,完了空一行,so easy。当然,最后排版可能也就这般朴素了。

    另外,同意楼主的看法。我们这般普通网友,没必要搞出出版级别的xml,那太累太累了,当然,如果有牛人搞出一个简单的适用于mdx的Dictionary Writing System,那就另当别论。

    其实校对,最难的是找到靠谱的同路人,《英汉大词典》,能找到五个,就不错了。

    {:5_227:}


    该用户从未签到

    7

    主题

    373

    回帖

    6805

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6805

    灌水大神章小蜜蜂章笑傲江湖章

    5
    发表于 2014-5-16 11:46:59 | 只看该作者
    Oeasy 发表于 2014-5-15 06:50
    dsl格式为GoldenDict直接支持,容错性高。

    我目前是直接录入为dsl格式。如图

    伸手党请教,dsl格式有什么优势么,是否市面上光盘的词典转换为dsl更容易?

    该用户从未签到

    2121

    主题

    2961

    回帖

    6万

    积分

    翰林院修撰

    不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

    Rank: 12Rank: 12Rank: 12

    积分
    61056

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    6
    发表于 2014-5-16 11:58:22 | 只看该作者
    itarcy 发表于 2014-5-16 11:46
    伸手党请教,dsl格式有什么优势么,是否市面上光盘的词典转换为dsl更容易?



    dsl格式就是纯文本,GoldenDict可用,容错性高。参考:http://lingvo.helpmax.net/zh/故 ... �一本-dsl-词典/

    这里所谓i的“容错性”高,是指某些词条格式不合乎规范,这个dsl文件,还是可以为GoldenDict所加载,还是能够使用,能够查询到绝大多数词条。只不过这个不合乎规范的dsl在转制为lsd(ABBYY Lingvo所支持的格式)时,会有很多问题罢了。

    要是mdx的源文件txt里有些问题,不严格符合规范,是不能制作为mdx的,也不能为词典软件所加载使用。而且从mdx再转为mdx源文件txt,词条的顺序可能就变了,和最初的源txt不同。


    dsl里,词条顺序可以和纸质出版物一致,方便校对时定位、对照。

    至于光盘转换为dsl,难度和转换为mdx是一样的。最难的部分其实就是从光盘提取文本(一般是xml格式),至于那文本是转为dsl还是mdx,就看制作者喜好了。

    该用户从未签到

    7

    主题

    373

    回帖

    6805

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6805

    灌水大神章小蜜蜂章笑傲江湖章

    7
    发表于 2014-5-16 12:05:10 | 只看该作者
    Oeasy 发表于 2014-5-16 11:58
    dsl格式就是纯文本,GoldenDict可用,容错性高。参考:http://lingvo.helpmax.net/zh/故障排除/dsl-c ...

    懂了,谢谢,大人简直就是百科全书

    该用户从未签到

    9

    主题

    98

    回帖

    1176

    积分

    解元

    Rank: 5Rank: 5

    积分
    1176

    灌水大神章小蜜蜂章笑傲江湖章

    8
    发表于 2014-5-16 16:49:17 | 只看该作者
    太忙,以至于只关注了我自己的贴子,今天才看到前辈的耐心箴言,非常惭愧!

    该用户从未签到

    0

    主题

    195

    回帖

    1557

    积分

    被盗用户

    积分
    1557
    9
    发表于 2014-12-26 23:58:45 | 只看该作者
    光盘转文本大神们主要是什么方法,按键精灵吗?