TA的每日心情 | 奋斗 2018-5-18 05:02 |
---|
签到天数: 27 天 [LV.4]偶尔看看III
版主
- 积分
- 8680
|
要实现语料的机读化, 提高语料的利用价值, 关键是语料的标注。对此, G. Leech(1993) 提出了以下七条基本原则:
(1) 所作标注可以删除, 恢复到原始语料。
(2) 所作标注可以单读抽出, 另处存储。
(3) 语料库使用者应该知道标注原则和标注符号的意义。
(4) 在语料的使用说明或文件中, 应该说明标注是何人用何种方法所作。如, 是人工标注还是计算机标注, 是一人标注还是多人标注。
(5) 应向用户声明, 语料标注并非绝对无误, 它只是一种可能有用的工具。
(6) 标注模式应不依赖于某一家之言, 尽可能中立。
(7) 任何标注模式都不能作为第一标准。即使有, 也只能通过实践在大量比较中形成。
语料的标注和语料的利用是一对矛盾。从用户的角度, 语料标注得越详尽越好, 而标注者则还需考虑标注的可行性。因此, 任何标注模式都是在二者之间求得的一种妥协的产物。目前应用较为广泛的标注模式是OCP (Oxford Concordance Program ) 和TEI (Text Encoding Initiative) , 特别是后者, 被认为更能反映当前语料库语言学家致力于建立更具形式化的机读语篇信息编码国际标准的动向。使用TEI 模式标注的大型语料库包括单词量多达一亿的英国国家语料库 (The British National Corpus) 和语料取自多个英语国家的国际英语语料库 。值得特别指出的是, 欧盟已经建立了一个名为语言工程标准专家顾问团 (EAGLES) 的专门班子, 负责检查对欧盟诸官方语言已作的编码和标注, 进而建立具体的语料标注的欧洲标准, 供今后欧盟资助的项目所用。该班子由许多专家工作小组组成, 包括语料小组, 词汇小组和计算语言形式化小组等。语料小组将特别关注可统一用于所有欧盟语言的标准标注模式。
Video of AntConc 3.4.0 Tutorial:https://www.youtube.com/watch?v=O3ukHC3fyuc |
|