官方服务微信:dat818 购买与出租对接

如何建立自己的语料库:从收集到整理的完整指南

2万

主题

2

回帖

8万

积分

管理员

积分
86674
发表于 2025-1-15 20:48:37 | 显示全部楼层 |阅读模式
    无论是在普通的翻译练习中,还是在学术研究中,语料库作为学习工具或研究方法都是不可或缺的。那么,基于语料库方法进行研究时,应该如何构建自己的语料库呢?读完这篇文章,一定会对你有所启发!

    一

    什么是语料库

    语料库一词翻译自英语“(常用复数)”。

    语料库语言学家辛克莱将其定义为“按照一定采样标准收集的能够代表一种语言或者一种语言的变体或流派的电子文本”。

    二

    如何构建语料库

    1.

    语料库的收集和组织

    语料库通常以txt格式保存。

    如果是书面语料,需要先扫描转换成电子版,然后通过OCR识别,然后自行校对和格式转换;

    如果是语音语料,则需要先进行转录,然后再进行后续步骤;

    如果已经是电子语料库(如pdf、mobi、html等),可以直接转换格式。

    推荐OCR识别工具:天若文字识别、Adobe Pro DC等。

    推荐格式转换工具:Adobe Pro DC,或者网站等。

    2.

    语料库清理

    接下来就是语料的预处理,以及语料的校对和降噪。

    在这个过程中,我们需要从整理好的文本中去除多余的空格、空行、回车、乱码、错别字以及其他不必要的信息(包括附录、表格、前言等)。

    推荐工具:MS Word 和(网站)

    PS 在语料清理过程中,正则表达式是一个好帮手。一些语料清理工具还提供快捷键,无需手动输入正则表达式,可以满足很多读者的需求。小编在此附上一张样表:

    有兴趣的朋友可以去网站了解更多~

    3.

    分词标注

    首先请您理解:

    分词()是指将一串字符转换为可分析且易于识别的标记(即单词)的过程;

    注释( )是指根据各种属性( 的部​​分)对文本中的单词进行注释;

    但请注意,对于中文来说,分词是必要的,因为中文单词之间没有明显的分离,不分词很难识别和分析;虽然注释不是必须的步骤,但必要时可以进行。

    例如:

    分词前

    分词后

    贴标后

    推荐分词标注工具: 、(中文)、(英汉)等。

    以上所有工具均可在以下网址下载

    4.

    平行排列

    到了上面的前三个步骤,语料库的处理就基本完成了,但是如果你的语料库是双语或多语的,就需要进行对齐。

    对齐是指实现多语言语料库中句子的一一对应,也可以实现段落的一一对应,形成标准化的语言对。

    对齐推荐工具:memoQ等。

    对齐完成后,如下图:

    此图来自上海外国语大学语料库研究院《习近平谈治国理政》多语言数据库综合平台

    完成以上步骤后,语料库的加工处理就完成了,语料库建立成功!

    三

    一些建议

    语料库搭建好之后,小编这里推荐两个常用的语料检索分析工具:和。这两款软件可以帮助你更好的搜索语料库、生成单词列表等,是语料库用户不离手的好工具!

    另外,除了建立自己的语料库外,还应该利用好现有的语料库,例如:

    英国国家语料库 (BNC)

    美国当代英语语料库(简称COCA)

    ……

    以上就是本期的全部内容。希望这篇文章能为您探索语料库建立提供一些帮助~

    实践出真知,快去尝试吧~

    特别说明:本文仅供学习交流。如有错误,请联系幕后编辑。

    -结尾-

    翻译圈公众号旨在为读者提供名师专家的口译见解、CATTI考试和MTI入学考试信息、翻译等语言服务就业信息以及口笔译学习资源和知识。希望对翻译路上的大家有所帮助。伸出援助之手。欢迎大家积极留言,向我们提供建设性建议。让我们共同进步!

更多帖子推荐

您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2025, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2025-4-23 08:34 , Processed in 0.073128 second(s), 18 queries .