【技术实现步骤摘要】
一种用于越南语实体识别的数据集构造方法
本专利技术涉及计算机应用
,特别是自然语言处理技术,具体是一种用于越南语实体识别的数据集构造方法。
技术介绍
随着互联网技术的飞速发展以及自然语言处理领域研究的不断深入,可用信息资源得到极大丰富,人们迫切需要从海量非结构化文本中获取有用信息,在这种背景下,命名实体识别技术应运而生。命名实体识别是自然语言处理中的一个基本任务,目的是识别文本当中的人名、地名、机构名等命名实体,在所有设计自然语言处理的研究中,这是一个必须攻克的任务。命名实体识别作为信息抽取、问答系统、机器翻译等任务中的基础工作,近年来在多媒体索引、半监督和无监督的学习、复杂语言环境和机器翻译等方面取得大量新的研究成果。然而,当前命名实体识别技术只是在汉语、英语等大语种上有较高的准确率,而且文本类型也仅仅局限于新闻文本,对于越南语等小语种来说,命名实体识别技术依旧是一个亟待解决的问题,小语种语料库严重不足,这也对我们的研究造成了极大的不便,小语种数据集人工标注耗时耗力,极大增加了研究成本。专利技 ...
【技术保护点】
1.一种用于越南语实体识别的数据集构造方法,其特征在于,包括如下步骤:/n1)中文数据集获取:依据网址http://thuctc.thunlp.org/选取清华大学的文本分类数据作为中文文本数据集Z;/n2)命名实体提取:采用标签类别抽取出中文文本数据集Z中的命名实体,并将带标签的命名实体数据存入文本文件CT,不带标签的命名实体数据存入文本文件C中,过程为:/n2-1)读取中文文本数据集Z,并按行读取文件,判断每行的标签,如果为“O”则不进行处理;/n2-2)以第一个“B”开头的标签为起始,到下一个“B”开头标签之前阶段,将这几行的文本数据存入一行并按行写入中文实体带标签文 ...
【技术特征摘要】
1.一种用于越南语实体识别的数据集构造方法,其特征在于,包括如下步骤:
1)中文数据集获取:依据网址http://thuctc.thunlp.org/选取清华大学的文本分类数据作为中文文本数据集Z;
2)命名实体提取:采用标签类别抽取出中文文本数据集Z中的命名实体,并将带标签的命名实体数据存入文本文件CT,不带标签的命名实体数据存入文本文件C中,过程为:
2-1)读取中文文本数据集Z,并按行读取文件,判断每行的标签,如果为“O”则不进行处理;
2-2)以第一个“B”开头的标签为起始,到下一个“B”开头标签之前阶段,将这几行的文本数据存入一行并按行写入中文实体带标签文本文件CT,并在本行末尾加上起始行的标签;
2-3)以第一个“B”开头的标签为起始,到下一个“B”开头标签之前阶段,将这几行的文本数据存入一行并按行写入中文实体不带标签文本文件C;
3)中文数据集拆分:读取中文文本数据集Z,并删除每行的标签,然后删除每行的换行符,之后写入中文整体文件CA;
4)中文数据翻译:将中文整体文件CA中的内容翻译为越南语数据并存放到越南语整体数据文件VA,将中文实体不带标签文本文件C中的内容逐行翻译为越南语并逐行存放到越南语实体不带标签文本文件V;
5)越南语数据文件构建:读...
【专利技术属性】
技术研发人员:丁勇,田磊,黄永忠,王玉珏,王会勇,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:广西;45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。