融合实体特性的越南语命名实体识别方法技术

技术编号:14112976 阅读:126 留言:0更新日期:2016-12-07 09:20
本发明专利技术涉及融合实体特性的越南语命名实体识别方法,属于自然语言处理技术领域。本发明专利技术包括步骤:首先根据越南语命名实体特点,提取越南语命名实体有效特征,对形成的越南语句子级命名实体语料进行识别建模,得到越南语最大熵命名实体识别模型;再从越南语句子级命名实体语料中随机选取测试语料通过已建好的越南语最大熵命名实体识别模型进行识别,得到最大熵命名实体识别结果。本发明专利技术对越南语命名实体实现了有效的识别,为词法分析、句法分析、语义分析、信息抽取、信息检索和机器翻译等工作提供强有力的支撑,与目前识别方法相比,本发明专利技术的正确率、召回率、F值均有提高,因此本发明专利技术具有一定的研究意义。

【技术实现步骤摘要】

本专利技术涉及融合实体特性的越南语命名实体识别方法,属于自然语言处理

技术介绍
越南语命名实体识别是指自动识别越南语文本语料中的人名、地名、组织机构名、时间、数字、百分号和货币的过程,其是越南语词法分析、句法分析、文本分析、信息检索等工作中的主要环节,是上层机器翻译的重要基础,起着非常重要的作用。在上层的机器翻译中,越南语命名实体识别起到关键作用。随着互联网搜索技术的不断提高,命名实体也越来越备受重视,其决定着搜索的好坏;同时其对文本、语义分析、双语实体翻译等起到重要作用。
技术实现思路
本专利技术提供了融合实体特性的越南语命名实体识别方法,以用于解决越南语命名实体识别正确率不高、不能有效识别复杂的命名实体、不能更好挖掘和结合实体特性等问题。本专利技术的技术方案是:融合实体特性的越南语命名实体识别方法,所述融合实体特性的越南语命名实体识别方法的具体步骤如下:Step1、首先根据越南语命名实体特点,提取越南语命名实体有效特征,对形成的越南语句子级命名实体语料进行识别建模,得到越南语最大熵命名实体识别模型;Step2、从越南语句子级命名实体语料中随机选取测试语料通过已建好的越南语最大熵命名实体识别模型进行识别,得到最大熵命名实体识别结果。作为本专利技术的优选方案,所述步骤Step1的具体步骤为:Step1.1、首先人工编写爬虫程序,从越南语网站和中越交流圈中收集越南语新闻语料网页信息;本专利技术考虑到由于不同的网页结构,爬虫程序中爬取的位置和标签也不同,且没有现成的程序,因此针对爬取不同任务要进行编写程序。要尽可能全面地选取不同方面的题材的语料,例如:新闻、政治、经济和文化等方面。Step1.2、获取到的越南语新闻语料网页信息进行过滤、去重、去垃圾信息等操作,得到越南语文本级语料库,并把越南语文本级语料库存放到数据库中,方便下一步分词工作使用;本专利技术考虑到爬取到的越南语网页语料中存在一些重复网页、网页标签、无效字符等噪音,这些噪音是无效的。因此,要通过过滤、去噪音等操作去除,得到只含有越南语的高质量的文本级语料,存放在数据库是为了能方便数据的管理和下一步越南语分词工作使用。所述步骤Step1.2的具体步骤为:Step1.2.1、对爬取的网页信息进行有效的过滤,去无效字符和网页;Step1.2.2、对得到的有效网页进行去重、去垃圾信息等预处理操作;Step1.2.3、对得到的越南语文本级语料存放在数据库中。考虑到爬取到的越南语网页语料中存在一些重复网页、网页标签等噪音,这些噪音是无效的。因此,要通过过滤、去垃圾信息等操作去除,得到只含有越南语的高质量的文本级语料,存放在数据库是为了能方便数据的管理和下一步使用。Step1.3、从Step1.2数据库中取出越南语文本级语料,越南语词与词之间空格隔开,不能按照空格来进行分词,但是分词是命名实体识别前期基础工作;因此,根据越南语分词工具进行越南语文本级语料库的语料分词,并进行人工校对,形成越南语分词句子级语料库,并把越南语分词句子级语料库的语料存放到数据库中,方便下一步词性标注工作使用;本专利技术中分词处理过程,是越南语命名实体识别工作的前提与基础,是不可缺少的一步,同时由于越南语的词是由一个或者多个音节构成,不能按照空格对来确定分词。使用越南语分词工具进行分词之后,需要人工校对,考虑到越南语分词工具不可能正确地切分所有的越南语词,分词错误会影响到下一步的越南语词性标注结果的正确性和兼类词消歧的正确性,存放到数据库为了能方便数据的管理和下一步词性标注工作使用。Step1.4、从Step1.3数据库中取出越南语分词句子级语料越南语词的词性有助于识别命名实体,同时也是命名前期工作不可缺少工作之一;因此根据越南语词性标注工具对越南语分词句子级语料进行越南语句子级词性标注;考虑到工具分词不是完全正确和防止错误向后累积,故再进行人工校对,形成越南语句子级词性标注语料库,并把越南语句子级词性标注语料库的语料存放到数据库中,方便下一步组块分析工作使用;本专利技术中词性标注过程,同时也是越南语命名实体识别工作的前提与基础,是不可缺少的一步,词性以及上下文信息是本专利最大熵模型中重要的识别特征,因此需要使用本实验室词性标注工具进行词性标记;考虑到越南语词性标注过程中,困难在于越南语兼类词的影响和考虑到越南语分词工具不可能正确地切分所有的越南语词,词性标注错误会影响到下一步的越南语组块标注结果的正确性和兼类词消歧的正确性,故词性标记之后需要进行人工校对;存放到数据库为了能方便数据的管理和下一步词性标注工作使用。Step1.5、从Step1.4数据库中取出越南语句子级词性标注语料,越南语组块类型和长度有利于命名实体识别,因此再应用越南语组块标注工具对越南语句子级词性标注语料进行越南语句子级组块标记,考虑到工具分词不是完全正确和防止错误向后累积,故再进行人工校对,形成越南语句子级组块标记语料库,并把越南语句子级组块标记语料库的语料存放到数据库中,方便下一步人工标记命名实体语料使用;本专利技术中组块分析与标记,同时也是越南语命名实体识别工作的前提与基础,是不可缺少的一步,组块类型和长度有利于识别命名实体边界和类型,因此,本专利需要使用本实验室的越南语组块分析工具进行组块标记。考虑到工具分词不是完全正确和防止错误向后累积,故进行人工校对,形成越南语句子级组块标记语料库,存放数据库是为了方便管理数据和下一步人工标记命名实体语料使用。Step1.6、从Step1.5数据库中取出越南语句子级组块标记语料根据定义的实体类型,考虑到越南语命名实体语料缺乏,故再人工标记越南语命名实体语料,形成越南语句子级命名实体语料,并把越南语句子级命名实体语料存入数据库中,方便下一步形成训练语料工作使用;本专利技术过程中标记越南语命名实体句子级语料,主要考虑目前还没有公开的越南语命名实体语料可供使用,且本专利需要大量的训练语料,因此要进行人工标记,形成一定规模的训练语料,存放数据库是为了方便数据的管理和下一步形成含有实体特性训练格式的语料做准备。Step1.7、根据越南语命名实体特点,并结合Step1.6步骤取出越南语句子级命名实体语料,提取越南语命名实体有效特征,包括局部特征和全局特征;全局特征包括:词上下文信息特征、词性上下文信息的特征、组块上下文信息特征;局部特征包括音节个数信息特征、指示词信息特征、首词素是否存在姓氏库信息特征、首字母是否为大写信息特征、字首字母是否为大写信息特征、外来词信息特征等;本专利技术中根据越南语言和实体特点,提取出有效的全局特征和局部特征。全局特征:针对所有的实体类型,并且满足所有实体类型的,主要包括有:词上下文信息特征、词性上下文信息的特征、组块上下文信息特征;局部特征:实体类型之间差别较大,各自有各自的特点,这样就可以更大限度区别实体类型,有利于实体类型的识别,主要包括有音节个数信息特征、指示词信息特征、首词素是否存在姓氏库信息特征、首字母是否为大写信息特征、字首字母是否为大写信息特征、外来词信息特征等。Step1.8、根据Step1.7中已选取的越南语命名实体有效特征,结合从Step1.6中取出的越南语句子级命名实体语料,制定最大熵模型训练所需要的训练格式;本专利技术中使用最大熵的统计分析方法,对于本文档来自技高网...
融合实体特性的越南语命名实体识别方法

【技术保护点】
融合实体特性的越南语命名实体识别方法,其特征在于:所述融合实体特性的越南语命名实体识别方法的具体步骤如下:Step1、首先根据越南语命名实体特点,提取越南语命名实体有效特征,对形成的越南语句子级命名实体语料进行识别建模,得到越南语最大熵命名实体识别模型;Step2、从越南语句子级命名实体语料中随机选取测试语料通过已建好的越南语最大熵命名实体识别模型进行识别,得到最大熵命名实体识别结果。

【技术特征摘要】
1.融合实体特性的越南语命名实体识别方法,其特征在于:所述融合实体特性的越南语命名实体识别方法的具体步骤如下:Step1、首先根据越南语命名实体特点,提取越南语命名实体有效特征,对形成的越南语句子级命名实体语料进行识别建模,得到越南语最大熵命名实体识别模型;Step2、从越南语句子级命名实体语料中随机选取测试语料通过已建好的越南语最大熵命名实体识别模型进行识别,得到最大熵命名实体识别结果。2.根据权利要求1所述的融合实体特性的越南语命名实体识别方法,其特征在于:所述步骤Step1的具体步骤为:Step1.1、首先人工编写爬虫程序,从越南语网站和中越交流圈中收集越南语新闻语料网页信息;Step1.2、获取到的越南语新闻语料网页信息进行过滤、去重、去垃圾信息等操作,得到越南语文本级语料库,并把越南语文本级语料库存放到数据库中;Step1.3、从Step1.2数据库中取出越南语文本级语料,根据越南语分词工具进行越南语文本级语料库的语料分词,并进行人工校对,形成越南语分词句子级语料库,并把越南语分词句子级语料库的语料存放到数据库中;Step1.4、从Step1.3数据库中取出越南语分词句子级语料,根据越南语词性标注工具对越南语分词句子级语料进行越南语句子级词性标注;再进行人工校对,形成越南语句子级词性标注语料库,并把越南语句子级词性标注语料库的语料存放到数据库中;Step1.5、从Step1.4数据库中取出越南语句子级词性标注语料,再应用越南语组块标注工具对越南语句子级词性标注语料...

【专利技术属性】
技术研发人员:郭剑毅刘艳超余正涛周枫周兰江
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1