基于组合方法的越南语兼类词消歧方法技术

技术编号:14135222 阅读:307 留言:0更新日期:2016-12-10 02:40
本发明专利技术涉及基于组合方法的越南语兼类词消歧方法,属于自然语言处理技术领域。本发明专利技术首先从越南语文本中抽取越南语兼类词字段,构建兼类词字段库,其次对兼类词字段库分别进行最大熵、条件随机场、支持向量机词性歧义消解建模,再把待消歧的兼类词字段测试语料通过已构建的三大统计分析模型进行消歧,综合分析结果,得到兼类词的词性标记。本发明专利技术提出的基于组合方法的越南语兼类词消歧方法,对越南语的兼类词实现了有效的消歧,为后续越南语词性标注、词法分析、句法分析、语义分析、信息抽取、信息检索和机器翻译等工作提供强有力的支撑;解决了对于单一学习器会造成泛化性能不佳的问题。

【技术实现步骤摘要】

本专利技术涉及基于组合方法的越南语兼类词消歧方法,属于自然语言处理

技术介绍
在越南语自然语言处理领域中,高质量的越南语语料库建设是后续工作的基础、前提和支柱,其可以广泛应用于多个方面,例如:实体识别、名词短语分析、句法分析、语义分析和上层的机器翻译等。越南语兼类词是越南语词性标注工作中的重点和难点,其直接影响着词性标注的准确率,同时对于构建高质量的越南语词性标注语料库有着极其促进的作用;为了解决后续工作的质量和性能,需要构建高质量的词性标注语料库。因此,要构建高质量的越南语词性语料库,需要解决兼类词问题。
技术实现思路
本专利技术提供了基于组合方法的越南语兼类词消歧方法,以用于解决兼类词的消歧、后续越南语词性标注的正确率不高、单一模型识别不足等问题,解决了对于单一学习器会造成泛化性能不佳问题。本专利技术的技术方案是:基于组合方法的越南语兼类词消歧方法,所述基于组合方法的越南语兼类词消歧方法的具体步骤如下:Step1、首先对越南语句子级词性标注语料,结合越南语兼类词字典,抽取得到越南语兼类词字段库,然后结合越南语语言和兼类词特点,获取越南语消歧特征;Step2、使用最大熵统计分析方法对已形成越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到最大熵的越南语兼类词消歧模型;Step3、使用条件随机场统计分析方法对已形成的越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到条件随机场的越南语兼类词消歧模型;Step4、使用支撑向量机统计分析方法对已形成的越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到支持向量机的越南语兼类词消歧模型;Step5、从越南语兼类词字段语料中随机选取部分测试语料分别通过已构建的最大熵的越南语兼类词消歧模型、条件随机场的越南语兼类词消歧模型、支持向量机的越南语兼类词消歧模型进行消歧,分别得到消歧的参数序列;Step6、对分别得到的消歧参数序列进行投票方法确定最终消歧结果,得到最终的兼类词消歧结果。作为本专利技术的优选方案,所述步骤Step1的具体步骤为:Step1.1、首先利用网络爬虫程序,从互联网上爬取越南语网页语料;Step1.2、把已爬取出的越南语网页语料,经过过滤、去噪音等处理,构建出越南语文本级语料,并把越南语文本级语料存放到数据库中;本专利技术考虑到爬取到的越南语网页语料中存在一些重复网页、网页标签等噪音,这些噪音是无效的。因此,要通过过滤、去噪音等操作去除,得到只含有越南语的高质量的文本级语料,存放在数据库是为了能方便数据的管理和下一步使用。Step1.3、从Step1.2数据库中取出越南语文本级越南语语料,经过人工处理形成越南语句子级语料,使用越南语分词工具对越南语句子级语料进行分词,并进行人工校对,形成越南语分词句子级语料库,并把越南语分词句子级语料库的语料存放到数据库中;本专利技术是在已词性标注的基础上进行消歧,若进行词性标注首先进行分词,是不可缺少的一步,同时由于越南语的词是由一个或者多个音节构成,不能按照空格对来确定分词。使用越南语分词工具进行分词之后,需要人工校对,考虑到越南语分词工具不可能正确地切分所有的越南语词,分词错误会影响到下一步的越南语词性标注结果的正确性和兼类词消歧的正确性,存放到数据库为了能方便数据的管理和下一步使用。Step1.4、从Step1.3数据库中取出已分词的越南语句子级语料,根据越南语词性标注工具进行越南语句子级分词语料进行词性标注,并进行人工校对,形成越南语词性句子级的语料库,并把越南语句子级词性语料库存放到数据中;本专利技术是在已词性标注的基础上进行消歧,同时根据本专利已选取的词性及上下文信息作为有效特征,因此需要进行词性标注;使用词性标注工具进行词性标注之后,需要人工校对,主要考虑到任何越南语词性标注工具都不可能完全正确,为了确保语料的高质量和兼类词消歧正确性,存放到数据库为了能方便数据的管理和下一步使用。Step1.5、从Step1.4数据库中取出越南语句子级词性标注语料,根据人工编写抽取越南语兼类词程序,结合越南语兼类词字典,进行抽取越南语的兼类词字段,形成越南语兼类词字段库,并把越南语兼类词字段库的字段存放到数据库中;本专利技术编写越南语兼类词抽取程序;生成越南语兼类词字典,考虑到首先要知道越南语词中那些是兼类词,才能进行越南语兼类词字段信息的抽取,若没有兼类词字典是不能判断句子中越南语词是否是兼类词,更抽取不了相关的字段信息;生成越南语字典,考虑到越南语兼类词是字典当中的一部分,除了越南语词有一个词性之外,其他都是越南语兼类词;收集越南语字典,考虑到要收集到完整的越南语字典(收集的字典越完整,兼类词考虑越全面),需要从多方面途径进行收集,然后对于重复的词,进行去重,综合得到最终的越南语字典。Step1.6、根据越南语语言和兼类词特点,并对Step1.5数据库中越南语兼类词字段进行分析,选取越南语兼类词消歧特征,包括:词信息特征以及上下文特征、词性信息以及上下文特征、成分特征。此优选方案设计是本专利技术的重要组成部分,主要为本专利提供语料预处理过程,为后续工作提供模型训练时所需训练语料和为模型测试时提供测试语料;并且为本专利选取消歧特征提供了支撑和挖掘的对象。作为本专利技术的优选方案,所述步骤Step1.5的具体步骤:Step1.5.1、从Step1.4数据库中取出越南语句子级词性标注的语料,得到越南语句子级词性标注语料;Step1.5.2、从网站和字典中收集越南语字典,形成越南语字典;Step1.5.3、从Step1.5.2中得到越南语字典,通过人工进行筛选和抽取,得到越南语兼类词字典;Step1.5.4、通过人工编写的抽取兼类词程序,并结合Step1.5.3中的越南语兼类词字典,对Step1.5.1中得到的越南语句子级词性标注语料进行抽取越南语兼类词,得到越南语兼类词字段信息,并把抽取到的越南语兼类词字段信息存放到数据中。此优选方案设计是抽取越南语兼类词字段信息的重要过程,根据编写的抽取程序并结合越南语兼类词字典,进行抽取越南语兼类词字段,为下一步形成训练与测试语料提供语料基础。作为本专利技术的优选方案,所述步骤Step2的具体步骤为:Step2.1、根据选取的越南语兼类词消歧特征,并结合获取得到的越南语兼类词字段语料,制定最大熵模型中所需要的基本特征模板训练样式语料;Step2.2、用最大熵统计分析方法对Step2.1中训练语料进行建模,得到基于最大熵的越南语兼类词消歧模型。此优选方案设计是生成基于最大熵的越南语兼类词消歧模型,是本专利技术组合方法之一。最大熵统计分析方法对训练语料进行训练,生成最大熵消歧模型,为本专利技术兼类词消歧提供一种消歧模型。作为本专利技术的优选方案,所述步骤Step3的具体步骤为:Step3.1、根据选取的越南语兼类词消歧特征,并结合获取得到的越南语兼类词字段语料,制定条件随机场模型中所需要的基本特征模板训练样式语料;Step3.2、用条件随机场统计分析方法对Step3.1中训练语料进行建模,得到基于条件随机场的越南语兼类词消歧模型。此优选方案设计是生成基于条件随机场的越南语兼类词消歧模型,是本专利技术组合方法之二。条件随机场统计分析方法对训练语料进行训练,生成条件随机场消歧模型,为本专利技术兼类词本文档来自技高网...
基于组合方法的越南语兼类词消歧方法

【技术保护点】
基于组合方法的越南语兼类词消歧方法,其特征在于:所述基于组合方法的越南语兼类词消歧方法的具体步骤如下:Step1、首先对越南语句子级词性标注语料,结合越南语兼类词字典,抽取得到越南语兼类词字段库,然后结合越南语语言和兼类词特点,获取越南语消歧特征;Step2、使用最大熵统计分析方法对已形成越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到最大熵的越南语兼类词消歧模型;Step3、使用条件随机场统计分析方法对已形成的越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到条件随机场的越南语兼类词消歧模型;Step4、使用支撑向量机统计分析方法对已形成的越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到支持向量机的越南语兼类词消歧模型;Step5、从越南语兼类词字段语料中随机选取部分测试语料分别通过已构建的最大熵的越南语兼类词消歧模型、条件随机场的越南语兼类词消歧模型、支持向量机的越南语兼类词消歧模型进行消歧,分别得到消歧的参数序列;Step6、对分别得到的消歧参数序列进行投票方法确定最终消歧结果,得到最终的兼类词消歧结果。

【技术特征摘要】
1.基于组合方法的越南语兼类词消歧方法,其特征在于:所述基于组合方法的越南语兼类词消歧方法的具体步骤如下:Step1、首先对越南语句子级词性标注语料,结合越南语兼类词字典,抽取得到越南语兼类词字段库,然后结合越南语语言和兼类词特点,获取越南语消歧特征;Step2、使用最大熵统计分析方法对已形成越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到最大熵的越南语兼类词消歧模型;Step3、使用条件随机场统计分析方法对已形成的越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到条件随机场的越南语兼类词消歧模型;Step4、使用支撑向量机统计分析方法对已形成的越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到支持向量机的越南语兼类词消歧模型;Step5、从越南语兼类词字段语料中随机选取部分测试语料分别通过已构建的最大熵的越南语兼类词消歧模型、条件随机场的越南语兼类词消歧模型、支持向量机的越南语兼类词消歧模型进行消歧,分别得到消歧的参数序列;Step6、对分别得到的消歧参数序列进行投票方法确定最终消歧结果,得到最终的兼类词消歧结果。2.根据权利要求1所述的基于组合方法的越南语兼类词消歧方法,其特征在于:所述步骤Step1的具体步骤为:Step1.1、首先利用网络爬虫程序,从互联网上爬取越南语网页语料;Step1.2、把已爬取出的越南语网页语料,经过过滤、去噪音等处理,构建出越南语文本级语料,并把越南语文本级语料存放到数据库中;Step1.3、从Step1.2数据库中取出越南语文本级越南语语料,经过人工处理形成越南语句子级语料,使用越南语分词工具对越南语句子级语料进行分词,并进行人工校对,形成越南语分词句子级语料库,并把越南语分词句子级语料库的语料存放到数据库中;Step1.4、从Step1.3数据库中取出已分词的越南语句子级语料,根据越南语词性标注工具进行越南语句子级分词语料进行词性标注,并进行人工校对,形成越南语词性句子级的语料库,并把越南语句子级词性语料库存放到数据中;Step1.5、从Step1.4数据库中取出越南语句子级词性标注语料,根据人工编写抽取越南语兼类词程序,结合越南语兼类词字典,进行抽取越南语的兼类词字段,形成越南语兼类词字段库,并把越南语兼类词字段库的字段存放到数据库中;Step1.6、根据越南语语言和兼类词特点,并对Step1.5数据库中越南语兼类词字段进行分析,选取越南语兼类词消歧特征,包括:词信息特征以及上下文特征、词性信息以及上下文特征、成分特征。3.根据权利要求2所述的基于组合方法的越南语兼类词消歧方法,其特征在于:所述步骤Step1.5的具体步骤:Step1.5.1、从Step1.4数据库中取出越南语句子级词性标注的语料,得到越南语句子级词性标注语料;Step1.5.2、从网站和字典中收集越南语字典,形成越南语字典;Step1.5.3、从Step1.5.2...

【专利技术属性】
技术研发人员:郭剑毅刘艳超余正涛线岩团严馨文永华
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1