【技术实现步骤摘要】
本专利技术涉及基于组合方法的越南语兼类词消歧方法,属于自然语言处理
技术介绍
在越南语自然语言处理领域中,高质量的越南语语料库建设是后续工作的基础、前提和支柱,其可以广泛应用于多个方面,例如:实体识别、名词短语分析、句法分析、语义分析和上层的机器翻译等。越南语兼类词是越南语词性标注工作中的重点和难点,其直接影响着词性标注的准确率,同时对于构建高质量的越南语词性标注语料库有着极其促进的作用;为了解决后续工作的质量和性能,需要构建高质量的词性标注语料库。因此,要构建高质量的越南语词性语料库,需要解决兼类词问题。
技术实现思路
本专利技术提供了基于组合方法的越南语兼类词消歧方法,以用于解决兼类词的消歧、后续越南语词性标注的正确率不高、单一模型识别不足等问题,解决了对于单一学习器会造成泛化性能不佳问题。本专利技术的技术方案是:基于组合方法的越南语兼类词消歧方法,所述基于组合方法的越南语兼类词消歧方法的具体步骤如下:Step1、首先对越南语句子级词性标注语料,结合越南语兼类词字典,抽取得到越南语兼类词字段库,然后结合越南语语言和兼类词特点,获取越南语消歧特征;Step2、使用最大熵统计分析方法对已形成越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到最大熵的越南语兼类词消歧模型;Step3、使用条件随机场统计分析方法对已形成的越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到条件随机场的越南语兼类词消歧模型;Step4、使用支撑向量机统计分析方法对已形成的越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到支持向量机的越南语兼类词 ...
【技术保护点】
基于组合方法的越南语兼类词消歧方法,其特征在于:所述基于组合方法的越南语兼类词消歧方法的具体步骤如下:Step1、首先对越南语句子级词性标注语料,结合越南语兼类词字典,抽取得到越南语兼类词字段库,然后结合越南语语言和兼类词特点,获取越南语消歧特征;Step2、使用最大熵统计分析方法对已形成越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到最大熵的越南语兼类词消歧模型;Step3、使用条件随机场统计分析方法对已形成的越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到条件随机场的越南语兼类词消歧模型;Step4、使用支撑向量机统计分析方法对已形成的越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到支持向量机的越南语兼类词消歧模型;Step5、从越南语兼类词字段语料中随机选取部分测试语料分别通过已构建的最大熵的越南语兼类词消歧模型、条件随机场的越南语兼类词消歧模型、支持向量机的越南语兼类词消歧模型进行消歧,分别得到消歧的参数序列;Step6、对分别得到的消歧参数序列进行投票方法确定最终消歧结果,得到最终的兼类词消歧结果。
【技术特征摘要】
1.基于组合方法的越南语兼类词消歧方法,其特征在于:所述基于组合方法的越南语兼类词消歧方法的具体步骤如下:Step1、首先对越南语句子级词性标注语料,结合越南语兼类词字典,抽取得到越南语兼类词字段库,然后结合越南语语言和兼类词特点,获取越南语消歧特征;Step2、使用最大熵统计分析方法对已形成越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到最大熵的越南语兼类词消歧模型;Step3、使用条件随机场统计分析方法对已形成的越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到条件随机场的越南语兼类词消歧模型;Step4、使用支撑向量机统计分析方法对已形成的越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到支持向量机的越南语兼类词消歧模型;Step5、从越南语兼类词字段语料中随机选取部分测试语料分别通过已构建的最大熵的越南语兼类词消歧模型、条件随机场的越南语兼类词消歧模型、支持向量机的越南语兼类词消歧模型进行消歧,分别得到消歧的参数序列;Step6、对分别得到的消歧参数序列进行投票方法确定最终消歧结果,得到最终的兼类词消歧结果。2.根据权利要求1所述的基于组合方法的越南语兼类词消歧方法,其特征在于:所述步骤Step1的具体步骤为:Step1.1、首先利用网络爬虫程序,从互联网上爬取越南语网页语料;Step1.2、把已爬取出的越南语网页语料,经过过滤、去噪音等处理,构建出越南语文本级语料,并把越南语文本级语料存放到数据库中;Step1.3、从Step1.2数据库中取出越南语文本级越南语语料,经过人工处理形成越南语句子级语料,使用越南语分词工具对越南语句子级语料进行分词,并进行人工校对,形成越南语分词句子级语料库,并把越南语分词句子级语料库的语料存放到数据库中;Step1.4、从Step1.3数据库中取出已分词的越南语句子级语料,根据越南语词性标注工具进行越南语句子级分词语料进行词性标注,并进行人工校对,形成越南语词性句子级的语料库,并把越南语句子级词性语料库存放到数据中;Step1.5、从Step1.4数据库中取出越南语句子级词性标注语料,根据人工编写抽取越南语兼类词程序,结合越南语兼类词字典,进行抽取越南语的兼类词字段,形成越南语兼类词字段库,并把越南语兼类词字段库的字段存放到数据库中;Step1.6、根据越南语语言和兼类词特点,并对Step1.5数据库中越南语兼类词字段进行分析,选取越南语兼类词消歧特征,包括:词信息特征以及上下文特征、词性信息以及上下文特征、成分特征。3.根据权利要求2所述的基于组合方法的越南语兼类词消歧方法,其特征在于:所述步骤Step1.5的具体步骤:Step1.5.1、从Step1.4数据库中取出越南语句子级词性标注的语料,得到越南语句子级词性标注语料;Step1.5.2、从网站和字典中收集越南语字典,形成越南语字典;Step1.5.3、从Step1.5.2...
【专利技术属性】
技术研发人员:郭剑毅,刘艳超,余正涛,线岩团,严馨,文永华,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南;53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。