基于条件随机场的越南语组合词消歧方法技术

技术编号:14129247 阅读:112 留言:0更新日期:2016-12-09 17:33
本发明专利技术涉及基于条件随机场的越南语组合词消歧方法,属于自然语言处理技术领域。本发明专利技术包括步骤:首先构建越南语组合词歧义字段库;从越南语组合词歧义字段库提取越南语组合词歧义字段特征;再建立基于条件随机场的越南语组合词歧义消歧模型;根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。本发明专利技术对越南语组合词实现了有效的消歧,为词性标注、词法分析、语义分析、信息抽取、信息检索和机器翻译等工作提供强有力的支撑;目前没有发现越南语做相关的组合歧义消歧的研究报告,本发明专利技术取得了较好的效果。

【技术实现步骤摘要】

本专利技术涉及基于条件随机场的越南语组合词消歧方法,属于自然语言处理

技术介绍
组合词歧义消歧逐渐成为搜索资源的热点,组合歧义给分词、实体识别、搜索引擎等应用上带来了诸多不利的影响,当进行检索时,搜索引擎会返回大量包含该检索的网页,而且这些网页可能描述多个实体,同时实体有很高的歧义性,多个实体组合一个实体或者其他组合实体名。越南语组合词歧义消歧是分词、词性标注等工作中的主要环节,同时歧义消歧可以提高越南语上层的词法分析、句法分析、语义分析以及机器翻译等应用效果,起着极其重要的作用。在各类越南语信息处理软件或者系统中,越南语组合词歧义消歧是越南语歧义消歧之中最难的工作,组合型歧义的消解需要根据字段特征、上下文信息甚至是建立一个较完善的组合词词典,组合词歧义的消解是各种语言信息处理的难中之难。
技术实现思路
本专利技术提供了基于条件随机场(CRFs)的越南语组合词消歧方法,以用于解决越南语组合词的消岐以及高精度组合词消岐的问题。本专利技术的技术方案是:基于条件随机场的越南语组合词消歧方法,所述基于条件随机场的越南语组合词消歧方法的具体步骤如下:Step1、首先,构建了越南语组合词字典,根据抽取组合词歧义字段方法,从越南语分词句子级语料中提取越南语组合词歧义字段,构建越南语组合词歧义字段库;之所以从越南语分词句子级语料中提取越南语组合词歧义字段,是因为组合词歧义字段,不能在其他地方获取,也没有相关资料可以拿使用,只能从越南语分词句子级语料中提取;Step2、从越南语组合词歧义字段库提取越南语组合词歧义字段特征;Step3、根据提取的越南语组合词歧义字段特征,制定条件随机场模型中所需要的基本特征模板训练样式语料;来让条件随机场模型学习组合词歧义字段特征信息,得到所对应的组合词消歧模型,实现模型的自动消歧;Step4、把得到的基本特征模板训练样式语料,用条件随机场模型进行训练,得到组合词歧义消歧模型参数序列,从而建立基于条件随机场的越南语组合词歧义消歧模型;Step5、把待消歧的越南语组合词歧义字段,放入基于条件随机场的越南语组合词歧义消歧模型中,根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。优选地,所述步骤Step1中,抽取组合词歧义字段方法,得到越南语组合词歧义字段的具体步骤为:Step1.1、使用分词工具对越南语分词句子级语料进行分词,得到分词语料;Step1.2、从网站和字典中收集越南语组合词,形成越南语组合词词典;Step1.3、然后将分词语料与越南语组合词词典进行匹配;组合词在越南语语料中是普遍存在的,很难运用现有的工具把组合词从语料中抽取出来,只有通过先建立好的越南语组合词字典与分词语料进行一一对应的匹配,才能准确的把组合词抽取出来;Step1.4、获取越南语组合词歧义片段;如果词素A和词素B都在越南语组合词词典中,并且AB组成的词也在越南语组合词字典中,则取出词组AB,词组AB的元素为越南语组合词歧义片段;Step1.5、根据取出组合词歧义片段提取词组AB前后2个词,拼接成组合词歧义字段。取出组合词歧义片段词组AB前后2个词,更好的保留组合词所在语料中的语境信息,能更好的建立组合词歧义特征,使消歧结果更好;经过查询大量论文,得出取前后1个词效果不好,取前后3个词影响的因素又太多,所以取前后2个词更好;其中,根据抽取组合词歧义字段方法,能构建出越南语字典60951条(组合词),抽取越南语组合歧义字段8619条,从而能更好的进行对越南语组合歧义消歧的下一步工作。优选地,所述步骤Step1.1中,获取越南语分词句子级语料的具体步骤为:Step1.1.1、构建爬虫程序,爬取出网页信息;Step1.1.2、对网页信息数据进行预处理,包括:去重处理,去除垃圾广告等,构建出越南语文本语料库;Step1.1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料。优选地,所述步骤Step2中,提取的越南语组合词歧义字段特征包括:词频特征、语境信息特征、词内特征。(1)、选取的词频特征:如果用XY来表示组合词歧义片段,则考虑一下两类统计信息:1.X与Y的独立成词概率是否大于XY;2.XY组成词的概率是否大于X或Y。以上可以分别作为CRFs模型词频特征,分别定义如下:表1词频特征以上的概率统计是在已经人工标注好的8619条越南语分词句子中进行统计计算。(2)、选取的组合词歧义的语境信息特征:只判断当前歧义字段的词频特征可能有些片面,有时候还需要借助语境信息特征才能确定切分方案,可见组合词歧义片段的语境信息对歧义的切分有密切的关系。考虑到对歧义片段的正确切分的影响,这里只考虑与歧义字段最近的语境,也就是前一个词和后一个词。比如包含歧义的句子:“/bán nhà/ngàyqua.(昨天我已经卖掉了我的房子)”,其中歧义片段为:“bán nhà(卖出的房子)”,则它的前一个词为“(有)”,后一个词为“ngày(天)”。(3)、选取的组合词歧义字段词内特征:组合词歧义字段词内特征,主要是从歧义自身的形态、歧义字段的前段分量和后段分量来看的,比如歧义字段:“nhu’(所以)”,它的形态为:“11”,前段分量为“nhu’(像)”,后段分量为“(从而)”;又如:“cólà(大概)”,它的形态为:“21”,前段分量为“có(可)”,后段分量为:“(是)”;还有“uy(敌人威胁)”,它的形态为:“21”,前段分量为“uy(威胁)”,后段分量为“(敌人)”。表2三种特征本专利技术的有益效果是:1、本专利技术的基于条件随机场的越南语组合词歧义消歧方法,对越南语的组合词歧义字段的消歧做了前所未有的工作,特别是人工抽取的越南语组合词,做了大量的实验前准备工作,提出的组合词歧义字段抽取方法,能有效的抽取出实验所需要的越南语组合词歧义语料,最终通过本专利技术提出的实验方法,能对越南语组合词进行有效的消歧;2、本专利技术的基于条件随机场的越南语组合词歧义消歧方法,能对越南语组合词进行有效的消歧,提升分词、实体识别、搜索引擎等应用的准确率,同时能提高越南语上层的词法分析、句法分析、语义分析以及机器翻译等应用效果。附图说明图1为本专利技术中的整体流程图;图2为本专利技术中抽取组合词歧义字段方法的流程图;图3为本专利技术中五倍交叉验证实验的结果图;图4为本专利技术实施例中三种模型对比实验的结果图。具体实施方式实施例1:如图1-4所示,基于条件随机场的越南语组合词消歧方法,所述基于条件随机场的越南语组合词消歧方法的具体步骤如下:Step1、首先,构建了越南语组合词字典,根据抽取组合词歧义字段方法,从越南语分词句子级语料中提取越南语组合词歧义字段,构建越南语组合词歧义字段库;之所以从越南语分词句子级语料中提取越南语组合词歧义字段,是因为组合词歧义字段,不能在其他地方获取,也没有相关资料可以拿使用,只能从越南语分词句子级语料中提取;Step2、从越南语组合词歧义字段库提取越南语组合词歧义字段特征;Step3、根据提取的越南语组合词歧义字段特征,制定条件随机场模型中所需要的基本特征模板训练样式语料;来让条件随机场模型学习组合词歧义字段特征信息,得到所对应的组合词消歧模型,实现模型的自动消歧;Step4、本文档来自技高网...
基于条件随机场的越南语组合词消歧方法

【技术保护点】
基于条件随机场的越南语组合词消歧方法,其特征在于:所述基于条件随机场的越南语组合词消歧方法的具体步骤如下:Step1、首先,构建了越南语组合词字典,根据抽取组合词歧义字段方法,从越南语分词句子级语料中提取越南语组合词歧义字段,构建越南语组合词歧义字段库;Step2、从越南语组合词歧义字段库提取越南语组合词歧义字段特征;Step3、根据提取的越南语组合词歧义字段特征,制定条件随机场模型中所需要的基本特征模板训练样式语料;Step4、把得到的基本特征模板训练样式语料,用条件随机场模型进行训练,得到组合词歧义消歧模型参数序列,从而建立基于条件随机场的越南语组合词歧义消歧模型;Step5、把待消歧的越南语组合词歧义字段,放入基于条件随机场的越南语组合词歧义消歧模型中,根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。

【技术特征摘要】
1.基于条件随机场的越南语组合词消歧方法,其特征在于:所述基于条件随机场的越南语组合词消歧方法的具体步骤如下:Step1、首先,构建了越南语组合词字典,根据抽取组合词歧义字段方法,从越南语分词句子级语料中提取越南语组合词歧义字段,构建越南语组合词歧义字段库;Step2、从越南语组合词歧义字段库提取越南语组合词歧义字段特征;Step3、根据提取的越南语组合词歧义字段特征,制定条件随机场模型中所需要的基本特征模板训练样式语料;Step4、把得到的基本特征模板训练样式语料,用条件随机场模型进行训练,得到组合词歧义消歧模型参数序列,从而建立基于条件随机场的越南语组合词歧义消歧模型;Step5、把待消歧的越南语组合词歧义字段,放入基于条件随机场的越南语组合词歧义消歧模型中,根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。2.根据权利要求1所述的基于条件随机场的越南语组合词消歧方法,其特征在于:所述步骤Step1中,抽取组合词歧义字段方法,得到越南语组合词歧义字段的具体步骤为:Step1.1、使用分词工具对越南语分词句子级语料进行分词,...

【专利技术属性】
技术研发人员:郭剑毅李佳余正涛毛存礼线岩团陈玮
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1