一种基于条件随机场和转换学习越南语组块方法技术

技术编号:13306806 阅读:58 留言:0更新日期:2016-07-10 02:06
本发明专利技术涉及一种基于条件随机场和转换学习越南语组块方法,属于自然语言处理技术领域。本发明专利技术包括步骤:首先对越南语语料进行预处理,得到句子级的越南语组块训练语料;从数据库中提取出句子级的越南语组块训练语料并对其进行组块建模,得到越南语组块条件随机场模型;获取转换方式集合;把待组块的越南语句子级测试语料通过已建好的越南语组块条件随机场模型和已获取的转换方式集合进行组块标记,得到越南语的组块标记结果。本发明专利技术对越南语句子实现了有效的组块分析,为短语树、语义分析和机器翻译等工作做铺垫;通过与现有的越南语组块工具比较,本文的越南语组块方法在准确率、召回率和F值都有明显的提高。

【技术实现步骤摘要】

本专利技术涉及一种基于条件随机场和转换学习越南语组块方法,属于自然语言处理

技术介绍
中国—东盟自由贸易区是世界上人口最多的自由贸易区,“桥头堡战略”是推进我国向西南开发、实现与东盟国家睦邻友好的战略需要,云南是中国向西南开放的重要桥头堡,语言上的沟通是实现中国与东盟国家之间政治、文化、经济交流的前提。东盟成员国越南与云南山水相连,两国人民之间的交往历史悠久,语言沟通在双方边境人民友好相处,相互学习方面起到了十分重要的作用。所以,针对越南语语言方面的研究工作就显得尤为重要。机器翻译过程中,句法分析是十分重要的工作,但是对于完全句法分析,目前效果离预期的效果相差很远,于是,提出分而治之的思想,对越南语句子逐步分解去分析显得尤为重要。越南语的结构相对比较简单,词语之间的从属关系清晰明确,所以相对于部分的句法分析,越南语更适合采用从部分句法分析再到完全句法分析,唯有这一个过度的转换,才能更好为完全句法分析提供平台;越南语组块语料库构建,已经成为整个越南语部分句法分析和完全句法分析的核心工作,如果能对该问题加以有效合理的解决,那么对对越南语的短语树构建、完全句法分析、机器翻译、信息获取等上层应用可以提供有力支撑。
技术实现思路
本专利技术提供了一种基于条件随机场和转换学习越南语组块方法,以用于解决越南语组块识别正确率不高的问题,能对对越南语的短语树构建、完全句法分析、机器翻译、信息获取等上层应用可以提供有力支撑。本专利技术的技术方案是:一种基于条件随机场和转换学习越南语组块方法,所述基于条件随机场和转换学习越南语组块方法的具体步骤如下:Step1、首先对越南语语料进行预处理,得到句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中;Step2、从数据库中提取出句子级的越南语组块训练语料并对其进行组块建模,得到越南语组块条件随机场模型;Step3、用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合;Step4、把待组块的越南语句子级测试语料通过已建好的越南语组块条件随机场模型和已获取的转换方式集合进行组块标记,得到越南语的组块标记结果。所述步骤Step1中预处理的具体步骤如下:Step1.1、利用爬虫程序,从互联网上爬取出越南语网页信息;Step1.2、把爬取的网页信息进行过滤处理,构建出越南语文本语料库,通过分词工具进行语料的分词处理,形成了已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中;Step1.3、从数据库中取出已分词的句子级越南语文本语料,使用越南语的词性标注工具进行标注,得到句子级的越南语词性标注语料,并进行人工校对,最后并把句子级的越南语词性标注语料存放到数据库中;Step1.4、从数据库中取出已标注好词性的越南语句子,经过人工标注越南语组块最终形成了句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中。所述步骤Step2中,构建越南语组块条件随机场模型的具体步骤如下:Step2.1、从数据库中获取已处理好的句子级越南语组块训练语料;Step2.2、根据越南语的语言和语句特点,从步骤Step2.1中的句子级越南语组块训练语料中提取越南语的特征,提取的越南语的特征包括:词特征、词性特征以及上下文信息特征;Step2.3、根据提取的越南语的特征,构建越南语组块条件随机场模型中所需要的越南语的基本特征模板;Step2.4、把步骤Step2.1中从数据库中取到的句子级越南语组块训练语料,根据制定了越南语组块条件随机场模型中所需要的越南语的基本特征模板,用条件随机场统计工具进行训练分析,得到越南语组块条件随机场模型。所述步骤Step3中,获取转换方式集合的具体步骤如下:Step3.1、从数据库中获取步骤Step1中预处理时得到的句子级的越南语词性标注语料用于转换学习句子级越南语的组块训练语料;Step3.2、把Step3.1中从数据库中获取到的用于转换学习的句子级越南语组块训练语料,经过已建好的越南语组块条件随机场模型的训练,得到初步的句子级越南语组块语料标记序列,并把得到的句子级初步标记的越南语组块语料结果存放到数据库中;Step3.3、根据越南语的语言和语句特点,从Step3.2中初步标记的越南语组块语料中,提取越南语的特征,提取的特征包括:词特征、词性特征、组块标记特征;Step3.4、根据提取的越南语特征,制定了转换学习过程中所需要的越南语的转换基本特征模板;Step3.5、把Step3.2中获取的句子级初步标记的越南语组块语料结果与步骤Step1中得到的标准的句子级的越南语组块训练语料作为训练语料,根据转换基本特征模板,用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合。所述步骤Step4中,待组块的越南语句子级测试语料进行组块标记的具体步骤如下:Step4.1、从数据库中取出步骤Step1中预处理时得到的句子级的越南语词性标注语料作为待组块的越南语句子级测试语料;Step4.2、首先,把待组块的越南语句子级测试语料放入到越南语组块条件随机场模型中,训练得到初步越南语组块标记结果序列;Step4.3、再把步骤Step4.2中得到的初步越南语组块标记结果序列,经过转换方式集合的转换,最终得到越南语的组块标记结果。所述步骤Step1.1中,根据网页特点,制定网页爬取模板,通过爬取程序爬取越南语网页的相关语料。所述步骤Step1.2的具体步骤为:Step1.2.1、对爬取到的越南语语料,进行去噪音、去重等操作,形成句子级的越南语文本语料库;Step1.2.2、对得到的句子级的越南语文本语料库,使用分词工具包进行句子级的越南语文本语料库分词,得到已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中。所述步骤Step1.3的具体步骤为:Step1.3.1、对得到的已分词的句子级越南语文本语料,使用越南语的词性标记工具包进行标记,得到句子级的越南语词性标注语料;Step1.3.2、通过人工校对的方式对句子级的越南语词性标注语料进行校对,最后并把句子级的越南语词性标注语料存放到数据库中。本专利技术的有益效果是:1、本文提出的基于条件随机场和转换学习的越南语组块方法,对越南语句子实现了有效的本文档来自技高网...

【技术保护点】
一种基于条件随机场和转换学习越南语组块方法,其特征在于:所述基于条件随机场和转换学习越南语组块方法的具体步骤如下:Step1、首先对越南语语料进行预处理,得到句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中;Step2、从数据库中提取出句子级的越南语组块训练语料并对其进行组块建模,得到越南语组块条件随机场模型;Step3、用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合;Step4、把待组块的越南语句子级测试语料通过已建好的越南语组块条件随机场模型和已获取的转换方式集合进行组块标记,得到越南语的组块标记结果。

【技术特征摘要】
1.一种基于条件随机场和转换学习越南语组块方法,其特征在于:所述基于条件随机场
和转换学习越南语组块方法的具体步骤如下:
Step1、首先对越南语语料进行预处理,得到句子级的越南语组块训练语料,作为标准的
句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中;
Step2、从数据库中提取出句子级的越南语组块训练语料并对其进行组块建模,得到越南
语组块条件随机场模型;
Step3、用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合;
Step4、把待组块的越南语句子级测试语料通过已建好的越南语组块条件随机场模型和已
获取的转换方式集合进行组块标记,得到越南语的组块标记结果。
2.根据权利要求1所述的基于条件随机场和转换学习越南语组块方法,其特征在于:所
述步骤Step1中预处理的具体步骤如下:
Step1.1、利用爬虫程序,从互联网上爬取出越南语网页信息;
Step1.2、把爬取的网页信息进行过滤处理,构建出越南语文本语料库,通过分词工具进
行语料的分词处理,形成了已分词的句子级越南语文本语料,并进行人工校对,最后把越南
语的文本语料库和已分词的句子级越南语文本语料存放到数据库中;
Step1.3、从数据库中取出已分词的句子级越南语文本语料,使用越南语的词性标注工具
进行标注,得到句子级的越南语词性标注语料,并进行人工校对,最后并把句子级的越南语
词性标注语料存放到数据库中;
Step1.4、从数据库中取出已标注好词性的越南语句子,经过人工标注越南语组块最终形
成了句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级
的越南语组块语料保存到数据库中。
3.根据权利要求1所述的基于条件随机场和转换学习越南语组块方法,其特征在于:所
述步骤Step2中,构建越南语组块条件随机场模型的具体步骤如下:
Step2.1、从数据库中获取已处理好的句子级越南语组块训练语料;
Step2.2、根据越南语的语言和语句特点,从步骤Step2.1中的句子级越南语组块训练语料
中提取越南语的特征,提取的越南语的特征包括:词特征、词性特征以及上下文信息特征;
Step2.3、根据提取的越南语的特征,构建越南语组块条件随机场模型中所需要的越南语
的基本特征模板;
Step2.4、把步骤Step2.1中从数据库中取到的句子级越南语组块训练语料,根据制定了越
南语组块条件随机场模型中所需要的越南语的基本特征模板,用条件随机场统计工具进行训

\t练分析,得到越南语组块条件随机场模型。
4.根据权利要求1所述的基于条件随机场和转换学习越南语组块方法,其特征在于:所
述步骤Step3中,获取转换方式集合的具体步骤如下:
Step3.1、从数据库中获取步骤Step1中预处理时得到的句子级的越...

【专利技术属性】
技术研发人员:余正涛刘艳超郭剑毅
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1