一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法技术

技术编号:13638437 阅读:105 留言:0更新日期:2016-09-03 03:37
本发明专利技术涉及一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法,属自然语言处理技术领域。本发明专利技术首先获取融合了越南语语言特点的PCFG模型中的语法规则概率;再制定越南语语言特征概率;将越南语语言特征概率作为语法规则概率的补充和语法规则概率一起融入到PCFG模型中,得到融合了越南语语言特点的PCFG模型;再进行初级越南语短语树库的构建;再利用短语树库校正器对新生成的越南语短语树库进行校正,最后得到最终的越南语短语树库。本发明专利技术避免了人工收集和标注越南语短语树库的过程,节省了人力和构建树库的时间;相比采用传统PCFG构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高。

【技术实现步骤摘要】

本专利技术涉及一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法,属于自然语言处理

技术介绍
越南与云南山水相连,两国人民之间的交往历史悠久,语言沟通在双方人民友好往来与相处、相互学习方面起到了十分重要的作用。因此,针对汉越双语的研究工作具有重要的现实意义。在越南语和汉语的互译过程中,越南语的句法分析是十分重要的基础工作。句法分析是根据给定的语法体系,自动推导出句子的语法结构,分析句子所包含的语法单元和这些语法单元之间的关系,将句子转化为一棵结构化的语法树。除了为词义消歧、语义分析提供技术支撑之外,句法分析的结果可直接用于机器翻译、问答系统、信息抽取等应用中,并改善应用的性能。目前的机器翻译系统越来越依赖于句法分析,串到树、树到串以及树到树的方法已经应用到机器翻译中,并在不断地提高机器翻译的准确率。短语结构分析法就是将句子切分成短语,分析出句子短语之间的层次关系。短语结构树主要是由终结点、非终结点以及短语标记构成的,其中最基本的成分是句法标记,也就是非终结点(例如名词短语NP、动词短语VP)。短语句法分析是机器分析语言句法特征非常有效的方法之一。越南语短语标注体系和越南语短语树库的构建,已经成为整个越南语短语句法分析的核心工作,如果能对该问题加以有效合理的解决,那么对对越南语的句法分析、机器翻译、信息抽取等上层应用可以提供有力支撑。
技术实现思路
本专利技术提供了一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法,以用于解决人工标注越南语短语树库比较困难的问题,构建规模较大的越南语短语树库比较稀缺的问题,本专利技术构建的越南语短语树库对越南语的句法分析、机器翻译、信息抽取等上层 应用能提供有力支撑。本专利技术的技术方案是:一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法,所述融合了越南语语言特点的PCFG模型的越南语短语树库构建方法的具体步骤如下:Step1、首先构建越南语短语树语料,并利用得到的语料获取融合了越南语语言特点的PCFG模型中的语法规则概率;Step2、分析越南语的语言特征,主要针对越南语状语后置和定语后置的特点,制定越南语语言特征概率;Step3、将越南语语言特征概率作为融合了越南语语言特点的PCFG模型中的语法规则概率的补充和语法规则概率一起融入到PCFG模型中,得到融合了越南语语言特点的PCFG模型;Step4、将爬取的越南语网页经过规则提取、去重、机器标注、人工校对形成越南语文本语料库,作为构建初级越南语短语树库的测试语料;Step5、把测试语料加载到融合了越南语语言特点的PCFG模型中进行初级越南语短语树库的构建;Step6、再利用短语树库校正器对新生成的越南语短语树库进行校正,最后得到最终的越南语短语树库。所述步骤Step1中,获取融合了越南语语言特点的PCFG模型中的语法规则概率的具体步骤如下:Step1.1、从VLSP的组块语料中获取分词以后的越南语句子;Step1.2、把得到的分词之后的越南语句子放在VLSP网站中分析得到对应的越南语短语树;Step1.3、对得到的越南语短语树进行人工校对,得到越南语短语树语料;Step1.4、将得到的越南语短语树语料利用Inside-Outside算法,获取融合了越南语语言特 点的PCFG模型中的语法规则概率。所述步骤Step4的具体步骤如下:Step4.1、对爬取的越南语语料进行预处理,去除html标签、格式标签、字符编码和噪音过滤等;Step4.2、从预处理得到的语料中提取出正文和标题;Step4.3、对Step4.2中得到的语料进行去重、机器标注处理,最后进行人工校对,形成越南语文本语料库,作为构建越南语短语树库的测试语料。本专利技术的有益效果是:1、构建的越南语短语树库对越南语的句法分析、机器翻译、信息抽取等上层应用能提供有力支撑;2、构建了规模相对较大的越南语短语树语料库;3、本专利技术提出的构建短语树的方法省略了人工收集和标注越南语短语树库的过程,大大的节省了人力和构建树库的时间;4、本专利技术提出的构建短语树的方法在语料规模较小的情况下相比采用传统PCFG构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高。附图说明图1为本专利技术中的流程图。具体实施方式实施例1:如图1所示,一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法。融合语言特点与上下文无关文法(PCFG)的越南语短语树库构建方法的具体步骤如下:Step1、首先构建越南语短语树语料,并利用得到的语料获取融合了越南语语言特点的PCFG模型中的语法规则概率;Step2、分析越南语的语言特征,主要针对越南语状语后置和定语后置的特点,制定越南语语言特征概率;Step3、将越南语语言特征概率作为融合了越南语语言特点的PCFG模型中的语法规则概率的补充和语法规则概率一起融入到PCFG模型中,得到融合了越南语语言特点的PCFG模型;Step4、将爬取的越南语网页经过规则提取、去重、机器标注、人工校对形成越南语文本语料库,作为构建初级越南语短语树库的测试语料;Step5、把测试语料加载到融合了越南语语言特点的PCFG模型中进行初级越南语短语树库的构建;Step6、再利用短语树库校正器对新生成的越南语短语树库进行校正,最后得到最终的越南语短语树库。所述步骤Step1中,获取融合了越南语语言特点的PCFG模型中的语法规则概率的具体步骤如下:Step1.1、从VLSP的组块语料中获取分词以后的越南语句子;Step1.2、把得到的分词之后的越南语句子放在VLSP网站中分析得到对应的越南语短语树;Step1.3、对得到的越南语短语树进行人工校对,得到越南语短语树语料;Step1.4、将得到的越南语短语树语料利用Inside-Outside算法,获取融合了越南语语言特点的PCFG模型中的语法规则概率。所述步骤Step4的具体步骤如下:Step4.1、对爬取的越南语语料进行预处理,去除html标签、格式标签、字符编码和噪音过滤等;Step4.2、从预处理得到的语料中提取出正文和标题;Step4.3、对Step4.2中得到的语料进行去重、机器标注处理,最后进行人工校对,形成越 南语文本语料库,作为构建初级越南语短语树库的测试语料。其中,所述步骤Step1中首先构建越南语短语树语料,并利用得到的语料获取融合了越南语语言特点的PCFG模型中的语法规则概率,具体的包含部分语法规则概率的选取结果如表1所示;表1部分越南语语法规则概率示例语法规则 概率值 S->NP VP 0.5 S->PP PU 0.05 S->VP 0.1 S->VP PU 0.1 S->NP 0.05 构建一定数量的越南语短语树语料是进行越南语短语树库构建的基础。只有建设出高质量的语料,才能以之为基础进行信息化开发工作。短语树语料也是进行融合语言特点PCFG短语树库构建研究不可缺少的一个组成部分。构建一定数量的短语树语料具体步骤如下:1)、从VLSP平台的组块语料中获取分词以后的越南语句子;首先在VLSP平台上下载越南语组块的语料,提取分词得到的越南语单句3000句。2)、把得到的分词之后的越南语句子放在VLSP平台中分析得到对应的越南语短语树;把得本文档来自技高网...

【技术保护点】
一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法,其特征在于:所述融合了越南语语言特点的PCFG模型的越南语短语树库构建方法的具体步骤如下:Step1、首先构建越南语短语树语料,并利用得到的语料获取融合了越南语语言特点的PCFG模型中的语法规则概率;Step2、分析越南语的语言特征,主要针对越南语状语后置和定语后置的特点,制定越南语语言特征概率;Step3、将越南语语言特征概率作为融合了越南语语言特点的PCFG模型中的语法规则概率的补充和语法规则概率一起融入到PCFG模型中,得到融合了越南语语言特点的PCFG模型;Step4、将爬取的越南语网页经过规则提取、去重、机器标注、人工校对形成越南语文本语料库,作为构建初级越南语短语树库的测试语料;Step5、把测试语料加载到融合了越南语语言特点的PCFG模型中进行初级越南语短语树库的构建;Step6、再利用短语树库校正器对新生成的越南语短语树库进行校正,最后得到最终的越南语短语树库。

【技术特征摘要】
1.一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法,其特征在于:所述融合了越南语语言特点的PCFG模型的越南语短语树库构建方法的具体步骤如下:Step1、首先构建越南语短语树语料,并利用得到的语料获取融合了越南语语言特点的PCFG模型中的语法规则概率;Step2、分析越南语的语言特征,主要针对越南语状语后置和定语后置的特点,制定越南语语言特征概率;Step3、将越南语语言特征概率作为融合了越南语语言特点的PCFG模型中的语法规则概率的补充和语法规则概率一起融入到PCFG模型中,得到融合了越南语语言特点的PCFG模型;Step4、将爬取的越南语网页经过规则提取、去重、机器标注、人工校对形成越南语文本语料库,作为构建初级越南语短语树库的测试语料;Step5、把测试语料加载到融合了越南语语言特点的PCFG模型中进行初级越南语短语树库的构建;Step6、再利用短语树库校正器对新生成的越南语短语树库进行校正,最后得到最终的越南语短语树库。2.根据权利要求1所述的融合了越南语语言特点的PCFG模型的越...

【专利技术属性】
技术研发人员:郭剑毅李英余正涛线岩团毛存礼陈玮
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1