短句解析模型建立方法及系统技术方案

技术编号：10751658 阅读：119 留言：0更新日期：2014-12-11 09:53

本发明专利技术公开了一种短句解析模型建立方法及系统。该短句解析模型建立方法，包括以下步骤：获取原始语句；将原始语句切分为词序列；为词序列中的每个词赋予词性；根据各个词及其词性识别命名实体；根据各个词、词性及命名实体识别各个词在原始语句中的语法成分；分析各个语法成分之间的依存关系；根据各个语法成分之间的依存关系，抽取语法成分作为特征；将抽取的特征构建为特征向量，并两两组合形成二元分类的特征组合；将特征向量及二元分类的特征组合存储至模型中。本发明专利技术的短句解析模型建立方法及系统能够根据实际数据进行优化，在一定程度上模拟自然语言中局部的约束关系，从而大大提高了对于自然语言短句的识别解析的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
短句解析模型建立方法及系统
本专利技术涉及一种短句解析模型建立方法及系统。
技术介绍
在语音信号处理、语音识别、语音合成及自然语言理解等各项技术得到迅猛发展的今天，语音查询具有很高的研究价值，其应用也必将带来很好的社会、经济效益。在语音查询中，短句的自然语言理解与解析是影响语音查询结果的关键。如何针对自然语言实现提高自然语言理解与解析的准确度进而提升语音查询系统准确率是一个重要的问题。传统的短句的自然语言解析方法通常是基于规则的方法，其核心思想是用文法来描述语言、分析语言。首先确定句子是否符合预先设定的规范，然后在文法规则各种各样的组合方式之中，找出一种可能是该句子文法树结构的组合方式的搜索过程。基于规则的自然语言解析方法在实际的使用场合其表现往往不如基于统计的经验主义方法那样好。因为基于统计的经验主义方法可以根据实际训练数据的情况不断地优化，而基于规则的理性主义方法很难根据实际的数据进行调整。并且基于规则的方法很难模拟语言中局部的约束关系。然而由于语音识别的特点，用户查询在语音识别过程中就有可能产生识别结果的错误，再将此查询字符串进行基于规则的自然语言理解和解析会使得准确性进一步下降，如何建立基于查询需求的更好的语言模型，将得到结果应用到提升短句的自然语言解析系统是迫切需要解决的问题。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中的自然语言解析方法很难根据实际数据进行优化，难以模拟语言中局部的约束关系，从而导致对于短句的识别解析的准确性不够高的缺陷，提出一种短句解析模型建立方法及系统。本专利技术是通过下述技术方案来解决上述技术问题的：本专利技...

【技术保护点】
一种短句解析模型建立方法，其特征在于，包括以下步骤：S1、获取原始语句；S2、将原始语句切分为词序列；S3、根据预存的词性规则为该词序列中的每个词赋予一词性；S4、根据各个词及其词性识别命名实体，命名实体包括人名、地名、机构名；S5、根据各个词、词性及命名实体识别各个词在原始语句中的语法成分；S6、分析各个语法成分之间的依存关系；S7、根据各个语法成分之间的依存关系，抽取语法成分作为特征；S8、将抽取的特征构建为特征向量，并使用二次多项式核对特征向量中的特征进行两两组合形成二元分类的特征组合；S9、将特征向量及二元分类的特征组合存储至一模型中。

【技术特征摘要】
1.一种短句解析模型建立方法，其特征在于，包括以下步骤：S1、获取原始语句；S2、将原始语句切分为词序列；S3、根据预存的词性规则为该词序列中的每个词赋予一词性；S4、根据各个词及其词性识别命名实体，命名实体包括人名、地名、机构名；S5、根据各个词、词性及命名实体识别各个词在原始语句中的语法成分；S6、分析各个语法成分之间的依存关系；S7、根据各个语法成分之间的依存关系，抽取语法成分作为特征；S8、将抽取的特征构建为特征向量，并使用二次多项式核对特征向量中的特征进行两两组合形成二元分类的特征组合；S9、将特征向量及二元分类的特征组合存储至一模型中。2.如权利要求1所述的短句解析模型建立方法，其特征在于，该步骤S4包括以下步骤：S41、采用底层隐马尔可夫模型识别普通无嵌套的命名实体，并获取若干最佳识别结果；S42、采用高层隐马尔可夫模型、并利用该若干最佳识别结果，识别具有嵌套结构的命名实体。3.如权利要求2所述的短句解析模型建立方法，其特征在于，该步骤S41和S42中的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。4.如权利要求1-3中任意一项所述的短句解析模型建立方法，其特征在于，该步骤S5还包括：根据各个词、词性及命名实体识别各个词并标识动词性谓词及其语义，并根据预存的一词表从各个词中找出有可能充当动词的名词，并进行标识为谓词。5.如权利要求1所述的短句解析模型建立方法，其特征在于，该步骤S8中抽取的特征包括句法成分特征和谓词特征，谓词特征包括谓词原形、谓词语态、子类框架。6.一种短句解析模型建立系统，其特征在于，包括：...

【专利技术属性】
技术研发人员：刘新，
申请(专利权)人：携程计算机技术上海有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人