一种中文语义解析方法及装置制造方法及图纸

技术编号:22330148 阅读:39 留言:0更新日期:2019-10-19 12:17
本发明专利技术涉及一种中文语义解析方法及装置,包括:获取中文目标文本,利用句法分析工具获取中文目标文本中所包含的命名实体词及命名实体词之间的关系词;向量化组成中文目标文本的各词语和命名实体词及命名实体词之间的关系词,得到词向量,将词向量进行独热编码one‑hot,得到词向量的离散特征向量;采用词嵌入工具对中文目标文本进行语义特征抽取,得到中文目标文本中词向量的连续特征向量;将连续特征向量和离散特征向量进行语义解析,得到中文目标文本的第一语义解析结果;结合知识库对第一语义解析结果进行修正,得到中文目标文本的第二语义解析结果。本发明专利技术提高了对中文目标文本的抽象语义的解析能力。

【技术实现步骤摘要】
一种中文语义解析方法及装置
本专利技术涉及自然语言处理领域,尤其涉及一种中文语义解析方法及装置。
技术介绍
近年来,语义解析领域成为了自然语言处理中的研究热点,同时神经网络技术也用在了自然语言处理的各个方面,因此结合神经网络技术的高效表达能力而构建的语义解析研究十分重要。通过将自然语言解析成各种设计好的语义表示一直以来都是自然语言处理的重要研究内容,常见的语义表示结构有:基于lambda表达式的逻辑语义表示、基于组合范畴语法(CCG)的语法和语义表示和基于知识库的语义知识表示等。传统的语义解析方法通常使用SVM、线性回归、随机森林等传统的机器学习方法对自然语言句子进行解析;这些方法在一定程度上能获得符合逻辑的语义表示,但是需要事先定义非常复杂的启发式规则和外部知识并且传统的语义表示所包含的语义比较少。抽象语义表示(AMR),是近年来新提出的一种语义表示,其将自然语言句子表示成富含语义信息的有向无环图;该结构的目标是从句子中抽取丰富的语义信息构建一个支持不同语言的统一结构表示来为其他潜在的自然语言处理任务提供帮助,例如:机器翻译、文本生成、句子匹配等。如何能够提升语义解析的能力,是当前的一个研究方向。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足,提供一种中文语义解析方法及装置。本专利技术解决上述技术问题的技术方案如下:一种中文语义解析方法,包括:S1、获取中文目标文本,利用句法分析工具获取所述中文目标文本中所包含的命名实体词及所述命名实体词之间的关系词;向量化组成所述中文目标文本的各词语和所述命名实体词及所述命名实体词之间的关系词,得到词向量,将所述词向量进行独热编码one-hot,得到所述词向量的离散特征向量;采用词嵌入工具对所述中文目标文本进行语义特征抽取,得到所述中文目标文本中词向量的连续特征向量;S2、将所述连续特征向量和所述离散特征向量进行语义解析,得到所述中文目标文本的第一语义解析结果;S3、结合知识库对所述第一语义解析结果进行修正,得到所述中文目标文本的第二语义解析结果。本专利技术的有益效果是:通过句法分析工具获取中文目标文本中的命名实体词和命名实体词之间的关系词,向量化组成中文目标文本的各词语和命名实体词及命名实体词之间的关系词,得到词向量,将所述词向量进行独热编码one-hot,得到所述词向量的离散特征向量,采用词嵌入工具对中文目标文本进行语义特征抽取,得到中文目标文本中词向量的连续特征向量,将得到的离散特征和连续特征进行语义解析,得到中文目标文本的第一语义解析结果,结合知识库对第一语义解析结果进行修正,得到中文目标文本的第二语义解析结果,结合获取到的离散特征向量和连续特征向量就中文目标文本进行语义解析,提高了对中文目标文本的语义的解析能力。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步地,所述步骤S2中的所述解析过程具体包括:将所述连续特征向量和所述离散特征向量放入堆中;将所述堆中的所有特征向量按照存储的顺序输入softmax分类器,得到分类结果;根据所述分类结果,确定并执行所述堆和栈所要执行的操作。进一步地,所述根据所述分类结果,确定并执行所述堆和栈所要执行的操作,具体包括:当所述分类结果为移动时,执行Shift操作,包括将所述堆中的第一个特征向量放入栈中;当所述分类结果为弹出时,执行Larc操作,包括将所述栈中的前两个特征向量使用关系词按照前一个词连接后一个词的顺序,从所述栈中弹出连接后的特征向量;当所述分类结果为连接时,执行RArc操作,包括将所述栈中前两个特征向量使用关系词按照后一个词连接前一个词的顺序;当所述分类结果为减少时,执行Reduce操作,包括将所述栈中的第一个特征向量弹出;当所述分类结果为去环时,执行ReEnt操作,包括将所述栈中的第一个特征向量放入所述堆的底部。进一步地,所述步骤S2中得到第一语义解析结果具体包括:在所述要执行的操作完成后,所述堆和栈同时为空时,所述堆和栈中的所述连续特征和所述离散特征处理完成,得到所述中文目标文本的第一语义解析结果。进一步地,所述S1中获取中文目标文本,向量化组成所述中文目标文本的各词,得到词向量,具体包括:通过句法分析工具得到所述中文目标文本中的词语、词语的词性、所述词语和词性与所述中文目标文本的依存关系、命名实体词及所述命名实体词之间的关系词,作为所述中文目标文本的词向量。进一步的,所述步骤S3具体包括:通过知识库识别所述中文目标文本的命名实体词及命名实体词之间的关系词;根据所述中文目标文本的命名实体词及命名实体词之间的关系词,将所述中文目标文本的第一语义解析结果中的命名实体词及命名实体词间的关系词进行改正,得到所述中文目标文本的第二语义解析结果。进一步的,所述知识库包括命名实体和命名实体间的关系。采用上述进一步方案的有益效果是:设置栈和堆,将中文目标文本中的词向量的连续特征向量和离散特征向量输入栈和堆中,依据softmax分类器对特征向量的分类结果,进行不同的操作,直到最后完成了堆和栈的操作,得到中文目标文本的第一语义解析结果,通过知识库中的命名实体和命名实体间的关系,对第一语义解析结果进行修正,得到中文目标文本的第二语义解析结果,增强了中文语义的解析能力。本专利技术解决上述技术问题的另一种技术方案如下:一种中文语义解析装置,包括:分解模块,用于获取中文目标文本,利用句法分析工具获取所述中文目标文本中所包含的命名实体词及所述命名实体词之间的关系词;向量化组成所述中文目标文本的各词语和所述命名实体词及所述命名实体词之间的关系词,得到词向量,将所述词向量进行独热编码one-hot,得到所述词向量的离散特征向量;采用词嵌入工具对所述中文目标文本进行语义特征抽取,得到所述中文目标文本中词向量的连续特征向量;解析模块,用于将所述连续特征向量和所述离散特征向量进行语义解析,得到所述中文目标文本的第一语义解析结果;修正模块,用于结合知识库对所述第一语义解析结果进行修正,得到所述中文目标文本的第二语义解析结果。本专利技术的有益效果是:通过分解模块、解析模块和修正模块通过句法分析工具获取中文目标文本中的命名实体词和命名实体词之间的关系词,向量化组成中文目标文本的各词语和命名实体词及命名实体词之间的关系词,得到词向量,将所述词向量进行独热编码one-hot,得到所述词向量的离散特征向量,采用词嵌入工具对中文目标文本进行语义特征抽取,得到中文目标文本中词向量的连续特征向量,将得到的离散特征和连续特征进行语义解析,得到中文目标文本的第一语义解析结果,结合知识库对第一语义解析结果进行修正,得到中文目标文本的第二语义解析结果,结合获取到的离散特征向量和连续特征向量就中文目标文本进行语义解析,提高了对中文目标文本的语义的解析能力。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步地,所述解析模块,具体用于将所述连续特征向量和所述离散特征向量放入堆中;将所述堆中的所有特征向量按照存储的顺序输入softmax分类器,得到分类结果;根据所述分类结果,确定并执行所述堆和栈所要执行的操作。进一步地,当所述分类结果为移动时,执行Shift操作,包括将所述堆中的第一个特征向量放入栈中;当所述分类结果为弹出时,执行Larc操作,包括将所述栈中的前两个本文档来自技高网...

【技术保护点】
1.一种中文语义解析方法,其特征在于,包括:S1、获取中文目标文本,利用句法分析工具获取所述中文目标文本中所包含的命名实体词及所述命名实体词之间的关系词;向量化组成所述中文目标文本的各词语和所述命名实体词及所述命名实体词之间的关系词,得到词向量,将所述词向量进行独热编码one‑hot,得到所述词向量的离散特征向量;采用词嵌入工具对所述中文目标文本进行语义特征抽取,得到所述中文目标文本中词向量的连续特征向量;S2、将所述连续特征向量和所述离散特征向量进行语义解析,得到所述中文目标文本的第一语义解析结果;S3、结合知识库对所述第一语义解析结果进行修正,得到所述中文目标文本的第二语义解析结果。

【技术特征摘要】
1.一种中文语义解析方法,其特征在于,包括:S1、获取中文目标文本,利用句法分析工具获取所述中文目标文本中所包含的命名实体词及所述命名实体词之间的关系词;向量化组成所述中文目标文本的各词语和所述命名实体词及所述命名实体词之间的关系词,得到词向量,将所述词向量进行独热编码one-hot,得到所述词向量的离散特征向量;采用词嵌入工具对所述中文目标文本进行语义特征抽取,得到所述中文目标文本中词向量的连续特征向量;S2、将所述连续特征向量和所述离散特征向量进行语义解析,得到所述中文目标文本的第一语义解析结果;S3、结合知识库对所述第一语义解析结果进行修正,得到所述中文目标文本的第二语义解析结果。2.根据权利要求1所述的方法,其特征在于,所述步骤S2中的所述解析过程具体包括:将所述连续特征向量和所述离散特征向量放入堆中;将所述堆中的所有特征向量按照存储的顺序输入softmax分类器,得到分类结果;根据所述分类结果,确定并执行所述堆和栈所要执行的操作。3.根据权利要求2所述的方法,其特征在于,所述根据所述分类结果,确定并执行所述堆和栈所要执行的操作,具体包括:当所述分类结果为移动时,执行Shift操作,包括将所述堆中的第一个特征向量放入栈中;当所述分类结果为弹出时,执行Larc操作,包括将所述栈中的前两个特征向量使用关系词按照前一个词连接后一个词的顺序,从所述栈中弹出连接后的特征向量;当所述分类结果为连接时,执行RArc操作,包括将所述栈中前两个特征向量使用关系词将后一个词连接前一个词;当所述分类结果为减少时,执行Reduce操作,包括将所述栈中的第一个特征向量弹出;当所述分类结果为去环时,执行ReEnt操作,包括将所述栈中的第一个特征向量放入所述堆的底部。4.根据权利要求3所述的中文语义解析方法,其特征在于,所述步骤S2中得到第一语义解析结果具体包括:在所述要执行的操作完成后,所述堆和栈同时为空时,所述堆和栈中的所述连续特征向量和所述离散特征向量处理完成,得到所述中文目标文本的第一语义解析结果。5.根据权利要求1-...

【专利技术属性】
技术研发人员:周启楫武开智
申请(专利权)人:北京牡丹电子集团有限责任公司宁安智慧工程中心
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1