面向智能问答系统的句向量生成方法及系统技术方案

技术编号:29673442 阅读:10 留言:0更新日期:2021-08-13 21:55
本发明专利技术涉及面向智能问答系统的句向量生成方法及系统,其方法包括:对给定的中文句子进行中文分词;根据分词结果为每个词生成对应的中文词向量;对句子进行语义角色标注,生成句子的语义关系图;以词向量作为输入,对句子进行编码,输出每个词向量的隐状态向量;对语义关系图进行编码,生成语义关系图的邻接矩阵;将语义关系图的邻接矩阵及词向量的隐状态向量输入图卷积网络GCN后,与BERT预训练模型的中间层各输出进行逐层融合迭代,获得最终编码后的句向量。相较于一般的句向量生成方法,本发明专利技术由于融入了句子的语义结构编码,拥有更丰富、更有指导性的信息,为相似问句语义匹配提供更高质量的输入,提高查询的精度。

【技术实现步骤摘要】
面向智能问答系统的句向量生成方法及系统
本专利技术属于人工智能中的自然语言处理技术(NLP),具体为面向智能问答系统的句向量生成方法及系统。
技术介绍
智能问答系统(Question-Answering)是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛应用前景的研究方向,而面向常用问题集(FrequentlyAskedQuestions,FAQ)的检索型问答系统是目前最广泛使用的一种智能问答系统。FAQ检索型问答是根据用户提交的问询,在FAQ库中查找语义上最接近的一个对应问题,并把相应的回答反馈给用户。FAQ问答系统的核心任务可以抽象为相似问句语义匹配任务,即根据用户提交的问句与FAQ库中的标准问句进行语义相似性度量。传统文本匹配方法,如信息检索中的BM25、向量空间模型VSM等方法,主要解决字面相似度问题。然而由于中文含义的丰富性,通常很难直接根据关键字匹配或者基于机器学习的浅层模型来确定两个句子之间的语义相似度。衡量句子语义相似度的基础是句向量的生成,首先是将相似问句映射到一个高维度的语义空间中,然后才可以定义他们的相似性度量,如余弦相似度,使得语义上越接近的问句,其度量值越大。传统的句向量生成主要依靠预训练模型,而目前NLP中的预训练模型是在大规模语料上进行无监督训练,学习得到通用的语言组合的规律和模式,有助于解决下游任务;目前的预训练模型主要使用神经网络,其中最有影响力的是2013年谷歌提出的word2vec,随后在2018年谷歌进一步提出了更高级的BERT模型。但是目前的预训练模型主要是根据词语和句子的共现(co-occurrence)关系来生成编码,没有进一步显示地融合词语和词语之间的语义关系信息,因此需要进一步的改善和提升。
技术实现思路
为了解决现有技术所存在的问题,本专利技术提供面向智能问答系统的句向量生成方法,通过引入SRL(SemanticRoleLabeling,语义角色标注)浅层语义分析技术生成对应的语义关系图,利用图卷积网络GCN(GraphConvolutionalNetwork)进行编码,然后通过与中文BERT预训练模型中不同层的输出进行抽取和融合,生成融合了语义关系信息的句向量,能够为相似问句的语义匹配问题提供更高质量的输入,有效提高检索式问答系统中的查询精度。本专利技术还提供面向智能问答系统的句向量生成系统。本专利技术的面向智能问答系统的句向量生成方法,包括以下步骤:(1)、对给定的中文句子进行中文分词;(2)、根据分词结果,为每个词生成对应的中文词向量;(3)、对句子进行语义角色标注,生成句子的语义关系图;(4)、以词向量作为输入,对句子进行编码,以隐状态向量的方式输出每个词对应的隐状态信息;(5)、对语义关系图中每个节点进行初始编码,同时生成语义关系图的邻接矩阵;在语义关系图的邻接矩阵中,矩阵元素的取值为:其中,将步骤(4)中生成的隐状态向量赋值给每个节点,作为语义关系图中每个节点的初始编码;(6)、将步骤(5)中语义关系图的邻接矩阵及步骤(4)中词向量的隐状态向量输入图卷积网络GCN后,与BERT预训练模型的中间层各输出进行逐层融合迭代,获得最终编码后的句向量。相应地,本专利技术的面向智能问答系统的句向量生成系统,包括:中文分词模块,用于对给定的中文句子进行中文分词;词向量生成模块,用于根据中文分词模块的分词结果,为每个词生成对应的中文词向量;语义关系图生成模块,用于对句子进行语义角色标注,生成句子的语义关系图;词向量编码模块,以词向量作为输入,对句子进行编码,以隐状态向量的方式输出每个词对应的隐状态信息;语义关系图编码模块,对语义关系图中每个节点进行初始编码,同时生成语义关系图的邻接矩阵;在语义关系图的邻接矩阵中,矩阵元素的取值为:其中,将步骤(4)中生成的隐状态向量赋值给每个节点,作为语义关系图中每个节点的初始编码;融合迭代模块,用于将语义关系图的邻接矩阵及词向量的隐状态向量输入图卷积网络GCN后,与BERT预训练模型的中间层各输出进行逐层融合迭代,获得最终编码后的句向量。从以上技术方案可知,本专利技术由于融合了语义关系信息,所生成的句子向量编码比普通的基于共现(co-occurrence)关系的预训练模型生成的编码拥有更丰富、更有指导性的信息,能为相似问句的语义匹配问题提供更高质量的输入,可以有效提高检索式问答系统中的查询精度。与现有技术相比,本专利技术取得的技术效果具体包括:1、充分利用了句子的语义关系信息。本专利技术对句子应用了语义角色标注SRL这种浅层语义分析技术,生成对应的语义关系图(本专利技术称为SRL图),融合到句向量的生成中,丰富了句向量蕴含的指导性信息,为相似问句语义匹配提供了高质量的输入。2、利用图卷积网络GCN这种学术界最前沿的模型进行SRL图嵌入编码。GCN将卷积神经网络(ConvolutionalNeuralNetwork,CNN)这种强大的模型从图像处理领域拓展到了非欧式空间数据,通过保留图的网络拓扑结构和节点内容信息,将图中节点表示为向量。而本专利技术将图卷积网络GCN应用于SRL图,并通过与中文BERT预训练模型中不同层的输出进行抽取和融合,以生成对应的句向量,可以生成高效高质量的编码。3、充分利用了BERT预训练模型的中间层输出,并与图卷积网络GCN的各层输出进行了融合,并通过迭代优化,实现了优势互补。自BERT预训练模型提出以来,大量工作都是使用其最后一层输出作为上下文相关的编码,而忽略了中间层输出。实际上,BERT预训练模型不同层学习到的知识有显著偏好:低层偏向学习短语结构信息,中层偏向学习句法信息,高层偏向学习语义信息;本专利技术将BERT预训练模型中间几层的数据进行了抽取和利用,充分融合了低、中、高各层信息,可以显著提高所生成句向量的质量,为相似问句的语义匹配问题提供更高质量的输入,提高智能问答场景中的相似问句语义匹配的精准度,有效提高检索式问答系统中的查询精度。附图说明图1是本专利技术实施例中对中文问句进行SRL图编码的流程图;图2是本专利技术实施例中所生成的SRL图;图3是本专利技术实施例中BiLSTM网络对词向量进行编码的流程图;图4是本专利技术实施例中通过逐层融合迭代生成句向量的流程图;图5是本专利技术实施例的模型训练过程中利用反向传播算法进行参数更新的流程图;图6是本专利技术实施例中应用模型进行智能问答的处理流程图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。实施例在本实施例中,面向智能问答系统的句向量生成方法包括以下步骤:S1、对给定的中文句子进行中文分词;如图1所示,给定一个中文句子,首先进行中文分词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。目前有非常多的开源中文分词工具,本实施例使用HanLP分词技术本文档来自技高网
...

【技术保护点】
1.面向智能问答系统的句向量生成方法,其特征在于,包括以下步骤:/n(1)、对给定的中文句子进行中文分词;/n(2)、根据分词结果,为每个词生成对应的中文词向量;/n(3)、对句子进行语义角色标注,生成句子的语义关系图;/n(4)、以词向量作为输入,对句子进行编码,以隐状态向量的方式输出每个词对应的隐状态信息;/n(5)、对语义关系图中每个节点进行初始编码,同时生成语义关系图的邻接矩阵;在语义关系图的邻接矩阵中,矩阵元素

【技术特征摘要】
1.面向智能问答系统的句向量生成方法,其特征在于,包括以下步骤:
(1)、对给定的中文句子进行中文分词;
(2)、根据分词结果,为每个词生成对应的中文词向量;
(3)、对句子进行语义角色标注,生成句子的语义关系图;
(4)、以词向量作为输入,对句子进行编码,以隐状态向量的方式输出每个词对应的隐状态信息;
(5)、对语义关系图中每个节点进行初始编码,同时生成语义关系图的邻接矩阵;在语义关系图的邻接矩阵中,矩阵元素的取值为:



其中,将步骤(4)中生成的隐状态向量赋值给每个节点,作为语义关系图中每个节点的初始编码;
(6)、将步骤(5)中语义关系图的邻接矩阵及步骤(4)中词向量的隐状态向量输入图卷积网络GCN后,与BERT预训练模型的中间层各输出进行逐层融合迭代,获得最终编码后的句向量。


2.根据权利要求1所述的句向量生成方法,其特征在于,步骤(1)给定的句子为FAQ库中问题的标准问句,通过步骤(1)-(6)生成对应的句向量后,形成相应的索引表,所述索引表包括FAQ问题编号、问题的标准问句、句向量及问题的回答。


3.根据权利要求1所述的句向量生成方法,其特征在于,步骤(3)中进行语义角色标注时,以句子的谓词为中心,研究句子中各成分与谓词之间的关系,并用语义角色描述句子中各成分与谓词之间的关系。


4.根据权利要求1所述的句向量生成方法,其特征在于,步骤(4)采用双向长短时记忆网络对句子进行前向和后向编码,输出每个词对应的隐状态向量;隐状态信息蕴含词语的上下文信息。


5.根据权利要求1所述的句向量生成方法,其特征在于,步骤(6)中图卷积网络GCN设有四个图卷积层,首先把中文句子输入到BERT预训练模型中,利用BERT预训练模型四个中间层的输出,分别与图卷积网络GCN四个图卷积层的各节点向量输出进行点积操作,并将点积操作的结果输入图卷积网络GCN下一层图卷积层进行迭代;将图卷积网络GCN最后一层图卷积层的各节点向量之和,与BERT预训练模型的输出进行点积操作,作为最终句子向量编码的结果。


6.根据权利要求5所述的句向量生成方法,其特征在于,图卷积网络GCN中每层图卷积层的节点向量经过以下卷积操作进行更新:



其中,是非线性激活函数,是图卷积网络第k层...

【专利技术属性】
技术研发人员:杨钊何慧
申请(专利权)人:佰聆数据股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1