面向智能问答系统的句向量生成方法及系统技术方案

技术编号：29673442 阅读：23 留言：0更新日期：2021-08-13 21:55

本发明专利技术涉及面向智能问答系统的句向量生成方法及系统，其方法包括：对给定的中文句子进行中文分词；根据分词结果为每个词生成对应的中文词向量；对句子进行语义角色标注，生成句子的语义关系图；以词向量作为输入，对句子进行编码，输出每个词向量的隐状态向量；对语义关系图进行编码，生成语义关系图的邻接矩阵；将语义关系图的邻接矩阵及词向量的隐状态向量输入图卷积网络GCN后，与BERT预训练模型的中间层各输出进行逐层融合迭代，获得最终编码后的句向量。相较于一般的句向量生成方法，本发明专利技术由于融入了句子的语义结构编码，拥有更丰富、更有指导性的信息，为相似问句语义匹配提供更高质量的输入，提高查询的精度。

全部详细技术资料下载

【技术实现步骤摘要】
面向智能问答系统的句向量生成方法及系统
本专利技术属于人工智能中的自然语言处理技术(NLP)，具体为面向智能问答系统的句向量生成方法及系统。
技术介绍
智能问答系统(Question-Answering)是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛应用前景的研究方向，而面向常用问题集（FrequentlyAskedQuestions,FAQ）的检索型问答系统是目前最广泛使用的一种智能问答系统。FAQ检索型问答是根据用户提交的问询，在FAQ库中查找语义上最接近的一个对应问题，并把相应的回答反馈给用户。FAQ问答系统的核心任务可以抽象为相似问句语义匹配任务，即根据用户提交的问句与FAQ库中的标准问句进行语义相似性度量。传统文本匹配方法，如信息检索中的BM25、向量空间模型VSM等方法，主要解决字面相似度问题。然而由于中文含义的丰富性，通常很难直接根据关键字匹配或者基于机器学习的浅层模型来确定两个句子之间的语义相似度。衡量句子语义相似度的基础是句向量的生成，首先是将相似问句映射到一个高维度的语义空间中，...

【技术保护点】
1.面向智能问答系统的句向量生成方法，其特征在于，包括以下步骤：/n（1）、对给定的中文句子进行中文分词；/n（2）、根据分词结果，为每个词生成对应的中文词向量；/n（3）、对句子进行语义角色标注，生成句子的语义关系图；/n（4）、以词向量作为输入，对句子进行编码，以隐状态向量的方式输出每个词对应的隐状态信息；/n（5）、对语义关系图中每个节点进行初始编码，同时生成语义关系图的邻接矩阵；在语义关系图的邻接矩阵中，矩阵元素

【技术特征摘要】
1.面向智能问答系统的句向量生成方法，其特征在于，包括以下步骤：
（1）、对给定的中文句子进行中文分词；
（2）、根据分词结果，为每个词生成对应的中文词向量；
（3）、对句子进行语义角色标注，生成句子的语义关系图；
（4）、以词向量作为输入，对句子进行编码，以隐状态向量的方式输出每个词对应的隐状态信息；
（5）、对语义关系图中每个节点进行初始编码，同时生成语义关系图的邻接矩阵；在语义关系图的邻接矩阵中，矩阵元素的取值为：

其中，将步骤（4）中生成的隐状态向量赋值给每个节点，作为语义关系图中每个节点的初始编码；
（6）、将步骤（5）中语义关系图的邻接矩阵及步骤（4）中词向量的隐状态向量输入图卷积网络GCN后，与BERT预训练模型的中间层各输出进行逐层融合迭代，获得最终编码后的句向量。

2.根据权利要求1所述的句向量生成方法，其特征在于，步骤（1）给定的句子为FAQ库中问题的标准问句，通过步骤（1）-（6）生成对应的句向量后，形成相应的索引表，所述索引表包括FAQ问题编号、问题的标准问句、句向量及问题的回答。

3.根据权利要求1所述的句向量生成方法，其特征在于，步骤（3）中进行语义角色标注时，以句子的谓词为中心，研究句子中各成分与谓词之间的关系，并用语义角色描述句子中各成分与谓词之间的关系。

4.根据权利要求1所述的句向量生成方法，其特征在于，步骤（4）采用双向长短时记忆网络对句子进行前向和后向编码，输出每个词对应的隐状态向量；隐状态信息蕴含词语的上下文信息。

5.根据权利要求1所述的句向量生成方法，其特征在于，步骤（6）中图卷积网络GCN设有四个图卷积层，首先把中文句子输入到BERT预训练模型中，利用BERT预训练模型四个中间层的输出，分别与图卷积网络GCN四个图卷积层的各节点向量输出进行点积操作，并将点积操作的结果输入图卷积网络GCN下一层图卷积层进行迭代；将图卷积网络GCN最后一层图卷积层的各节点向量之和，与BERT预训练模型的输出进行点积操作，作为最终句子向量编码的结果。

6.根据权利要求5所述的句向量生成方法，其特征在于，图卷积网络GCN中每层图卷积层的节点向量经过以下卷积操作进行更新：

其中，是非线性激活函数，是图卷积网络第k层...

【专利技术属性】
技术研发人员：杨钊，何慧，
申请(专利权)人：佰聆数据股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人