一种基于句法感知的文本匹配方法组成比例

技术编号：25599817 阅读：22 留言：0更新日期：2020-09-11 23:57

本发明专利技术公开一种基于句法感知的文本匹配方法。本发明专利技术通过采用双向LSTM得到两个句子的上下文表示词向量，采用多通道图卷积网络对上下文表示词向量进行处理得到两个句子的句法信息感知词向量，利用门控函数对上下文表示词向量和句法信息感知表示词向量进行动态选择得到两个句子的语义表示词向量，丰富了语义信息，充实了文本表示；通过基于句法信息感知表示词向量和语义表示词向量对两个句子进行匹配，提高了两个句子匹配的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于句法感知的文本匹配方法
本专利技术属于自然语言理解
，具体涉及一种基于句法感知的文本匹配方法。
技术介绍
自然语言文本匹配一般用于识别两个文本/句子之间的关系。关系的类型由特定的任务决定。文本匹配所面临的挑战主要来源于词语的多样性和自然语言的结构性两方面。一方面，词语的多样性来源于自然语言中存在的同义词和多义词问题，不同的词语可以表示同一语义，一个词语在不同的语境下表示不同的语义。另一方面，自然语言的结构性来源于自然语言是以层次化的方式进行组织的，词语可以构成短语，短语连接起来形成句子，其中蕴含了语言的句法结构信息。随着深度学习和神经网络的发展，文本匹配技术的研究逐渐从传统文本匹配技术向基于深度学习的文本匹配技术转移。基于深度学习的文本匹配技术中利用上下文词向量的计算可以更好地解决词语的多样性问题。但是基于深度学习的文本匹配技术仍不能很好地解决语言的结构性这一挑战。有学者提出利用tree-LSTM对句法结构进行建模的方法在文本匹配任务中引入句法信息。与普通的LSTM不同，tree-LSTM的输入是二叉的句法树结构，每个单元对应句法树上的每一个父节点，每一次计算，上一个时刻的左子树的信息和右子树的信息都会传递到父接点上。对输入的两个句子，每个句子会形成一个向量序列，代表着句法树中的每个节点。进行编码后，再利用这两个序列进行匹配整合操作，最后进行分类计算。tree-LSTM每一个节点的计算依赖于上一个或几个节点的输出，这样会导致计算的开销增加，无法在输入上进行并行计算。在文本匹配任务中引入句...

【技术保护点】
1.一种基于句法感知的文本匹配方法，其特征在于，包括以下步骤：/n步骤1，将输入的两个句子中的词均表示成词向量，分别得到两个句子的词向量序列；/n步骤2，将两个词向量序列分别输入两个双向LSTM，得到两个句子的上下文表示词向量序列；/n步骤3，分别对两个句子的词向量构成的顶点集合、通过句法分析得到的连接两个顶点的句法边集合、上下文表示词向量构成的集合进行句法图卷积运算，得到两个句子的句法信息感知表示词向量；/n步骤4，分别对两个句子的上下文表示词向量和句法信息感知表示词向量通过门控函数进行动态选择，得到两个句子的语义表示词向量；/n步骤5，基于句法信息感知表示词向量和语义表示词向量对两个句子进行匹配，输出概率最高的表示两个句子关系的标签。/n

【技术特征摘要】
1.一种基于句法感知的文本匹配方法，其特征在于，包括以下步骤：
步骤1，将输入的两个句子中的词均表示成词向量，分别得到两个句子的词向量序列；
步骤2，将两个词向量序列分别输入两个双向LSTM，得到两个句子的上下文表示词向量序列；
步骤3，分别对两个句子的词向量构成的顶点集合、通过句法分析得到的连接两个顶点的句法边集合、上下文表示词向量构成的集合进行句法图卷积运算，得到两个句子的句法信息感知表示词向量；
步骤4，分别对两个句子的上下文表示词向量和句法信息感知表示词向量通过门控函数进行动态选择，得到两个句子的语义表示词向量；
步骤5，基于句法信息感知表示词向量和语义表示词向量对两个句子进行匹配，输出概率最高的表示两个句子关系的标签。

2.根据权利要求1所述的基于句法感知的文本匹配方法，其特征在于，所述步骤4得到的两个句子P、Q的语义表示词向量的计算公式如下：

式中，σ()为门控函数，W1、W2、W3、W4为映射矩阵；为句子P的第i个语义表示词向量，为句子P的第i个句法信息感知表示词向量，为句子P的第i个语义表示词向量，i＝1,2,…,M，M为句子P中词的个数；为句子Q的第j个句法信息感知表示词向量...

【专利技术属性】
技术研发人员：王春辉，胡勇，
申请(专利权)人：拾音智能科技有限公司，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人