当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于双路编码和精确匹配信号的观点检索系统技术方案

技术编号:37352819 阅读:15 留言:0更新日期:2023-04-27 07:04
本发明专利技术提供了一种基于双路编码和精确匹配信号的观点检索系统,包括:一个查询文本和文档文本预处理模块,对输入的查询和候选文档据进行预处理;一个查询文本和文档文本相关得分计算模块;一个查询文本和文档文本观点得分计算模块,通过预训练模型计算候选文档的观点得分;统一相关检索模块,用于根据相关检索模块得出的查询和文档的相关得分和根据观点得分模块获取文档的观点得分,最终计算文档的观点检索得分。本技术方案通过双路编码来获取局部语义信息和全局语义信息,能够通过融合并基于这些信息进行观点检索,通过精确匹配机制获取的精确语义信息能够提高查询与文档的相关性。性。性。

【技术实现步骤摘要】
一种基于双路编码和精确匹配信号的观点检索系统


[0001]本专利技术涉及观点检索
,特别是一种基于双路编码和精确匹配信号的观点检索系统。

技术介绍

[0002]随着Web2.0在当今高速的发展,以及互联网的普及,互联网出现大量以社交为基础的平台(比如,知乎、新浪微博、b站等)。越来越多的人热衷于在社交媒体上发表和分享自己对热门信息的看法,这些社交平台已经成为人们表达自己观点的载体。通过分析这些观点信息可以了解到。以情感分析和信息挖掘(挖掘文本的观点信息)为目标的观点挖掘已经成为自然语言处理的领域的前言研究之一。网络文本观点检索是研究如何从大量的社交文本的文档中检索出与查询文本相关并且对检索出的文档有一定的主观倾向。针对文本观点检索课题的研究和讨论,引起了来自学术、工业以及各行业学者的广泛关注。文本观点检索模型的研究经历了早期的二阶段检索模型,到线性检索模型,最后到统一相关模型,这三个阶段。下面将对这三个阶段作简要介绍。
[0003]两阶段检索模型,首先检索出与给定查询话题相关的文档,然后识别出这些与给定查询相关文档的倾向性,最后综合相关性和倾向性对文档进行排序。该模型结构简单,容易理解,但是缺乏合理的理论解释。该方法第一阶段通常采用语言模型、BM25等经典检索模型,而将研究重点放在第二阶段,即文档的观点挖掘。
[0004]线性检索模型它们给了研究者们提供了新的思路,即用一个最终的指标对文档进行评分,这也促使了人们对统一观点检索模型的研究。不同于传统文档表示方法的主题

观点词表示方法,捕获句子内部观点词与其目标之间的上下文信息,同时考虑相同主题的多个观点词句子间的关系,将这两种信息合并到一个统一的图模型中,采用HITS算法计算文档得分并排序。
[0005]统一检索模型,借助当前信息检索和文本挖掘领域的最新模型,直接挖掘描述主题的倾向性对文档进行排序。该方法相对于两阶段模型,具有在理论上易解释、对信息需求表达更直接有效等优点。

技术实现思路

[0006]有鉴于此,本专利技术的目的在于提供一种基于双路编码和精确匹配信号的观点检索系统,通过双路编码来获取局部语义信息和全局语义信息,能够通过融合并基于这些信息进行观点检索,通过精确匹配机制获取的精确语义信息能够提高查询与文档的相关性。
[0007]为实现上述目的,本专利技术采用如下技术方案:一种基于双路编码和精确匹配信号的观点检索系统,包括:
[0008]一个查询文本和文档文本预处理模块,对输入的查询和候选文档据进行预处理,主要对数据去除符号、表情、停用词等无关信息,以及对数据进行分词、编码和映射语义空间获得词向量和句表示向量;
[0009]一个查询文本和文档文本相关得分计算模块,通过transformer和循环神经网络LSTM获取句子编码,然后把两路获取到的编码信息进行融合,将句子表示加入到精确匹配网络获取,获取精确匹配语义信息,最后将语义信息用高斯核池方法,获取查询和文档之间的相关得分;
[0010]一个查询文本和文档文本观点得分计算模块,通过预训练一个观点特征提取模型,通过预训练模型计算候选文档的观点得分;
[0011]统一相关检索模块,用于根据相关检索模块得出的查询和文档的相关得分和根据观点得分模块获取文档的观点得分,最终计算文档的观点检索得分,对文档进行排序,输出排序结果。
[0012]在一较佳的实施例中:查询文本和文档文本预处理模块,对查询和文档数据去除符号、表情、网络链接、停用词无关信息,以及对数据进行分词建立词表、编码和映射语义空间获得词向量和句表示向量。
[0013]在一较佳的实施例中:查询文本和文档文本相关得分计算模块由双路上下文编码层、上下文融合层、精确匹配层、卷积层、匹配层、核池化层及学习层组合而成;
[0014]双路上下文编码层由TransformerEncoder和LSTM循环神经网络组成,根据输入词向量用于获取对应全局上下文语义表示和局部上下文语义表示的上下文向量;
[0015]TransformerEncoder公式如下:
[0016]X

=Transformer(X)
[0017]Transformer(X)=LayerNorm(LayerNorm(MultiHeadAttention(LL(X))+X)+FFN(LayerNorm(MultiHeadAttention(LL(X))+X))
[0018]LL(X)=Linear(ReLI(Linear(X)))
[0019]MultiHeadAttention(X)=Concat(h ead1,...,h ead
h
)W
O
[0020][0021]Linear(X)=XA
T
+b
[0022]FFN(X)=max(0,XW1+b1)W2+b
[0023][0024]其中X为对应输入的词向量,MultiHeadAttention为多头自注意力模块,ReLU为非线性激活函数,W
i
为需要模型学习的参数矩阵;
[0025]LSTM公式如下表示:
[0026]f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
)
[0027]i
t
=σ(W
i
·
[h
t
‑1,x
t
]+b
i
)
[0028][0029][0030]O
t
=σ(W
o
[h
t
‑1,x
t
]+b
o
)
[0031]h
t
=O
t
*tanh(C
t
)
[0032]T
i
=h
t
[0033]其中,σ表示logistic sigmoid函数;tanh表示Hyperbolic tangent函数;W
f
、W
i
、W
c
、W
o
表示可训练的参数矩阵;b
f
、b
i
、b
c
、b
o
表示对应的偏置;i
t
表示t时刻的输入门,决定当前时间步输入需要保留的信息;f
t
表示t时刻的遗忘门,用于控制历史细胞状态应该丢失的信息比例;o
t
表示t时刻的输出门,用于控制隐藏状态的输出;表示由非线性函数tanh计算出的当前输入特征;C
t
表示t时刻的记忆单元状态;h
t
表示t时刻的隐含层输出向量;
[0034]LSTM结构根据上一时间状态计算当前节点状态,获取局部上下文语义信息;...

【技术保护点】

【技术特征摘要】
1.一种基于双路编码和精确匹配信号的观点检索系统,其特征在于,包括:一个查询文本和文档文本预处理模块,对输入的查询和候选文档据进行预处理,主要对数据去除符号、表情、停用词等无关信息,以及对数据进行分词、编码和映射语义空间获得词向量和句表示向量;一个查询文本和文档文本相关得分计算模块,通过transformer和循环神经网络LSTM获取句子编码,然后把两路获取到的编码信息进行融合,将句子表示加入到精确匹配网络获取,获取精确匹配语义信息,最后将语义信息用高斯核池方法,获取查询和文档之间的相关得分;一个查询文本和文档文本观点得分计算模块,通过预训练一个观点特征提取模型,通过预训练模型计算候选文档的观点得分;统一相关检索模块,用于根据相关检索模块得出的查询和文档的相关得分和根据观点得分模块获取文档的观点得分,最终计算文档的观点检索得分,对文档进行排序,输出排序结果。2.根据权利要求1所述的一种基于双路编码和精确匹配信号的观点检索系统,其特征在于:查询文本和文档文本预处理模块,对查询和文档数据去除符号、表情、网络链接、停用词无关信息,以及对数据进行分词建立词表、编码和映射语义空间获得词向量和句表示向量。3.根据权利要求1所述的一种基于双路编码和精确匹配信号的观点检索系统,其特征在于:查询文本和文档文本相关得分计算模块由双路上下文编码层、上下文融合层、精确匹配层、卷积层、匹配层、核池化层及学习层组合而成;双路上下文编码层由TransformerEncoder和LSTM循环神经网络组成,根据输入词向量用于获取对应全局上下文语义表示和局部上下文语义表示的上下文向量;TransformerEncoder公式如下:X

=Transformer(X)Transformer(X)=LayerNorm(LayerNorm(MultiHeadAttention(LL(X))+X)+FFN(LayerNorm(MultiHeadAttention(LL(X))+X))LL(X)=Linear(ReLU(Linear(X)))MultiHeadAttention(X)=Concat(head1,...,head
h
)W
O
Linear(X)=XA
T
+bFFN(X)=max(0,XW1+b1)W2+b其中X为对应输入的词向量,MultiHeadAttention为多头自注意力模块,ReLU为非线性激活函数,W
i
为需要模型学习的参数矩阵;LSTM公式如下表示:f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
)
i
t
=σ(W
i
·
[h
t
‑1,x
t
]+b
i
))O
t
=σ(W
o
[h
t
‑1,x
t
]+b
o
)h
t
=O
t
*tanh(C
t
)T
i
=h
t
其中,σ表示logistic sigmoid函数;tanh表示Hyperbolic tangent函数;W
f
、W
i
、W
c
、W
o
表示可训练的参数矩阵;b
f
、b
i
、b
c
、b
o
表示对应的偏置;i<...

【专利技术属性】
技术研发人员:廖祥文梁明何佳杨思源张纬峰
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1