一种基于孪生结构的舆情文本匹配系统及方法技术方案

技术编号:38371815 阅读:11 留言:0更新日期:2023-08-05 17:35
本发明专利技术的一种基于孪生结构的舆情文本匹配系统,包括孪生神经网络模块:用于构造孪生神经网络的编码层,获取命名实体间的第一相似度表征向量;语义交互模块:用于获取第二相似度表征向量;融合模块:用于将第一相似度表征向量和第二相似度表征向量拼接,得到句子对的最终相似度表征向量;匹配模块:用于将最终相似度表征向量通过SoftMax分类函数得到文本匹配结果。本发明专利技术通过提取舆情文本的命名实体相似度特征和文本语义相似度特征,将两类特征融合后进行语义相似度计算并分析两舆情文本是否相似,提高舆情文本匹配的准确性和鲁棒性,因为不再是单纯对文本的主题和含义进行匹配,同时考虑了针对同一人物、事物或现象的表述进行匹配。行匹配。行匹配。

【技术实现步骤摘要】
一种基于孪生结构的舆情文本匹配系统及方法


[0001]本专利技术属于自然语言处理
,具体涉及一种基于孪生结构的舆情文本匹配系统及方法。

技术介绍

[0002]目前舆情本文匹配方法的核心问题是解决文本数据相似度判断的问题,只有当文本数据相似度判断准确了,舆情文本系统的匹配准确率才能提升。在以往传统方法中,需要大量人力和时间进行人为判断、标注和去除相似的舆情文本。因此需要一种智能化的舆情文本匹配系统,提炼重要信息,提高文本分析的效率。舆情文本匹配在舆情分析、舆情预警中发挥着至关重要地作用,舆情文本匹配的准确率关乎着后续舆情研判的准确与否。
[0003]目前对于舆情文本匹配的计算大多采用两种方式,一种是基于传统的文本匹配算法,另一种是基于深度学习的文本匹配算法。传统的文本匹配算法一般可分为基于字符串的方法,基于统计的方法和基于知识库的方法。传统的文本匹配算法大多都只能计算出文本表层的含义,难以挖掘出文本深层含义。随着自然语言处理任务的需求越来越广泛,基于传统的方法始终无法突破语义相似度计算任务的瓶颈,故逐渐被基于深度学习的语义相似度算法取代。基于深度学习的文本匹配算法可以理解到文本的深层含义,使模型效果更好,但由于研究时间不长,模型的准确性仍待提升。在2013年提出的生成分布式词向量方法,即word2vec,该方法根据一定范围内的上下文预测出来文本中每个单词的词向量,然后生成的词向量被拼接后,能够表示一定的语义信息;但每个词所依赖的上下文范围是有限的,因此每个词向量表达句语义信息也是局部有限的。2014年又提出了doc2vec方法,该方法用于文档文本的向量化表示,文档与单词不同之处在于,文档没有像单词与单词之间的逻辑结构,其是一个整体的文本数据。以上两种方法所生成的向量均为静态的,即无法根据文本语境的不同而动态变化,从而影响了方法的准确率和性能。
[0004]近几年BERT方法的提出,给自然语言处理领域带来了很大影响,BERT方法结合了自注意力机制,并提出了掩盖语言模型任务和下文预测任务两种十分新颖且有效的预训练目标,为方法的性能带来极大的提升,成为目前最常用的生成动态词向量的方法之一。舆情文本匹配比起一般的文本匹配具有更高的难度,它不仅仅需要判断两文本在语义上是否相似,还需判断两文本是否是针对同一人物、事物或现象所表达的信念、态度、意见和情绪等等。现有的文本匹配算法一般只考虑文本字符的匹配或文本含义匹配,即当两文本有许多相似字符或两文本表达相同主题或相同含义时则判断为相似,未具体到人物或事件层面,故本专利技术提出一种基于孪生结构的舆情文本匹配方法以使舆情场景的文本匹配在准确率和鲁棒性方面得到进一步提升。

技术实现思路

[0005]针对舆情文本匹配比起一般的文本匹配具有更高的难度,不仅仅需要判断两文本在语义上是否相似,还需判断两文本是否是针对同一人物、事物或现象所表达的信念、态
度、意见和情绪等,因此,基于舆情场景的文本匹配方法在准确率和鲁棒性方均要求更高,不仅要判断两文本在语义上是否相似,还需要判断两文本是否为针对同一人物、事物或现象的表述。
[0006]为了克服上述现有技术的不足,本专利技术旨在提供一种基于孪生结构的舆情文本匹配系统及方法。
[0007]根据本专利技术的第一方面,提供一种基于孪生结构的舆情文本匹配的系统,包括
[0008]孪生神经网络模块:用于构造孪生神经网络的编码层,提取出句子对中的命名实体信息,并对提取出的命名实体进行相似度计算,获取命名实体间的第一相似度表征向量;
[0009]语义交互模块:用于获取句子对在语义方面的第二相似度表征向量;
[0010]融合模块:用于将第一相似度表征向量和第二相似度表征向量拼接,得到句子对的最终相似度表征向量;
[0011]匹配模块:用于将最终相似度表征向量通过SoftMax分类函数得到文本匹配结果。
[0012]在本专利技术的一种示例性实施例中,所述孪生神经网络模块,具体利用BERT+CRF方法构造孪生神经网络的编码层,包括两个相同或相似的神经网络建立的耦合三层架构,分别是输入层、特征提取层和相似度度量层,其中输入层输入需进行匹配的句子对,特征提取层将输入的句子对样本嵌入至高纬度空间得到句子对两个样本的表征向量,相似度度量层通过数学公式对提取出的两个样本的表征向量进行相似度计算,得到句子对的第一相似度表征向量。
[0013]在本专利技术的一种示例性实施例中,所述孪生神经网络模块的BERT模型
[0014]还包括掩码语言模型任务单元,(采用BERT层的掩码语言模型任务获取输入句子对语句中词级别的文本特征),在训练的输入层中随即掩盖部分字符,然后利用剩余未被掩盖的字符来预测这些掩盖的字符,通过该方式的训练,可使模型充分学习到输入语句中词级别的文本特征,再将BERT层输出的特征向量输入至CRF层;
[0015]还包括下文预测任务单元,用于判断输入的句子对的A句子和B句子是否上下问相关,从而使模型学习到两个文本之间的关系,解决句子层面的问题;再将BERT层输出的特征向量输入至CRF层;
[0016]在本专利技术的一种示例性实施例中,所述孪生神经网络模块的CRF模型还包括数据集中标签之间的转移概率单元,CRF层通过学习数据集中标签之间的转移概率,从而修正BERT层的输出,从而保证预测标签的合理性;
[0017]还包括标注单元,由于需提取出句子对中的命名实体,训练集即句子对采用BIO方法对实体进行标注,B(begin)表示该字符处于一个实体的开始,I(inside)表示该字符处于该实体的内部位置,O(outside)表示实体外部的不被关注的非实体字符;对于舆情文本需重点关注文本中的人名(PER)、地名(GEO)、以及组织(ORG),故训练集的实体标签有B

PER,I

PER,B

GEO,I

GEO,B

ORG,I

ORG,O这7种类型的标签;
[0018]还包括获取词性状态以进行表征向量单元,将句子对送入孪生神经网络前,需要在句子的头部加入[CLS]标识符,得到A、B句子对的A句子和;将和送入BERT进行微调,通过BERT层的编码为句子中每个位置上的字符引入上下文信息从而获取词性状态以进行表征向量,所有BERT的输出将作为CRF层的输入;
[0019]在本专利技术的一种示例性实施例中,所述语义交互模块,具体基于BERT采用下文预测任务以学习文本间的句子关系特征,包括交互模块的编码层、交互模块的池化层和交互模块的归一化层,所述交互模块的编码层,将句子对送入BERT前,需要在句子的头部加入[CLS]标识符,并在两句之间插入[SEP]标识符进行切分。将拼接好后的句子送入BERT模型进行微调,输出,即句子对的向量化表达;
[0020]所述交互模块的池化层,通过BERT得到的句向量通过池化层来提取重要特征缩小维度;
[0021]所述交互模块的归一化层,句向量经过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于孪生结构的舆情文本匹配的系统,其特征在于包括孪生神经网络模块:用于构造孪生神经网络的编码层,从而提取出句子对中的命名实体信息,并对提取出的命名实体进行相似度计算,获取命名实体间的第一相似度表征向量;语义交互模块:用于获取句子对在语义方面的第二相似度表征向量;融合模块:用于将第一相似度表征向量和第二相似度表征向量拼接,得到句子对的最终相似度表征向量;匹配模块:用于将最终相似度表征向量通过SoftMax分类函数得到文本匹配结果。2.如权利要求1所述的基于孪生结构的舆情文本匹配的系统,其特征在于,所述孪生神经网络模块,具体利用BERT+CRF方法构造孪生神经网络的编码层,包括两个相同或相似的神经网络建立的耦合三层架构,分别是输入层、特征提取层和相似度度量层,其中输入层输入需进行匹配的句子对,特征提取层将输入的句子对样本嵌入至高纬度空间得到句子对两个样本的向量表征,相似度度量层通过数学公式对提取出的两个样本的向量表征进行相似度计算,得到句子对的第一相似度表征向量。3.如权利要求2所述的基于孪生结构的舆情文本匹配的系统,其特征在于,所述孪生神经网络模块的BERT模型,还包括掩码语言模型任务单元,(采用BERT层的掩码语言模型任务获取输入句子对语句中词级别的文本特征),在训练的输入层中随即掩盖部分字符,然后利用剩余未被掩盖的字符来预测这些掩盖的字符,通过该方式的训练,可使模型充分学习到输入语句中词级别的文本特征,再将BERT层输出的特征向量输入至CRF层;还包括下文预测任务单元,用于判断输入的句子对的A句子和B句子是否上下问相关,从而使模型学习到两个文本之间的关系,解决句子层面的问题;再将BERT层输出的特征向量输入至CRF层;还包括数据集中标签之间的转移概率单元,CRF层通过学习数据集中标签之间的转移概率,从而修正BERT层的输出;还包括标注单元,训练集即句子对采用BIO方法对实体进行标注,B(begin)表示该字符处于一个实体的开始,I(inside)表示该字符处于该实体的内部位置,O(outside)表示实体外部的不被关注的非实体字符;对于舆情文本需重点关注文本中的人名(PER)、地名(GEO)、以及组织(ORG),故训练集的实体标签有B

PER,I

PER,B

GEO,I

GEO,B

ORG,I

ORG,O这7种类型的标签;还包括获取词性状态以进行向量表征单元,将句子对送入孪生神经网络前,需要在句子的头部加入[CLS]标识符,得到A、B句子对的A句子和B句子向量;将和送入BERT进行微调,通过BERT层的编码为句子中每个位置上的字符引入上下文信息从而获取词性状态以进行向量表征,所有BERT的输出将作为CRF层的输入。4.如权利要求2或3所述的基于孪生结构的舆情文本匹配的系统,其特征在于所述语义交互模块,具体基于BERT采用下文预测任务以学习文本间的句子关系特征,包括交互模块的编码层、交互模块的池化层和交互模块的归一化层,所述交互模块的编码层,将句子对送入BERT前,需要在句子的头部加入[CLS]标识符,并在两句之间插入[SEP]标识符进行切分,将拼接好后的句子送入BERT模型进行
微调,输出,即句子对的向量化表达;所述交互模块的池化层,通过BERT得到的句向量通过池化层来提取重要特征缩小维度;所述交互模块的归一化层,句向量经过层归一化后的输出结果为交互模块获取到的句子对的第二相似度表征向量。5.如权利要求1所述的基于孪生结构的舆情文本匹配的系统,其特征在于,在本发明的一种示例性实施例中,所述匹配模块中,具体SoftMax分类函数如下,代表的含义为样本向量 x 属于第 j 个分类的概率,其中W为权重系数,k表示有k个类别: 将最终相似度表征...

【专利技术属性】
技术研发人员:陈宏伟涂麟曦
申请(专利权)人:武汉爱科软件技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1