【技术实现步骤摘要】
一种基于孪生结构的舆情文本匹配系统及方法
[0001]本专利技术属于自然语言处理
,具体涉及一种基于孪生结构的舆情文本匹配系统及方法。
技术介绍
[0002]目前舆情本文匹配方法的核心问题是解决文本数据相似度判断的问题,只有当文本数据相似度判断准确了,舆情文本系统的匹配准确率才能提升。在以往传统方法中,需要大量人力和时间进行人为判断、标注和去除相似的舆情文本。因此需要一种智能化的舆情文本匹配系统,提炼重要信息,提高文本分析的效率。舆情文本匹配在舆情分析、舆情预警中发挥着至关重要地作用,舆情文本匹配的准确率关乎着后续舆情研判的准确与否。
[0003]目前对于舆情文本匹配的计算大多采用两种方式,一种是基于传统的文本匹配算法,另一种是基于深度学习的文本匹配算法。传统的文本匹配算法一般可分为基于字符串的方法,基于统计的方法和基于知识库的方法。传统的文本匹配算法大多都只能计算出文本表层的含义,难以挖掘出文本深层含义。随着自然语言处理任务的需求越来越广泛,基于传统的方法始终无法突破语义相似度计算任务的瓶颈,故逐渐被基于深度学习的语义相似度算法取代。基于深度学习的文本匹配算法可以理解到文本的深层含义,使模型效果更好,但由于研究时间不长,模型的准确性仍待提升。在2013年提出的生成分布式词向量方法,即word2vec,该方法根据一定范围内的上下文预测出来文本中每个单词的词向量,然后生成的词向量被拼接后,能够表示一定的语义信息;但每个词所依赖的上下文范围是有限的,因此每个词向量表达句语义信息也是局部有限的。2014年又提 ...
【技术保护点】
【技术特征摘要】
1.一种基于孪生结构的舆情文本匹配的系统,其特征在于包括孪生神经网络模块:用于构造孪生神经网络的编码层,从而提取出句子对中的命名实体信息,并对提取出的命名实体进行相似度计算,获取命名实体间的第一相似度表征向量;语义交互模块:用于获取句子对在语义方面的第二相似度表征向量;融合模块:用于将第一相似度表征向量和第二相似度表征向量拼接,得到句子对的最终相似度表征向量;匹配模块:用于将最终相似度表征向量通过SoftMax分类函数得到文本匹配结果。2.如权利要求1所述的基于孪生结构的舆情文本匹配的系统,其特征在于,所述孪生神经网络模块,具体利用BERT+CRF方法构造孪生神经网络的编码层,包括两个相同或相似的神经网络建立的耦合三层架构,分别是输入层、特征提取层和相似度度量层,其中输入层输入需进行匹配的句子对,特征提取层将输入的句子对样本嵌入至高纬度空间得到句子对两个样本的向量表征,相似度度量层通过数学公式对提取出的两个样本的向量表征进行相似度计算,得到句子对的第一相似度表征向量。3.如权利要求2所述的基于孪生结构的舆情文本匹配的系统,其特征在于,所述孪生神经网络模块的BERT模型,还包括掩码语言模型任务单元,(采用BERT层的掩码语言模型任务获取输入句子对语句中词级别的文本特征),在训练的输入层中随即掩盖部分字符,然后利用剩余未被掩盖的字符来预测这些掩盖的字符,通过该方式的训练,可使模型充分学习到输入语句中词级别的文本特征,再将BERT层输出的特征向量输入至CRF层;还包括下文预测任务单元,用于判断输入的句子对的A句子和B句子是否上下问相关,从而使模型学习到两个文本之间的关系,解决句子层面的问题;再将BERT层输出的特征向量输入至CRF层;还包括数据集中标签之间的转移概率单元,CRF层通过学习数据集中标签之间的转移概率,从而修正BERT层的输出;还包括标注单元,训练集即句子对采用BIO方法对实体进行标注,B(begin)表示该字符处于一个实体的开始,I(inside)表示该字符处于该实体的内部位置,O(outside)表示实体外部的不被关注的非实体字符;对于舆情文本需重点关注文本中的人名(PER)、地名(GEO)、以及组织(ORG),故训练集的实体标签有B
‑
PER,I
‑
PER,B
‑
GEO,I
‑
GEO,B
‑
ORG,I
‑
ORG,O这7种类型的标签;还包括获取词性状态以进行向量表征单元,将句子对送入孪生神经网络前,需要在句子的头部加入[CLS]标识符,得到A、B句子对的A句子和B句子向量;将和送入BERT进行微调,通过BERT层的编码为句子中每个位置上的字符引入上下文信息从而获取词性状态以进行向量表征,所有BERT的输出将作为CRF层的输入。4.如权利要求2或3所述的基于孪生结构的舆情文本匹配的系统,其特征在于所述语义交互模块,具体基于BERT采用下文预测任务以学习文本间的句子关系特征,包括交互模块的编码层、交互模块的池化层和交互模块的归一化层,所述交互模块的编码层,将句子对送入BERT前,需要在句子的头部加入[CLS]标识符,并在两句之间插入[SEP]标识符进行切分,将拼接好后的句子送入BERT模型进行
微调,输出,即句子对的向量化表达;所述交互模块的池化层,通过BERT得到的句向量通过池化层来提取重要特征缩小维度;所述交互模块的归一化层,句向量经过层归一化后的输出结果为交互模块获取到的句子对的第二相似度表征向量。5.如权利要求1所述的基于孪生结构的舆情文本匹配的系统,其特征在于,在本发明的一种示例性实施例中,所述匹配模块中,具体SoftMax分类函数如下,代表的含义为样本向量 x 属于第 j 个分类的概率,其中W为权重系数,k表示有k个类别: 将最终相似度表征...
【专利技术属性】
技术研发人员:陈宏伟,涂麟曦,
申请(专利权)人:武汉爱科软件技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。