基于非对称孪生网络的新闻与案件相似度计算方法技术

技术编号:23162017 阅读:158 留言:0更新日期:2020-01-21 22:02
本发明专利技术涉及基于非对称孪生网络的新闻与案件相似度计算方法,属于自然语言处理技术领域。本发明专利技术首先通过计算文本中句子与标题的相似度选取与新闻标题最相关的句子表征文档,从而去除新闻文本中的冗余句子,再利用非对称孪生网络对文档、案件描述建模,考虑到案件要素蕴含案件的关键语义信息,将案件要素作为监督信息融入到非对称孪生网络中对新闻文档和案件描述进行编码,最终通过计算文档相似度判断新闻与案件的相关性。本发明专利技术通过基于非对称孪生网络对新闻文本和案件描述进行相似度计算,能对不平衡的新闻文本和案件描述进行语义编码建模,有益于提升相似度计算的准确率。

Similarity calculation method of news and case based on asymmetric twin network

【技术实现步骤摘要】
基于非对称孪生网络的新闻与案件相似度计算方法
本专利技术涉及基于非对称孪生网络的新闻与案件相似度计算方法,属于自然语言处理

技术介绍
法律领域新闻舆情分析是当前自然语言处理研究的热点问题,新闻与案件的相关性分析是法律领域新闻舆情分析的重要环节,是后续案件新闻舆情分析的基础、前提和支柱,其准确率直接影响到多个后续新闻舆情分析的准确与否,例如:情感分类、话题分析、摘要生成等。为了解决后续工作的质量和性能,需要构建高准确率的新闻与案件的相关性分析方法。借助孪生网络计算文本相关性是一种有效途径,其对平衡样本具有良好的学习能力,但在新闻与案件的相关性计算中面临文本不平衡和新闻文本冗余的问题,因此,提出了基于非对称孪生网络的新闻与案件相关性计算方法。
技术实现思路
本专利技术提供了基于非对称孪生网络的新闻与案件相似度计算方法,以用于解决传统文本相关性分析方法对于不平衡语料的难学习问题,以及解决了新闻文本冗余的问题,实现了新闻文本和案件描述的相似度计算且准确率高。本专利技术的技术方案是:基于非对称孪生网络的新闻与案件相似度计算方法,所述基于非对称孪生网络的新闻与案件相似度计算方法的具体步骤如下:Step1、通过分析热门新闻构建新闻与案件的相关性语料库,再利用新闻标题压缩新闻文档,得到压缩后的新闻文档;这有益于解决新闻文档内容冗余的问题;作为本专利技术的优选方案,所述步骤Step1的具体步骤为:Step1.1、首先计算文档中每个句子与标题的相关性,计算每个文档中的句子Si与新闻标题St的相关性的公式为:Score(St,Si)=ROUGE(St,Si),然后从中选出相关性高的几个句子作为新闻文档D′的表示,具体公式为:由于标题的事实性与主题性,有益于提取出与案件事实更为相关的新闻句子。Step2、通过案件描述C′构建案件要素,案件要素集合;案件要素的定义有益于得到更为精炼的案件信息,从而更利于神经网络学习到有用的特征;Step3、利用Step2中得到的案件要素集合,抽取出Step1中得到的压缩后的新闻文档中的案件要素;首先通过结巴分词工具对Step1中得到的压缩后的新闻文本D′进行分词处理;有益于更准确且更全面地提取出新闻中的案件要素词。对得到的每个词和Step2中得到的每个案件要素进行余弦相似度计算,当余弦相似度大于阈值x时将该词抽取为该篇新闻中的案件要素,得到新闻文档的要素集合De′。Step4、通过非对称孪生网络分别对案件描述和Step1得到的压缩后的新闻文档进行语义建模编码,分别得到案件描述和新闻文档的语义表征;提出的非对成孪生网络有益于对于文本不平衡的案件描述和新闻文本进行建模,从而得到语义更为准确的语义空间向量。首先通过预训练的词向量矩阵,对新闻文档D′、新闻中案件要素E′和案件描述C′中的词进行词嵌入,将每个词映射到向量空间中表示;通过双向LSTM分别对嵌入后的新闻文档、新闻中案件要素和案件描述进行编码,得到新闻文档、新闻中案件要素和案件描述的浅层语义表征;通过案件要素指导有益于提取出新闻文本中的案件语义信息。在每个时间步上,LSTM通过计算上一步的隐层表示ht-1、输入词向量w和长期记忆ct-1得到隐层表示ht和长期记忆ct,具体公式为:(ht,ct)=LSTM(ct-1,ht-1,w)。通过拼接前向和后向的隐状态,得到双向LSTM的隐状态,具体公式为:将双向LSTM的每一个时间步上的输出集合作为浅层语义表征;新闻文档D′编码为Dh∈{h1,h2...hk}∈RU,其中U表示LSTM隐层维度大小,同理,C′和E′也分别编码为双向LSTM的输出集合Ch、Eh;通过注意力机制建立Dh与Eh的联系,对与要素相关性高的词增强语义,相关性低的词降低语义。首先计算Dh中词hd与Eh中每个词he的相关性评分,具体公式为Score(hd,he)=hdTWahe,其中Wa为用于计算hd,he相关性评分的注意力矩阵,再对所有评分进行归一化处理,具体公式为:最终得到要素注意力权重Eweighted,具体公式为:通过Eweighted将Dh最终转化为经过要素监督的Dweighted,具体公式为:Dweighted=α*Eweight+(1-α)*De′。其中α为用于分配要素部分和文档本身部分的编码在新的向量表征中所占的权重。Wa,α都是可训练的参数。通过另一层的双向LSTM对Dweighted和Ch再进行编码,具体公式为:Dout=BiLSTM2(Dweighted),Cout=BiLSTM2(Ch),得到新闻文本和案件描述的深层语义表示,分别为Dout、Cout。有益于将新闻和案件的语义映射到同一语义空间下进行计算,从而提升相关性计算的准确率。Step5、通过对Step4中得到的新闻文档和案件描述的语义表征在向量空间中进行相似度计算,得到新闻和案件的语义相似度;利用Step5中得到的新闻和案件的语义相似度,根据语义相似度是否大于阈值p判断出新闻与案件的是否具有相关性。通过将相关性归一化进行判别,有益于简化对是否相关进行判别时的复杂度。首先通过Step4中得到的得到新闻文本和案件描述的深层语义表示Dout、Cout,通过计算两者的曼哈顿距离表征新闻文本和案件描述的语义差距,具体公式为:Distance(Dout,Cout)=manhattan(Dout,Cout)。由于语义差距与相似度呈负相关,将曼哈顿距离通过sigmoid函数映射到(0,1)区间上,来计算出Dout和Cout的相似度Similarity(Dout,Cout)。具体公式为:Similarity(Dout,Cout)=1-sigmoid(Distance(Dout,Cout))。最终,若相似度大于阈值p,则判定新闻文档与案件相关,否则判定不相关。本专利技术的有益效果是:本专利技术通过基于非对称孪生网络对新闻文本和案件描述进行相似度计算,能对不平衡的新闻文本和案件描述进行语义建模编码,有益于提升相似度计算的准确率,进而对新闻文本和案件描述实现了有效的相关性分析,利于提升后续案件新闻舆情的情感分类、话题分析、摘要生成等工作的效果。附图说明图1为本专利技术中的流程图;图2为本专利技术中的相似度计算模型图。具体实施方式实施例1:如图1-2所示,一种基于非对称孪生网络的新闻与案件相似度计算方法,所述基于非对称孪生网络的新闻与案件相似度计算方法的具体步骤如下:Step1、通过分析近年来的热门新闻,本实施例可以选择例如“昆山反杀案”等若干个热门案件,爬取与案件相关的新闻4513条。通过建立新闻与案件相关关系,得到新闻-案件对应数据4607对。通过人为校准,选出有效数据3374对,其中相关的案件-新闻对1630对,不相关数据1744对。从中分离出675对作为验证集,验证集中相关数据326对,不相关数据349对;再利用新闻标题对新闻文档进行压缩,得到压缩后的新闻文档:首先计算文档中每个句子与本文档来自技高网...

【技术保护点】
1.基于非对称孪生网络的新闻与案件相似度计算方法,其特征在于:/n所述基于非对称孪生网络的新闻与案件相似度计算方法的具体步骤如下:/nStep1、利用新闻标题压缩新闻文档,得到压缩后的新闻文档;/nStep2、通过案件描述构建案件要素,案件要素集合;/nStep3、利用Step2中得到的案件要素集合,抽取出Step1中得到的压缩后的新闻文档中的案件要素;/nStep4、通过非对称孪生网络分别对案件描述和Step1得到的压缩后的新闻文档进行语义编码,分别得到案件描述和新闻文档的语义表征;/nStep5、通过对Step4中得到的新闻文档和案件描述的语义表征在向量空间中进行相似度计算,得到新闻和案件的语义相似度;/nStep6、利用Step5中得到的新闻和案件的语义相似度,根据语义相似度是否大于阈值0.5判断出新闻与案件的是否具有相关性。/n

【技术特征摘要】
1.基于非对称孪生网络的新闻与案件相似度计算方法,其特征在于:
所述基于非对称孪生网络的新闻与案件相似度计算方法的具体步骤如下:
Step1、利用新闻标题压缩新闻文档,得到压缩后的新闻文档;
Step2、通过案件描述构建案件要素,案件要素集合;
Step3、利用Step2中得到的案件要素集合,抽取出Step1中得到的压缩后的新闻文档中的案件要素;
Step4、通过非对称孪生网络分别对案件描述和Step1得到的压缩后的新闻文档进行语义编码,分别得到案件描述和新闻文档的语义表征;
Step5、通过对Step4中得到的新闻文档和案件描述的语义表征在向量空间中进行相似度计算,得到新闻和案件的语义相似度;
Step6、利用Step5中得到的新闻和案件的语义相似度,根据语义相似度是否大于阈值0.5判断出新闻与案件的是否具有相关性。


2.根据权利要求1所述的基于非对称孪生网络的新闻与案件相似度计算方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、首先计算文档中每个句子与标题的相关性,计算每个文档中的句子Si与新闻标题St的相关性的公式为:Score(St,Si)=ROUGE(St,Si),然后从中选出相关性高的几个句子作为新闻文档D′的表示,具体公式为:


3.根据权利要求1所述的基于非对称孪生网络的新闻与案件相似度计算方法,其特征在于:所述步骤Step3的具体步骤:
Step3.1、通过结巴分词工具对Step1中得到的压缩后的新闻文档进行分词处理;
Step3.2、对Step3....

【专利技术属性】
技术研发人员:余正涛赵承鼎郭军军线岩团黄于欣相艳
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1