【技术实现步骤摘要】
基于非对称孪生网络的新闻与案件相似度计算方法
本专利技术涉及基于非对称孪生网络的新闻与案件相似度计算方法,属于自然语言处理
技术介绍
法律领域新闻舆情分析是当前自然语言处理研究的热点问题,新闻与案件的相关性分析是法律领域新闻舆情分析的重要环节,是后续案件新闻舆情分析的基础、前提和支柱,其准确率直接影响到多个后续新闻舆情分析的准确与否,例如:情感分类、话题分析、摘要生成等。为了解决后续工作的质量和性能,需要构建高准确率的新闻与案件的相关性分析方法。借助孪生网络计算文本相关性是一种有效途径,其对平衡样本具有良好的学习能力,但在新闻与案件的相关性计算中面临文本不平衡和新闻文本冗余的问题,因此,提出了基于非对称孪生网络的新闻与案件相关性计算方法。
技术实现思路
本专利技术提供了基于非对称孪生网络的新闻与案件相似度计算方法,以用于解决传统文本相关性分析方法对于不平衡语料的难学习问题,以及解决了新闻文本冗余的问题,实现了新闻文本和案件描述的相似度计算且准确率高。本专利技术的技术方案是:基于非对称孪生 ...
【技术保护点】
1.基于非对称孪生网络的新闻与案件相似度计算方法,其特征在于:/n所述基于非对称孪生网络的新闻与案件相似度计算方法的具体步骤如下:/nStep1、利用新闻标题压缩新闻文档,得到压缩后的新闻文档;/nStep2、通过案件描述构建案件要素,案件要素集合;/nStep3、利用Step2中得到的案件要素集合,抽取出Step1中得到的压缩后的新闻文档中的案件要素;/nStep4、通过非对称孪生网络分别对案件描述和Step1得到的压缩后的新闻文档进行语义编码,分别得到案件描述和新闻文档的语义表征;/nStep5、通过对Step4中得到的新闻文档和案件描述的语义表征在向量空间中进行相似度 ...
【技术特征摘要】
1.基于非对称孪生网络的新闻与案件相似度计算方法,其特征在于:
所述基于非对称孪生网络的新闻与案件相似度计算方法的具体步骤如下:
Step1、利用新闻标题压缩新闻文档,得到压缩后的新闻文档;
Step2、通过案件描述构建案件要素,案件要素集合;
Step3、利用Step2中得到的案件要素集合,抽取出Step1中得到的压缩后的新闻文档中的案件要素;
Step4、通过非对称孪生网络分别对案件描述和Step1得到的压缩后的新闻文档进行语义编码,分别得到案件描述和新闻文档的语义表征;
Step5、通过对Step4中得到的新闻文档和案件描述的语义表征在向量空间中进行相似度计算,得到新闻和案件的语义相似度;
Step6、利用Step5中得到的新闻和案件的语义相似度,根据语义相似度是否大于阈值0.5判断出新闻与案件的是否具有相关性。
2.根据权利要求1所述的基于非对称孪生网络的新闻与案件相似度计算方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、首先计算文档中每个句子与标题的相关性,计算每个文档中的句子Si与新闻标题St的相关性的公式为:Score(St,Si)=ROUGE(St,Si),然后从中选出相关性高的几个句子作为新闻文档D′的表示,具体公式为:
3.根据权利要求1所述的基于非对称孪生网络的新闻与案件相似度计算方法,其特征在于:所述步骤Step3的具体步骤:
Step3.1、通过结巴分词工具对Step1中得到的压缩后的新闻文档进行分词处理;
Step3.2、对Step3....
【专利技术属性】
技术研发人员:余正涛,赵承鼎,郭军军,线岩团,黄于欣,相艳,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南;53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。