涉案舆情的话题检测方法和装置制造方法及图纸

技术编号：27511011 阅读：26 留言：0更新日期：2021-03-02 18:41

本申请属于计算机技术领域，具体涉及一种涉案舆情的话题检测方法和装置。涉案舆情的话题检测方法包括：获取包含案件舆情文本的舆情文本数据；基于预先确定的案件要素信息和关键词在案件舆情文本中的位置，确定关键词的附加权重；根据附加权重和基于TF

全部详细技术资料下载

【技术实现步骤摘要】
涉案舆情的话题检测方法和装置

[0001]本申请属于计算机
，具体涉及一种涉案舆情的话题检测方法和装置。

技术介绍

[0002]话题检测与跟踪(Topic Detection and Tracking,TDT)是自然语言处理领域的一项技术，它以海量信息流为研究对象，通过对新闻主题的监控和提取，来检测和捕捉用户感兴趣的信息。由于网络中的信息量太大，与话题相关的信息经常散布在不同的地方，并且在不同的时间分布在许多不同的地方，所以仅靠这些孤立的信息，人们很难全面掌握事件的信息。在这种情况下，话题检测技术应运而生，该技术可以帮助人们整合分散的信息，将同一个话题的信息作为一个整体进行组织，以供人们理解。
[0003]现有的话题检测方法不考虑案件要素信息，只对舆情文本进行话题检测，由于涉案舆情相似词语较多，将面临着数据特征稀疏问题和维度灾难问题，不仅算法开销大，而且无法有效提取案件特征，导致话题检测的准确率低、检测效率也不高。

技术实现思路

[0004](一)要解决的技术问题
[0005]鉴于现有技术的上述缺点、不足，本申请提供一种涉案舆情的话题检测方法和装置。
[0006](二)技术方案
[0007]为达到上述目的，本申请采用如下技术方案：
[0008]第一方面，本申请实施例提供一种涉案舆情的话题检测方法，该方法包括：
[0009]S10、获取包含案件舆情文本的舆情文本数据；
[0010]S20、基于预先确定的案件要素信息，确定所述舆情文本数据中的关...

【技术保护点】

【技术特征摘要】
1.一种涉案舆情的话题检测方法，其特征在于，该方法包括：S10、获取包含案件舆情文本的舆情文本数据；S20、基于预先确定的案件要素信息，确定所述舆情文本数据中的关键词，基于所述关键词在案件舆情文本中的位置，确定所述关键词的附加权重；S30、通过TF-IDF算法确定所述舆情文本数据的基本权重，基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示；S40、通过自编码器对所述文本向量表示进行降维，得到低维文本向量表示；S50、基于所述低维文本向量表示，采用谱聚类算法进行聚类，以确定案件舆情文本的话题。2.根据权利要求1所述的涉案舆情的话题检测方法，其特征在于，所述案件要素信息包括涉案人员信息、事件信息、法律机关相关信息。3.根据权利要求2所述的涉案舆情的话题检测方法，其特征在于，所述附加权重的计算公式为：W
a
(x)＝Len(d)/W1+Len(d)/W2+Len(d)/W
i
+...+Len(d)/Wn其中，d表示案件舆情文本，Len(d)表示案件舆情文本的长度，Wi是案件要素x第i次出现在文本d中的位置，n为案件要素在文本d中出现的总次数，i为正整数，且取值为1到n。4.根据权利要求3所述的涉案舆情的话题检测方法，其特征在于，基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示，包括：通过关键词权重公式计算得到关键词权重，所述关键词权重公式为：W(x)＝W
b
(x)+W
a
(x)/3其中，W
b
(x)表示关键词的基本权重，W
a
(x)表示关键词的附加权重；将所述舆情文本数据中非关键词的基本权重作为非关键词权重；将所述舆情文本数据用所述关键词权重和所述非关键词权重表示，得到所述舆情文本数据的文本向量表示。5.根据权利要求1所述的涉案舆情的话题...

【专利技术属性】
技术研发人员：刘杰，王佳薇，冀俊宇，
申请(专利权)人：首都师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人