一种隐性关键词提取方法、终端设备及存储介质技术

技术编号:33143212 阅读:60 留言:0更新日期:2022-04-22 13:54
本发明专利技术涉及一种隐性关键词提取方法、终端设备及存储介质,该方法中包括:S1:设定分类维度和每个分类维度下包含的不同类别,按照每个分类维度下的各类别对取证数据进行文本提取,并构建为不同类别下的文本库;S2:对各类别下的文本库中的文本进行分词处理,将分词处理后的结果组建为各类别下的词组库;S3:针对每个词组库中的词进行过滤处理;S4:计算词组库中各词与已知关键词进行相似度,剔除相似度小于相似度阈值的词;S5:计算词组库中各词在取证数据中的权重,剔除权重小于权重阈值的词;S6:根据经过上述步骤处理后的词组库得到各类别下的隐性关键词。本发明专利技术实现了对海量取证数据中的涉案隐性关键词的自动挖掘。中的涉案隐性关键词的自动挖掘。中的涉案隐性关键词的自动挖掘。

【技术实现步骤摘要】
一种隐性关键词提取方法、终端设备及存储介质


[0001]本专利技术涉及取证
,尤其涉及一种隐性关键词提取方法、终端设备及存储介质。

技术介绍

[0002]随着移动互联网技术的高速发展,手机取证数据越来越多地出现在各类案件工作中,基于涉案关键词的分析方法在案件侦办过程中往往能起到关键支撑作用,特别是在尚未掌握明确线索时,利用关键词往往可以快速实现类案线索的挖掘,对案件进行突破,大大提高侦办工作人员的工作效率。
[0003]现有的涉案关键词的使用中,一方面随着涉案人员专业知识和反侦查意识的增强,往往采用隐性关键词进行非法活动,频繁变更、层出不穷的新型涉案关键词无法及时被掌握,导致相关案件线索难以发现,给案件的侦查打击工作带来了不便;另一方面由于非法活动呈现地缘性特点,在不同区域集中呈现不同类型,因此传统分析总结的关键词库难以适应全国各地的情况和时代的发展。

技术实现思路

[0004]为了解决上述问题,本专利技术提出了一种隐性关键词提取方法、终端设备及存储介质。
[0005]具体方案如下:r/>[0006]一本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种隐性关键词提取方法,其特征在于,包括以下步骤:S1:设定分类维度和每个分类维度下包含的不同类别,按照每个分类维度下的各类别对取证数据进行文本提取,并构建为不同类别下的文本库;S2:对各类别下的文本库中的文本进行分词处理,将分词处理后的结果组建为各类别下的词组库;S3:针对每个词组库中的词进行过滤处理;S4:基于经过步骤S3处理后的词组库,针对词组库中的每个词,将其与该词组库对应类别下的已知关键词进行相似度计算,在词组库中剔除相似度小于相似度阈值的词;S5:基于经过步骤S4处理后的词组库,针对词组库中的每个词,通过IF

IDF算法计算每个词在取证数据中的权重,在词组库中剔除权重不符合权重范围的词;S6:根据经过步骤S5处理后的词组库,得到各类别下的隐性关键词。2.根据权利要求1所述的隐性关键词提取方法,其特征在于:分类维度包括案件类型、案发区域、涉案人户籍地、涉案人民族、应用类型和采集时间。3.根据权利要求1所述的隐性关键词提取方法,其特征在于:取证数据为通联数据,通联数据的来源为手机短信、即时聊天内容、电子邮箱、微博、贴吧和数据法词库中的一种或多种。4.根据权利要求1所述的隐性关键词提取方法,其特征在于:步骤S1中在构建文本库之前还包括对用于构建文本库的文本进行预处理,预处理包括:去重处理、无效数据去除处理和将半结构化或结构化数据转换为文本格式的结构化数据。5.根据权利要求1所述的隐性关键词提取方法,其特征在于:步骤S3中的过滤处理包括以下步...

【专利技术属性】
技术研发人员:陈云杜新胜吴松洋蔡勇恩汤增荣
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1