【技术实现步骤摘要】
一种基于公安文本的主动发现案件关键词的方法
本专利技术涉及关键词提取
,具体来说,涉及一种基于公安文本的主动发现案件关键词的方法。
技术介绍
目前在公安系统中,在处理案件时,很多案件文本存在有语义模糊的问题,由于案件文本是一种半结构化或者非结构化的公安警务文本,且因为业务场景的特殊性,案件文本没有固定的内容格式,语义信息较为模糊,存在大量需要解决的语境理解、上下文理解、实体消歧、词语纠错,词语变换,指代消解等技术问题;还有时空信息交错,人员身份混杂,作案手法多样,涉案脚本多变,各线索关联复杂的问题,要在如此短小但信息量巨大的文本中识别具有业务价值的信息,就需要解决实体信息区分定位的问题;并且因为案件文本具有非结构化文本的语义模糊性以及短篇文本的字数限制性,对信息量以及业务重要性进行识别与分配也很重要;而且未登陆词是NLP场景中的经典难点,尤其在案件文本中,作案工具、作案手法、作案脚本等团伙特征会随着犯罪分子的反侦察能力的提升而不断更新,并且更新频率不断加快,所以需解决在结合业务场景的前提下,主动从海量公安案件文本中发现 ...
【技术保护点】
1.一种基于公安文本的主动发现案件关键词的方法,其特征在于,包括如下步骤:/nS1:对结构化公安文本直接提取数据,对非结构化公安文本进行数据预处理;/nS2:使用基于主题模型的无监督关键词提取网络对预处理后的文本数据提取关键词;/nS3:使用融合若干种因子的关键词热度分析模型对所述步骤S2中提取的关键词进行分析,进一步突出与当前事件或当前季节相关性更紧密的关键词;/nS4:对所述步骤S3中的关键词进行实时热度分析与趋势热度分析,获取该关键词的当前实时热度并预测其后续热度发展趋势。/n
【技术特征摘要】
1.一种基于公安文本的主动发现案件关键词的方法,其特征在于,包括如下步骤:
S1:对结构化公安文本直接提取数据,对非结构化公安文本进行数据预处理;
S2:使用基于主题模型的无监督关键词提取网络对预处理后的文本数据提取关键词;
S3:使用融合若干种因子的关键词热度分析模型对所述步骤S2中提取的关键词进行分析,进一步突出与当前事件或当前季节相关性更紧密的关键词;
S4:对所述步骤S3中的关键词进行实时热度分析与趋势热度分析,获取该关键词的当前实时热度并预测其后续热度发展趋势。
2.根据权利要求1所述的一种基于公安文本的主动发现案件关键词的方法,其特征在于,对于所述步骤S1,数据预处理的输入是结构化公安文本和经预处理后的非结构化公安文本,输出是包含文本语义、领域知识、刑侦研判因子的文本嵌入向量。
3.根据权利要求1所述的一种基于公安文本的主动发现案件关键词的方法,其特征在于,对于所述步骤S2,提取关键词的输入是公安文本,输出是被提取出的关键词。
4.根据权利要求3所述的一种基于公安文本的主...
【专利技术属性】
技术研发人员:朱沐尧,王全修,杨培文,吴培辛,
申请(专利权)人:日照睿安信息科技有限公司,北京睿企信息科技有限公司,南京清月智能科技研发有限公司,上海清月人工智能科技有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。