一种警情文本数据分析系统技术方案

技术编号：26970447 阅读：20 留言：0更新日期：2021-01-06 00:00

本发明专利技术提供一种警情文本数据分析系统，主要包括三个模块，即文本数据预处理模块，语义分析模块和应用接口模块，其中文本数据预处理模块能够准确地抽取出需要的信息，并将这些信息进行分词、降噪，经过预处理后成需要的信息格式；语义分析模块主要针对各警情文本建立词向量和文本向量，为后续的应用层提供原始数据；应用接口模块主要针对不同的业务需求提供特征抽取、警情分类业务功能。本发明专利技术针对分类处理的多个环节给出了综合的智能解决方案，为进一步提高特征提取系统的效果，提高分类系统的实际应用性能提供了有效的途径。

全部详细技术资料下载

【技术实现步骤摘要】
一种警情文本数据分析系统
本专利技术属于计算机应用
，涉及采用语义分析自动进行文本分类及特征提取技术，特别涉及一种警情文本数据分析系统。
技术介绍
公安业务领域目前存在大量历史警情数据，这些数据以纯文本形式存在数据库中，内容杂乱，并且缺乏结构化信息，如何在大规模的文本异构信息中准确、快速、全面地查找到业务所需的特定信息，已经成为了一项亟需解决的问题。而文本本身的复杂性,使得自然文本处理不是一个简单的过程,需要通过综合的策略加以解决。目前的解决方法，主要是通过人工+规则(关键词或者正则表达式)的方式标注数据，标注和查询效率较低。因此迫切需要一种方法，改善文本信息杂乱的状况，可以降低查询时间，提高搜索质量，方便用户更加快速有效地获取到信息内容。
技术实现思路
本专利技术的目的是提供一种警情文本数据分析系统，能够自动进行文本分类及特征提取，不需要人工标注数据，其能自发的学习出词与词之间的相似性和某些概念之间的内在联系。本专利技术的技术方案如下：一种警情文本数据分析系统，其特征在于：主要包括三个模块，即文本数据预处理模块，语义分析模块和应用接口模块，其中文本数据预处理模块能够准确地抽取出需要的信息，并将这些信息进行分词、降噪，经过预处理后成需要的信息格式；语义分析模块主要针对各警情文本建立词向量和文本向量，为后续的应用层提供原始数据；应用接口模块主要针对不同的业务需求提供特征抽取、警情分类等业务功能。上述系统中，所述文本数据预处理模块主要通过中文分词技术，将警情文本表示为一个个词语组...

【技术保护点】
1.一种警情文本数据分析系统，其特征在于：主要包括三个模块，即文本数据预处理模块，语义分析模块和应用接口模块，其中文本数据预处理模块能够准确地抽取出需要的信息，并将这些信息进行分词、降噪，经过预处理后成需要的信息格式；语义分析模块主要针对各警情文本建立词向量和文本向量，为后续的应用层提供原始数据；应用接口模块主要针对不同的业务需求提供特征抽取、警情分类业务功能。/n

【技术特征摘要】
1.一种警情文本数据分析系统，其特征在于：主要包括三个模块，即文本数据预处理模块，语义分析模块和应用接口模块，其中文本数据预处理模块能够准确地抽取出需要的信息，并将这些信息进行分词、降噪，经过预处理后成需要的信息格式；语义分析模块主要针对各警情文本建立词向量和文本向量，为后续的应用层提供原始数据；应用接口模块主要针对不同的业务需求提供特征抽取、警情分类业务功能。

【专利技术属性】
技术研发人员：王玺，
申请(专利权)人：北京航天长峰科技工业集团有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人