一种警情文本数据分析系统技术方案

技术编号:26970447 阅读:20 留言:0更新日期:2021-01-06 00:00
本发明专利技术提供一种警情文本数据分析系统,主要包括三个模块,即文本数据预处理模块,语义分析模块和应用接口模块,其中文本数据预处理模块能够准确地抽取出需要的信息,并将这些信息进行分词、降噪,经过预处理后成需要的信息格式;语义分析模块主要针对各警情文本建立词向量和文本向量,为后续的应用层提供原始数据;应用接口模块主要针对不同的业务需求提供特征抽取、警情分类业务功能。本发明专利技术针对分类处理的多个环节给出了综合的智能解决方案,为进一步提高特征提取系统的效果,提高分类系统的实际应用性能提供了有效的途径。

【技术实现步骤摘要】
一种警情文本数据分析系统
本专利技术属于计算机应用
,涉及采用语义分析自动进行文本分类及特征提取技术,特别涉及一种警情文本数据分析系统。
技术介绍
公安业务领域目前存在大量历史警情数据,这些数据以纯文本形式存在数据库中,内容杂乱,并且缺乏结构化信息,如何在大规模的文本异构信息中准确、快速、全面地查找到业务所需的特定信息,已经成为了一项亟需解决的问题。而文本本身的复杂性,使得自然文本处理不是一个简单的过程,需要通过综合的策略加以解决。目前的解决方法,主要是通过人工+规则(关键词或者正则表达式)的方式标注数据,标注和查询效率较低。因此迫切需要一种方法,改善文本信息杂乱的状况,可以降低查询时间,提高搜索质量,方便用户更加快速有效地获取到信息内容。
技术实现思路
本专利技术的目的是提供一种警情文本数据分析系统,能够自动进行文本分类及特征提取,不需要人工标注数据,其能自发的学习出词与词之间的相似性和某些概念之间的内在联系。本专利技术的技术方案如下:一种警情文本数据分析系统,其特征在于:主要包括三个模块,即文本数据预处理模块,语义分析模块和应用接口模块,其中文本数据预处理模块能够准确地抽取出需要的信息,并将这些信息进行分词、降噪,经过预处理后成需要的信息格式;语义分析模块主要针对各警情文本建立词向量和文本向量,为后续的应用层提供原始数据;应用接口模块主要针对不同的业务需求提供特征抽取、警情分类等业务功能。上述系统中,所述文本数据预处理模块主要通过中文分词技术,将警情文本表示为一个个词语组成的向量;中文分词技术采用开源的Ansj分词器做为中文分词器。上述系统中,在分词之后通过降噪对词语列表进行筛选,以获得一个包含关键词而没有噪音词的词语列表。本专利技术针对分类处理的多个环节给出了综合的智能解决方案,通过该方法的实施,为进一步提高特征提取系统的效果,提高分类系统的实际应用性能提供了有效的途径。具体实施方式本系统主要分为三个模块,即文本数据预处理模块,语义分析模块和应用接口模块。其中预处理模块能够准确地抽取出我们需要的信息,并将这些信息进行分词、降噪,经过预处理后成我们想要的信息格式。语义分析模块主要针对各警情文本建立词向量和文本向量,为后续的应用层提供原始数据。应用接口模块主要针对不同的业务需求提供特征抽取、警情分类等业务功能。文本预处理模块主要通过中文分词技术,将警情文本表示为一个个词语组成的向量。目前主流的分词有三种技术,一种是机械式的匹配法,一种是基于统计学计算的方法,最后一种是基于语义理解的方法。基于多种测试,虽然使用了统计法即机器学习方式的分词器在分词速度上对比基于字符串匹配法的分词器要慢很多,但是在给定大量训练数据的前提下,增量训练后效果提升非常显著。同时字符串匹配法一大弊病在于不能识别新生词汇,因此综合考量之后,本系统采用了开源的Ansj分词器做为中文分词器。通过中文分词获取到我们需要的词组之后,还要考虑一个现象,一些通用词出现的次数可能是低频词的几十倍上百倍,例如每个页面都会有“的、是、中、地、得”等等词,这些高频词也叫噪音词或停止词,如果将直接分词的结果作为原始数据进行训练的话,会出现大量的冗余且无效的数据。因此在分词之后需要通过降噪对词语列表进行筛选,以获得一个包含关键词而没有噪音词的词语列表。TF-IDF是文本处理中常用到的一种算法,它主要统计了一篇文档中一个词语对于文档的重要程度。首先对于经过分词器分词后的文本模型我们用向量doc表示即为,doc={w1|n1,…wn|nn}TF词频指的是在某篇文章中某个词语出现的频率。即词w在文档d中出现次数count(w,d)和文档d中总词数size(d)的比值:IDF反文档频率(InverseDocumentFrequency)是一个词语普遍重要性的度量。即文档总数n与词w所出现文件数docs(w,D)比值的对数:系统中我们使用WordInfo类作为词汇信息模型,其主要成员变量如下:我们结合实体命名技术,针对ansj分词后的一些关键词性进行抽取,例如下表所示:文本分析是机器学习算法的主要应用领域。然而,原始数据,符号序列不能直接反馈到算法本身,因为它们中的大多数具有固定大小的数字特征向量而不是具有可变长度的原始文本文档。因此我们需要从文本内容中提取数字特征的最常用方法的实用程序,即:为每个可能的标记标记字符串并给出整数id,例如通过使用空格和标点符号作为标记分隔符。计算每个文档中令牌的出现次数。标准化和加权,在大多数样本/文件中出现的重要性令牌减少。在该方案中,特征和样本定义如下:每个令牌发生频率(标准化或不标准化)被视为特征。给定文档的所有令牌频率的向量被认为是多变量样本。因此,文档语料库可以由矩阵表示,每个文档一行,每个标记一个列(例如,单词)出现在语料库中。我们将矢量化称为将文本文档集合转换为数字特征向量的一般过程。这种特定的策略(标记化,计数和标准化)被称为词袋法。文档由单词出现描述,同时完全忽略文档中单词的相对位置信息。一个主题模型大致上是一个分层贝叶斯模型,它与每个文档关联在“主题”上的概率分布,这些概率分布依次分布在单词上。例如,警情中的一个主题可能包括关于“盗窃”的话,例如“小偷”,“丢失”,“入户”等;关于群体性事件的警情可能包括“聚众”和“围堵”。请注意,标签“盗窃”,“群体性事件”是人类分配的后自动标签,而且算法本身只能分配具有概率的关联词。这些模型中参数估计的任务是学习主题是什么,哪些文档以什么比例使用它们。对于我们收集到的警情库中的每个警情,通过LDA主题模型我们可以使用以下的步骤来生成每一篇文章:1.从所有的主题中抽取一个主题作为某一篇文章的主题之一2.从上述抽到的主题中选取一个词汇作为该主题在这篇文章中的词汇之一3.重复第一第二步,直至生成所有的词汇最后在在对文本特征进行提取时,常采用特征独立性假设来简化特征选择的过程,达到计算时间和计算质量之间的折中。一般的方法是根据文本中词汇的特征向量,通过设置特征阀值的办法选择最佳特征作为文本特征子集,建立特征模型。本文档来自技高网...

【技术保护点】
1.一种警情文本数据分析系统,其特征在于:主要包括三个模块,即文本数据预处理模块,语义分析模块和应用接口模块,其中文本数据预处理模块能够准确地抽取出需要的信息,并将这些信息进行分词、降噪,经过预处理后成需要的信息格式;语义分析模块主要针对各警情文本建立词向量和文本向量,为后续的应用层提供原始数据;应用接口模块主要针对不同的业务需求提供特征抽取、警情分类业务功能。/n

【技术特征摘要】
1.一种警情文本数据分析系统,其特征在于:主要包括三个模块,即文本数据预处理模块,语义分析模块和应用接口模块,其中文本数据预处理模块能够准确地抽取出需要的信息,并将这些信息进行分词、降噪,经过预处理后成需要的信息格式;语义分析模块主要针对各警情文本建立词向量和文本向量,为后续的应用层提供原始数据;应用接口模块主要针对不同的业务需求提供特征抽取、警情分类业务功能。

【专利技术属性】
技术研发人员:王玺
申请(专利权)人:北京航天长峰科技工业集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1