基于多维度报警信息文本相似度分析的推荐方法技术

技术编号:24169015 阅读:36 留言:0更新日期:2020-05-16 02:20
本发明专利技术公开了一种基于多维度报警信息文本相似度分析的推荐方法,包括:非结构化公安文本是案情中涉及的报警信息文本,采用NLP技术对其格式进行预处理,输出为结构化公安文本格式;场景相关的多重深层语义相似度分析网络获取公安文本,输出为该文本不同级别的语义嵌入向量;基于多维度文本语义相似度的文本分析网络获取公安文本和不同级别的语义嵌入向量,输出为可抽取的多种实体特征;结合用户特征的报警信息文本推荐系统获取公安文本不同级别的语义嵌入向量和被抽取出的多种实体特征,输出为不同报警信息文本之间的相似度及相似报警信息推荐;相似文本推荐获取算法模型自动筛选生成综合的推荐列表,完成智能推送。

【技术实现步骤摘要】
基于多维度报警信息文本相似度分析的推荐方法
本专利技术属于公安专用场景下的人工智能
,具体涉及一种基于多维度报警信息文本相似度分析的推荐方法。
技术介绍
现阶段我国的报警信息推荐系统分为两种,一种是基于用户的推荐,根据某用户的特性推荐相关信息;另一种是根据文本内容推荐,推荐与文本信息相似的内容,本申请采用的报警信息文本推荐主要是第二种,通常是基于报警信息文本相似度的推荐,文本相似度计算的发展可大体分为三个阶段:从最开始的字面匹配近似,到第二阶段的词汇匹配相似,再到第三阶段的语义相似。一种常见的处理方式是:首先将文本数字化,并且数字化后还能保持文本的基本信息,即将文本向量化,可以使用文本分词得到的标记向量化,也可以使用TF-IDF方法,后者可以保留词在文档中的权重信息,即相当于保留了文本信息,其次,当文本获得向量化表达之后,就可以表述成向量空间的一个点,然后通过计算两个向量之间的相似度,即可表示原来文本之间的相似度。常用的向量相似度计算方法可以使用欧几里得距离、曼哈顿距离、切比雪夫距离、余弦相似度距离和海明距离等。最后,当获得文本之间的相似度之后,就可以根据相似度高低进行排序,推荐前若干个与被推荐文本相似度高的文本。计算文本相似度的算法也可以大体分为基于词向量、基于具体字符、基于概率统计和基于词嵌入的文本相似度算法,结合上文的几种向量相似度计算方法,其中欧几里得距离、曼哈顿距离和余弦距离适用于词向量,而海明距离适用于基于字符的文本相似度度量方法。
技术实现思路
针对相关技术中的上述技术问题,本专利技术提出一种基于多维度报警信息文本相似度分析的推荐方法,能够结合公安领域专业知识和多维度深层次的文本语义,并针对用户特征提供不同粒度级别的报警信息文本推荐。为实现上述技术目的,本专利技术的技术方案是这样实现的:一种基于多维度报警信息文本相似度分析的推荐方法,其特征在于,S1非结构化公安文本是案情中涉及的报警信息文本;采用NLP技术将非结构化公安文本进行格式预处理,融合多粒度深层次文本语义和公安领域知识的文本嵌入向量后输出给场景相关的深层语义相似度分析网络;S2结构化公安文本是根据公安文本数据库提取的报警信息;运用已经构建的统一数据视图的数据库系统,执行相应操作自动提取相对应的数据,融合多粒度深层次文本语义和公安领域知识的文本嵌入向量后输出给场景相关的深层语义相似度分析网络;S3场景相关的深层语义相似度分析网络获取结构化报警信息文本;采用BiLSTM+CRF模型转化报警信息文本成准确的公安文本信息,综合理解多粒度文本信息,分析并甄别刑事侦查细分的关注点、语义相似性数据集,输出为不同级别的语义嵌入向量;S4基于多维度文本语义相似度的文本分析网络获取准确的公安文本和不同级别的语义嵌入向量,融入文本的多重深层语义特征,抽取得到实体链接信息归属和作案手法识别的实体特征;S5结合用户特征的报警信息文本推荐系统获取公安文本不同级别的语义嵌入向量和被抽取出的多种实体特征,结合多维信息网络合理分配各维度权重的报警信息文本进行相似度分析,生成合理且全面兼顾广度和深度的报警信息文本的相似推荐;S6相似文本推荐获取公安报警信息文本和用户特征结合公安领域知识,运用海量警报数据库和算法模型自动筛选生成综合的推荐列表,完成智能推送,极大的节省了出警前的甄别时间。进一步地,S1所述非结构化公安文本是案情中所涉及的报警信息,采用NLP技术对其格式进行预处理,输出为结构化公安文本格式。进一步地,S3所述场景相关的深层语义相似度分析网络获取自然语言报警信息文本由于格式各异,语义模糊,采用BiLSTM+CRF模型,挖掘深层次语义信息,通过已知的大量公安文本数据库进行预训练,提炼出精确的案件语义信息。进一步地,S3所述场景相关的深层语义相似度分析网络获取刑事侦查信息甄别关注点与新获知领域知识融合,同时结合上下文语义信息进一步地理解案件的语义信息,通过多层次多粒度对报警文本信息进行数据和数据集的理解,能够全面准确理解文本语义为深入的分析提供参考。进一步地,S4所述基于多维度文本语义相似度的文本分析网络采用多重的语义嵌入向量进行不同层次不同粒度的文本理解后,将本申请特有的数据集进行解析、纠错、变化及语义表示的文本分析,进行事件数据的抽取、指代消解、时间合并、实体关联、事件相似度及段落级别的文本分析。进一步地,S5所述结合用户特征的报警信息文本推荐系统通过场景相关的深层语义相似度分析网络融入了公安领域的专业知识,及基于多维度文本语义相似度的文本分析网络融入的多重语义嵌入向量特征的分析结果,结合用户行为特征信息,输出结合用户特征的个性化综合推荐。本专利技术的有益效果:本申请通过自主算法模型,能够实现报警信息关键要素的抽取和区分,对于报警信息文本中描述的报警时间、案发时间、报警地点、案发地点、报警人、受害人、嫌疑人、民警、其他人员、作案工具等关键要素进行了准确抽取和区分,抽取即NER(命名实体抽取)的过程,区分是指对于同类实体进行了业务定义,即区分“报警时间”和“案发时间”,区分“报警地点”和“案发地点”,区分“涉案物品”和“作案工具,以及不同身份涉案人员的区分。实现作案手法的准确识别,基于人员的行为分析准确识别出警报情信息述的核心作案手法,并输出可读、可解释性的结果,为民警进行报警信息甄别以及后续报警信息相似度计算提供支撑。基于业务定义实现信息权重的合理分配,报警信息基本要素包括:时间、地点、人员、作案工具、作案手法,人员聚合信息包括:体貌特征、身份证号、手机号等,以及报警信息热词(另有专利《基于警情文本的主动发现报警信息热词的方法》中详细描述)等多维信息的权重分配方面,结合多种业务需求与定义,举例说明:号码类信息在业务中被称作硬串联要素,也就是说当两条报警信息的犯罪团伙的手机号码相同时,那么基本就可以确认是同一团伙的串案,所以在多维信息的权重分配方面充分结合了业务场景,得出十分具有业务价值的报警信息相似度。实现相似报警信息的智能推送,多维度报警信息相似度计算得到报警信息相似度参考值,对于单条报警信息,自动按照相似度参考值在海量报警信息库中筛选相似报警信息并进行智能推送,极大缩短了出警时间,为出警提供数据集参考。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术实施例所述的基于多维度报警信息文本相似度分析的推荐方法的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围本文档来自技高网...

【技术保护点】
1.一种基于多维度报警信息文本相似度分析的推荐方法,其特征在于,包括如下步骤:/nS1非结构化公安文本是案情中涉及的报警信息文本;/n采用NLP技术将非结构化公安文本进行格式预处理,融合多粒度深层次文本语义和公安领域知识的文本嵌入向量后输出给场景相关的深层语义相似度分析网络;/nS2结构化公安文本是根据公安文本数据库提取的报警信息;/n运用已经构建的统一数据视图的数据库系统,执行相应操作自动提取相对应的数据,融合多粒度深层次文本语义和公安领域知识的文本嵌入向量后输出给场景相关的深层语义相似度分析网络;/nS3场景相关的深层语义相似度分析网络获取结构化报警信息文本;/n采用 BiLSTM+CRF 模型转化报警信息文本成准确的公安文本信息,综合理解多粒度文本信息,分析并甄别刑事侦查细分的关注点、语义相似性数据集,输出为不同级别的语义嵌入向量;/nS4基于多维度文本语义相似度的文本分析网络获取准确的公安文本和不同级别的语义嵌入向量,融入文本的多重深层语义特征,抽取得到实体链接信息归属和作案手法识别的实体特征;/nS5结合用户特征的报警信息文本推荐系统获取公安文本不同级别的语义嵌入向量和被抽取出的多种实体特征,结合多维信息网络合理分配各维度权重的报警信息文本进行相似度分析,生成合理且全面兼顾广度和深度的报警信息文本的相似推荐;/nS6相似文本推荐获取公安报警信息文本和用户特征结合公安领域知识,运用海量警报数据库和算法模型自动筛选生成综合的推荐列表,完成智能推送,极大的节省了出警前的甄别时间。/n...

【技术特征摘要】
1.一种基于多维度报警信息文本相似度分析的推荐方法,其特征在于,包括如下步骤:
S1非结构化公安文本是案情中涉及的报警信息文本;
采用NLP技术将非结构化公安文本进行格式预处理,融合多粒度深层次文本语义和公安领域知识的文本嵌入向量后输出给场景相关的深层语义相似度分析网络;
S2结构化公安文本是根据公安文本数据库提取的报警信息;
运用已经构建的统一数据视图的数据库系统,执行相应操作自动提取相对应的数据,融合多粒度深层次文本语义和公安领域知识的文本嵌入向量后输出给场景相关的深层语义相似度分析网络;
S3场景相关的深层语义相似度分析网络获取结构化报警信息文本;
采用BiLSTM+CRF模型转化报警信息文本成准确的公安文本信息,综合理解多粒度文本信息,分析并甄别刑事侦查细分的关注点、语义相似性数据集,输出为不同级别的语义嵌入向量;
S4基于多维度文本语义相似度的文本分析网络获取准确的公安文本和不同级别的语义嵌入向量,融入文本的多重深层语义特征,抽取得到实体链接信息归属和作案手法识别的实体特征;
S5结合用户特征的报警信息文本推荐系统获取公安文本不同级别的语义嵌入向量和被抽取出的多种实体特征,结合多维信息网络合理分配各维度权重的报警信息文本进行相似度分析,生成合理且全面兼顾广度和深度的报警信息文本的相似推荐;
S6相似文本推荐获取公安报警信息文本和用户特征结合公安领域知识,运用海量警报数据库和算法模型自动筛选生成综合的推荐列表,完成智能推送,极大的节省了出警前的甄别时间。


2.根据权利要求1所述基于多维度报警信息文本相似度分析的推荐方法,其特征在于,
S1所述非结构...

【专利技术属性】
技术研发人员:朱沐尧王全修杨培文吴培辛
申请(专利权)人:北京睿企信息科技有限公司日照睿安信息科技有限公司南京清月智能科技研发有限公司上海清月人工智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1