一种智能的信息上报相似内容合并方法及系统技术方案

技术编号:35156306 阅读:16 留言:0更新日期:2022-10-05 10:38
本发明专利技术涉及一种智能的信息上报相似内容合并方法及系统,属于信息合并技术领域,所述方法包括:从平台中获取信息并提取每个信息的信息内容;从所述信息内容中提取信息关键特征;根据所述信息关键特征对信息进行相似度比对;对所述相似度达到或者超过限制的信息进行合并。所述系统包括:获取模块,用于从平台中获取信息并提取每个信息的信息内容;提取模块,用于从所述信息内容中提取信息关键特征;比对模块,用于根据所述信息关键特征对信息进行相似度比对;合并模块,用于对所述相似度达到或者超过限制的信息进行合并。本发明专利技术不需要在前期花费较大的工程量去拟合,操作步骤简单,而且消耗的时间更短,效率更高。效率更高。效率更高。

【技术实现步骤摘要】
一种智能的信息上报相似内容合并方法及系统


[0001]本专利技术属于信息合并
,特别涉及一种智能的信息上报相似内容合并方法及系统。

技术介绍

[0002]信息是沟通联系工作的重要介质,政务领域信息上报工作贯穿各个环节和部门。目前信息上报工作一般由专门的信息上报人员在系统中进行填写,描述信息的基本情况,并根据信息类型进行流程审批操作。随着互联网技术的发展,信息接收渠道逐渐变多,同一类信息会从多个渠道汇集,且不同渠道的信息基本元素又存在差别,需要由信息上报人员进行主观判断是否具备相似性,存在极大的不准确性,最终导致信息上报质量低下,存在重报、漏报等情况,严重影响领导决策和工作安排。
[0003]对于文本比较相似度算法有很多方案,但都大同小异,这些算法有一些共同点,例如:对文本内容以及标题直接进行逐个比较之间的相似性(文档之间比较相似性算法,主要是直接文字比较或文本向量化比较),相似的过程运用一些距离或者是相似系数等算法;或者是整个文档信息跟某些相类似的文档的聚类中心进行比较。这些方法中,前者太耗费时间,后者聚类模型效果需要前期很大的工程量去拟合,比较麻烦。
[0004]为了解决上述问题,需要设计一种智能的信息上报相似内容合并方法及系统。

技术实现思路

[0005]针对上述问题,本专利技术提供一种智能的信息上报相似内容合并方法,所述方法包括:从平台中获取信息并提取每个信息的信息内容;从所述信息内容中提取信息关键特征;根据所述信息关键特征对信息进行相似度比对;对所述相似度达到或者超过限制的信息进行合并。
[0006]优选地,所述信息内容包括标题、上报时间、地点、信息来源、信息描述和附件;其中,所述信息描述包括人名、类型和动作。
[0007]优选地,提取所述信息关键特征包括以下步骤:对所述信息内容的数据进行数据预处理;对预处理后的所述数据进行数据清洗;对清洗后的所述数据中的关键特征进行特征识别;对识别出的特征进行加权处理。
[0008]优选地,对所述信息内容的数据进行数据预处理包括:对所述信息内容的文字格式进行同一和去除所述信息内容中的干扰性符号。
[0009]优选地,所述数据清洗的方式包括正则方式;所述正则方式为去除所述数据中的空格和特殊符号。
[0010]优选地,所述数据中的关键特征包括类别、人名、地点、时间和动作。
[0011]优选地,对所述类别进行特征提取包括输出所述信息内容所归属的类别。
[0012]优选地,对所述类别进行特征提取所采用的算法为DPCNN算法;所述DPCNN算法包括对所述数据进行标签映射和对所述数据进行离线训练。
[0013]优选地,对所述人名进行特征提取包括:对所述数据中的人名进行识别;对识别出的人名结果进行去重并进行合并处理。
[0014]优选地,对所述人名进行识别的方式包括规则匹配和lac算法识别;其中,所述规则匹配包括快速搜索出出现在系统常用业务人名清单中的人名;其中,所述系统常用业务人名清单根据以往平台上报的信息制定;所述lac算法识别包括对所述数据进行文字切分,输出人名识别标注和人名切词词性,然后根据切分输出的结果整理出人名。
[0015]优选地,对所述时间进行特征提取包括:定义提取时间规则;根据所述提取时间规则对所述数据中的内容进行匹配。
[0016]优选地,对所述动作进行特征提取包括搜索出所述数据中出现在动作信息表中的动作;所述动作信息表根据以往平台上报的信息制定。
[0017]优选地,对提取出的特征进行加权处理包括对类别、人名、地点、时间和动作进行特征词向量化。
[0018]优选地,对所述信息进行相似度比对采用faiss算法,所述faiss算法包括:对所述信息人工整理成待上报信息集合;对所述待上报信息集合中的信息进行faiss训练;对faiss训练后的数据构建faiss数据库,并为数据库中的信息的关键特征的向量设置标签;根据待上报的未处理的所述信息的关键特征在已经训练好的faiss中查询出最近的TOPK条关键特征的向量,其中TOPK的取值范围为正整数;返回前TOPK的距离最近的已经处理好的待上报信息;依次对TOPK的关键特征的向量进行相似度计算;返回相似度超过限制的关键特征的向量以及向量对应的标签。
[0019]优选地,计算所述相似度运用JACCARD系数算法,所述JACCARD系数算法的公式如下:;其中,A、B为两个不同的待上报信息集合。
[0020]优选地,对所述相似度超过限制的信息进行合并的方式包括人工选择审核信息归并和智能化归并;其中,进行所述智能化归并时需要根据相似度的值;
当相似度达到或者超过限制时,对信息进行自动合并,并根据设置规则自动提取信息上报的核心元素;当相似度未达到限制时,所述信息分开上报。
[0021]本专利技术还提供一种智能的信息上报相似内容合并系统,所述系统包括:获取模块,用于从平台中获取信息并提取每个信息的信息内容;提取模块,用于从所述信息内容中提取信息关键特征;比对模块,用于根据所述信息关键特征对信息进行相似度比对;合并模块,用于对所述相似度达到或者超过限制的信息进行合并。
[0022]优选地,提取模块,用于从所述信息内容中提取信息关键特征,包括:提取模块,用于对所述信息内容的数据进行数据预处理;对预处理后的所述数据进行数据清洗;对清洗后的所述数据中的关键特征进行特征提取;对提取出的特征进行加权处理。
[0023]本专利技术具有以下有益效果:(1)本专利技术中,在对需要上报的信息进行相似内容合并时,先从平台中获取信息并提取每个信息的信息内容,然后从信息内容中提取信息关键特征并根据信息关键特征对信息进行相似度比对,最后对相似度达到或者超过限制的信息进行合并,而相似度未达到限制的信息则分开上报,上述过程相比于现有技术而言,不需要在前期花费较大的工程量去拟合,操作步骤简单,而且消耗的时间更短,效率更高;(2)本专利技术中,在进行关键特征提取后,需要对提取出的特征名词向量化处理,并进行加权,然后根据处理后的结果进行相似度的计算,使得相似度的计算结果更加精确,对信息相似度的判断更加准确。
[0024]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
[0025]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1示出本专利技术实施例中一种智能的信息上报相似内容合并方法的方法图;图2示出本专利技术实施例中一种智能的信息上报相似内容合并方法的详细流程图;图3示出本专利技术实施例中提取信息关键特征的流程图;图4示出本专利技术实施例中提取信息关键特征的详细本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能的信息上报相似内容合并方法,其特征在于,所述方法包括:从平台中获取信息并提取每个信息的信息内容;从所述信息内容中提取信息关键特征;根据所述信息关键特征对信息进行相似度比对;对所述相似度达到或者超过限制的信息进行合并。2.根据权利要求1所述的一种智能的信息上报相似内容合并方法,其特征在于,所述信息内容包括标题、上报时间、地点、信息来源、信息描述和附件;其中,所述信息描述包括人名、类型和动作。3.根据权利要求1或2所述的一种智能的信息上报相似内容合并方法,其特征在于,提取所述信息关键特征包括以下步骤:对所述信息内容的数据进行数据预处理;对预处理后的所述数据进行数据清洗;对清洗后的所述数据中的关键特征进行特征识别;对识别出的特征进行加权处理。4.根据权利要求3所述的一种智能的信息上报相似内容合并方法,其特征在于,对所述信息内容的数据进行数据预处理包括:对所述信息内容的文字格式进行同一和去除所述信息内容中的干扰性符号。5.根据权利要求3所述的一种智能的信息上报相似内容合并方法,其特征在于,所述数据清洗的方式包括正则方式;所述正则方式为去除所述数据中的空格和特殊符号。6.根据权利要求5所述的一种智能的信息上报相似内容合并方法,其特征在于,所述数据中的关键特征包括类别、人名、地点、时间和动作。7.根据权利要求6所述的一种智能的信息上报相似内容合并方法,其特征在于,对所述类别进行特征提取包括输出所述信息内容所归属的类别。8.根据权利要求6所述的一种智能的信息上报相似内容合并方法,其特征在于,对所述类别进行特征提取所采用的算法为DPCNN算法;所述DPCNN算法包括对所述数据进行标签映射和对所述数据进行离线训练。9.根据权利要求6所述的一种智能的信息上报相似内容合并方法,其特征在于,对所述人名进行特征提取包括:对所述数据中的人名进行识别;对识别出的人名结果进行去重并进行合并处理。10.根据权利要求9所述的一种智能的信息上报相似内容合并方法,其特征在于,对所述人名进行识别的方式包括规则匹配和lac算法识别;其中,所述规则匹配包括快速搜索出出现在系统常用业务人名清单中的人名;其中,所述系统常用业务人名清单根据以往平台上报的信息制定;所述lac算法识别包括对所述数据进行文字切分,输出人名识别标注和人名切词词性,然后根据切分输出的结果整理出人名。11.根据权利要求6所述的一种智能的信息上报相似内容合并方法,其特征在于,对所述时间进行特征提取包括:
定义提取时间规...

【专利技术属性】
技术研发人员:许建兵费维进李军殷会娟
申请(专利权)人:安徽商信政通信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1