文本去重方法、装置、设备及存储介质制造方法及图纸

技术编号:34128844 阅读:14 留言:0更新日期:2022-07-14 14:54
本申请实施例提供了一种文本去重方法、装置、设备及存储介质,涉及人工智能技术领域,包括:基于M个待去重文本构建初始文本节点图;调用社区发现算法对初始文本节点图进行社区合并,得到参考文本节点图;获取社区合并过程中的重叠信息,并基于重叠信息和参考文本节点图中的文本节点进行回溯,得到目标文本节点图,基于剪枝策略对目标文本节点图进行剪枝处理,得到至少一个目标文本社区,并根据每个目标文本社区内文本节点指示的重复文本执行文本去重。可以节省文本去重的资源成本,有效提升文本去重的效率。本申请可以涉及区块链技术,如可从区块链节点中获取待去重文本。本申请还涉及数字医疗技术领域,如对医疗数据进行文本去重。重。重。

【技术实现步骤摘要】
文本去重方法、装置、设备及存储介质


[0001]本申请实施例涉及语音语义
,尤其涉及一种文本去重方法、装置、设备及存储介质。

技术介绍

[0002]文本去重是自然语言处理领域非常重要的一个部分,互联网存在大量的重复内容,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪,还是社交媒体的文本去重和聚类,都需要通过文本去重实现。文本去重的效率将影响这些自然语言处理应用场景的功能效果。但是,由于现有的文本去重方法需要标注大量数据或者反复测试重复文本的阈值,在对海量的文本去重时,需要耗费大量的资源成本,文本去重的效率低下。

技术实现思路

[0003]本申请实施例提供了一种文本去重方法、装置、设备及存储介质。本方案基于社区发现算法对相似度较高的待去重文本进行社区合并,可以节省文本去重的资源成本,有效提升文本去重的效率。
[0004]第一方面,本申请实施例提供了一种文本去重方法,该文本去重方法包括:
[0005]基于M个待去重文本构建初始文本节点图;每个待去重文本为初始文本节点图中的一个文本节点;每个文本节点对应一个文本社区;M为大于1的正整数;
[0006]调用社区发现算法对初始文本节点图进行社区合并,得到参考文本节点图;该参考文本节点图的文本节点数小于或等于M,该参考文本节点图的文本社区数小于或等于M;
[0007]获取社区合并过程中的重叠信息,并基于重叠信息和参考文本节点图进行回溯,得到目标文本节点图;该重叠信息用于指示文本节点图之间的文本节点的重叠关系;该目标文本节点图的文本节点数等于M,该目标文本节点图的文本社区数小于或等于M;
[0008]基于剪枝策略对目标文本节点图进行剪枝处理,得到至少一个目标文本社区,并根据每个目标文本社区内文本节点指示的重复文本执行文本去重。
[0009]第二方面,本申请实施例提供了一种文本去重装置,该文本去重装置包括:
[0010]构建单元,用于基于M个待去重文本构建初始文本节点图;每个待去重文本为初始文本节点图中的一个文本节点;每个文本节点对应一个文本社区;M为大于1的正整数;
[0011]社区合并单元,用于调用社区发现算法对初始文本节点图进行社区合并,得到参考文本节点图;该参考文本节点图的文本节点数小于或等于M,该参考文本节点图的文本社区数小于或等于M;
[0012]回溯单元,用于获取社区合并过程中的重叠信息,并基于重叠信息和参考文本节点图进行回溯,得到目标文本节点图;该重叠信息用于指示文本节点图之间的文本节点的重叠关系;该目标文本节点图的文本节点数等于M,该目标文本节点图的文本社区数小于或等于M;
[0013]剪枝处理单元,用于基于剪枝策略对目标文本节点图进行剪枝处理,得到至少一个目标文本社区,并根据每个目标文本社区内文本节点指示的重复文本执行文本去重
[0014]第三方面,本申请实施例还提供了一种文本去重设备,包括输入接口、输出接口,该文本去重设备还包括:
[0015]处理器,适于实现一条或多条指令;以及,
[0016]计算机存储介质,该计算机存储介质存储有一条或多条指令,该一条或多条指令适于由处理器加载并执行第一方面所述的方法。
[0017]第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序指令,计算机程序指令被处理器执行时,用于执行第一方面所述的方法。
[0018]在本申请实施例中,文本去重设备可以基于M个待去重文本构建初始文本节点图,并调用社区发现算法对初始文本节点图进行社区合并,得到参考文本节点图,获取社区合并过程中的重叠信息,并基于重叠信息和参考文本节点图中的文本节点进行回溯,得到目标文本节点图。相比于通过由大量标注文本语义特征训练得到的深度神经网络模型进行文本去重的方法,本申请基于社区发现算法的半监督文本去重方法无需标注大量数据,极大的减少了资源成本,可以高效识别重复文本,提升文本去重的效率。除此之外,本申请基于非重复文本阈值对目标文本节点图进行剪枝处理,无需通过大量的标注数据反复测试重复文本阈值,通过少量的标注数据就可以确定非重复文本阈值,可以进一步节省资源成本,提升文本去重的效率。
附图说明
[0019]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本申请实施例提供的一种文本去重系统的架构示意图;
[0021]图2是本申请实施例提供的一种文本去重方法的流程示意图;
[0022]图3是本申请实施例提供的初始文本节点图的示意图;
[0023]图4是本申请实施例提供的一种社区合并的示意图;
[0024]图5是本申请实施例提供的一种变更社区的示意图;
[0025]图6是本申请实施例提供的另一种文本去重方法的流程示意图;
[0026]图7是本申请实施例提供的一种BERT模型的结构示意图;
[0027]图8是本申请实施例提供的一种文本去重装置的结构示意图;
[0028]图9是本申请实施例提供的一种文本去重设备的结构示意图。
具体实施方式
[0029]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本申请保护的范围。
[0030]本申请实施例提出了一种文本去重方法、装置、设备及存储介质,在该方法中,文本去重设备可以调用社区发现算法对基于待去重文本构建的初始文本节点图进行社区合并,得到参考文本节点图;基于重叠信息和参考文本节点图进行回溯,得到目标文本节点图,并基于剪枝策略对目标文本节点图进行剪枝处理,得到至少一个目标文本社区,并根据每个目标文本社区内文本节点指示的重复文本执行文本去重。可以基于社区发现算法对相似度较高的待去重文本进行社区合并,极大的减少了资源成本,可以高效识别重复文本,提升文本去重的效率。
[0031]在一个实施例中,该文本去重方法可应用在如图1所示的文本去重系统中,如图1所示,该文本去重系统可至少包括:文本存储设备11以及文本去重设备12。其中,文本存储设备11可以用于存储待去重文本,该文本存储设备11是具有存储功能的设备。例如,该文本存储设备11可以是如图1所示的服务器,该服务器的数量可以是一个或多个,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、内容分发网络(Content Delivery Network,CDN)、中间件服务、域名服务、安本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本去重方法,其特征在于,所述方法包括:基于M个待去重文本构建初始文本节点图;每个待去重文本为所述初始文本节点图中的一个文本节点;每个文本节点对应一个文本社区;M为大于1的正整数;调用社区发现算法对所述初始文本节点图进行社区合并,得到参考文本节点图;所述参考文本节点图的文本节点数小于或等于M,所述参考文本节点图的文本社区数小于或等于M;获取社区合并过程中的重叠信息,并基于所述重叠信息和所述参考文本节点图中的文本节点进行回溯,得到目标文本节点图;所述重叠信息用于指示文本节点图之间的文本节点的重叠关系;所述目标文本节点图的文本节点数等于M,所述目标文本节点图的文本社区数小于或等于M;基于剪枝策略对所述目标文本节点图进行剪枝处理,得到至少一个目标文本社区,并根据每个目标文本社区内文本节点指示的重复文本执行文本去重。2.如权利要求1所述的方法,其特征在于,所述调用社区发现算法对所述初始文本节点图进行社区合并,得到参考文本节点图,包括:当第i次初始文本节点图中不存在候选文本节点时,获取所述第i次初始文本节点图中的文本社区数与文本节点数;所述候选文本节点为支持变更所属文本社区的文本节点;i为正整数;当所述第i次初始文本节点图中的文本社区数小于所述文本节点数时,获取所述第i次初始文本节点图中的N个文本社区;分别对各个所述文本社区内的文本节点进行合并处理,得到N个更新后的文本节点,并基于所述N个更新后的文本节点构建第i+1次初始文本节点图;所述第i+1次初始文本节点图的文本节点数为N,所述第i+1次初始文本节点图的文本社区数为N;N为正整数,且N<M;重复上述步骤,直至第i+n次初始文本节点图中不存在所述候选文本节点且文本社区数等于文本节点数时,将所述第i+n次初始文本节点图作为所述参考文本节点图;n大于或等于零。3.如权利要求2所述的方法,其特征在于,所述方法还包括:分别计算所述第i次初始文本节点图中每个文本节点与其相邻文本节点之间的模块度指标增益,确定每个文本节点对应的最大模块度指标增益;当所述第i次初始文本节点图中存在最大模块度指标增益大于预设阈值的文本节点时,所述第i次初始文本节点图中存在所述候选文本节点;当所述第i次初始文本节点图中各个文本节点的最大模块度指标增益均小于或等于所述预设阈值时,所述第i次初始文本节点图中不存在所述候选文本节点。4.如权利要求1

3任一项所述的方法,其特征在于,所述基于M个待去重文本构建初始文本节点图,包括:对所述M个待去重文本进行相似度处理,得到两两待去重文本之间的相似度;将各个待去重文本作为文本节点,将所述两两待去重文本之间的相似度作为所述文本节点之间的边的权重,构建所述初始文本节点图。5.如权利要求4所述的...

【专利技术属性】
技术研发人员:李文斌
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1