【技术实现步骤摘要】
文本去重方法、装置、设备及存储介质
[0001]本申请实施例涉及语音语义
,尤其涉及一种文本去重方法、装置、设备及存储介质。
技术介绍
[0002]文本去重是自然语言处理领域非常重要的一个部分,互联网存在大量的重复内容,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪,还是社交媒体的文本去重和聚类,都需要通过文本去重实现。文本去重的效率将影响这些自然语言处理应用场景的功能效果。但是,由于现有的文本去重方法需要标注大量数据或者反复测试重复文本的阈值,在对海量的文本去重时,需要耗费大量的资源成本,文本去重的效率低下。
技术实现思路
[0003]本申请实施例提供了一种文本去重方法、装置、设备及存储介质。本方案基于社区发现算法对相似度较高的待去重文本进行社区合并,可以节省文本去重的资源成本,有效提升文本去重的效率。
[0004]第一方面,本申请实施例提供了一种文本去重方法,该文本去重方法包括:
[0005]基于M个待去重文本构建初始文本节点图;每个待去重文本为初始文本节点图 ...
【技术保护点】
【技术特征摘要】
1.一种文本去重方法,其特征在于,所述方法包括:基于M个待去重文本构建初始文本节点图;每个待去重文本为所述初始文本节点图中的一个文本节点;每个文本节点对应一个文本社区;M为大于1的正整数;调用社区发现算法对所述初始文本节点图进行社区合并,得到参考文本节点图;所述参考文本节点图的文本节点数小于或等于M,所述参考文本节点图的文本社区数小于或等于M;获取社区合并过程中的重叠信息,并基于所述重叠信息和所述参考文本节点图中的文本节点进行回溯,得到目标文本节点图;所述重叠信息用于指示文本节点图之间的文本节点的重叠关系;所述目标文本节点图的文本节点数等于M,所述目标文本节点图的文本社区数小于或等于M;基于剪枝策略对所述目标文本节点图进行剪枝处理,得到至少一个目标文本社区,并根据每个目标文本社区内文本节点指示的重复文本执行文本去重。2.如权利要求1所述的方法,其特征在于,所述调用社区发现算法对所述初始文本节点图进行社区合并,得到参考文本节点图,包括:当第i次初始文本节点图中不存在候选文本节点时,获取所述第i次初始文本节点图中的文本社区数与文本节点数;所述候选文本节点为支持变更所属文本社区的文本节点;i为正整数;当所述第i次初始文本节点图中的文本社区数小于所述文本节点数时,获取所述第i次初始文本节点图中的N个文本社区;分别对各个所述文本社区内的文本节点进行合并处理,得到N个更新后的文本节点,并基于所述N个更新后的文本节点构建第i+1次初始文本节点图;所述第i+1次初始文本节点图的文本节点数为N,所述第i+1次初始文本节点图的文本社区数为N;N为正整数,且N<M;重复上述步骤,直至第i+n次初始文本节点图中不存在所述候选文本节点且文本社区数等于文本节点数时,将所述第i+n次初始文本节点图作为所述参考文本节点图;n大于或等于零。3.如权利要求2所述的方法,其特征在于,所述方法还包括:分别计算所述第i次初始文本节点图中每个文本节点与其相邻文本节点之间的模块度指标增益,确定每个文本节点对应的最大模块度指标增益;当所述第i次初始文本节点图中存在最大模块度指标增益大于预设阈值的文本节点时,所述第i次初始文本节点图中存在所述候选文本节点;当所述第i次初始文本节点图中各个文本节点的最大模块度指标增益均小于或等于所述预设阈值时,所述第i次初始文本节点图中不存在所述候选文本节点。4.如权利要求1
‑
3任一项所述的方法,其特征在于,所述基于M个待去重文本构建初始文本节点图,包括:对所述M个待去重文本进行相似度处理,得到两两待去重文本之间的相似度;将各个待去重文本作为文本节点,将所述两两待去重文本之间的相似度作为所述文本节点之间的边的权重,构建所述初始文本节点图。5.如权利要求4所述的...
【专利技术属性】
技术研发人员:李文斌,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。