相似文本的确定方法、装置及设备制造方法及图纸

技术编号:16528912 阅读:27 留言:0更新日期:2017-11-09 20:39
本发明专利技术实施例公开了一种相似文本的确定方法、装置及设备。该方法包括:将第一目标文本和第二目标文本划分为相同数量的短文本,并筛选第一特征文本和筛选第二特征文本;基于第一特征文本与第二特征文本中字符长度较大的目标字符长度值和预设相似阈值,计算第一目标文本和第二目标文本之间允许不相同字符数;识别第一特征文本和第二特征文本之间不相同字符数;不相同字符数大于允许不相同字符数,确定第一目标文本和第二目标文本不相似;不相同字符数小于等于允许不相同字符数,确定第一目标文本和第二目标文本相似。本发明专利技术实施例能够不依赖中文分词库与中文分词算法,确定两个目标文本是否相似,减少内存的消耗和开销。

【技术实现步骤摘要】
相似文本的确定方法、装置及设备
本专利技术涉及通信
,尤其涉及一种相似文本的确定方法、装置及设备。
技术介绍
随着网络技术的发展,人们的生活越来越依赖网络和移动终端。在网络改变我们日常生活的同时,不法分子将网络信息作为其发布广告、诈骗等非法信息的渠道。不良信息很容易对人民的财产造成损失,或者对社会的稳定造成损坏,因此,目前对网络信息进行监控,尽可能限制不良信息的下发,成为一种保障网络安全的必要手段。目前,通常先制定拦截策略,然后采用计算机技术实现不良信息的自动化拦截。但是为了优化拦截的策略,提高拦截的准确性,需要抽取大量的文本信息进行人工审核。在对为了提高审核效率,通常需要对待审核的文本进行相似聚类处理。现有技术中的计算文本相似度的算法,通常依赖中文分词库与中文分词算法,即通过中文分词库与中文分词算法对待审核的文本进行分词。但是,如果待审核的文本过长,现有的文本相似度算法将会消耗很大的内存,增加内存的开销。
技术实现思路
本专利技术实施例提供了一种相似文本的确定方法、装置及设备,能够解决现有的文本相似度算法将会消耗很大的内存,增加内存的开销的问题。第一方面,本专利技术实施例提供了一种相似文本的确定方法,包括:将第一目标文本和第二目标文本划分为相同数量的短文本;从第一目标文本的短文本中筛选第一特征文本,从第二目标文本短文本中筛选第二特征文本;基于第一特征文本与第二特征文本中字符长度较大的目标字符长度值和预设相似阈值,计算第一目标文本和第二目标文本之间允许不相同字符数;识别第一特征文本和第二特征文本之间不相同字符数;不相同字符数大于允许不相同字符数,确定第一目标文本和第二目标文本不相似;不相同字符数小于等于允许不相同字符数,确定第一目标文本和第二目标文本相似。第二方面,本专利技术实施例提供了一种相似文本的确定装置,包括:划分单元,用于将第一目标文本和第二目标文本划分为相同数量的短文本;筛选单元,用于从第一目标文本的短文本中筛选第一特征文本,从第二目标文本短文本中筛选第二特征文本;计算单元,用于基于第一特征文本与第二特征文本中字符长度较大的目标字符长度值和预设相似阈值,计算第一目标文本和第二目标文本之间允许不相同字符数;识别单元,用于识别第一特征文本和第二特征文本之间不相同字符数;确定单元,用于不相同字符数大于允许不相同字符数,确定第一目标文本和第二目标文本不相似;确定单元,还用于不相同字符数小于等于允许不相同字符数,确定第一目标文本和第二目标文本相似。第三方面,本专利技术实施例提供了一种相似文本的确定设备,包括:存储器、处理器、通信接口和总线;存储器、处理器和通信接口通过总线连接并完成相互间的通信;存储器用于存储程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行一种相似文本的确定的方法,所述相似文本的确定方法包括:将第一目标文本和第二目标文本划分为相同数量的短文本;从第一目标文本的短文本中筛选第一特征文本,从第二目标文本短文本中筛选第二特征文本;基于第一特征文本与第二特征文本中字符长度较大的目标字符长度值和预设相似阈值,计算第一目标文本和第二目标文本之间允许不相同字符数;识别第一特征文本和第二特征文本之间不相同字符数;不相同字符数大于允许不相同字符数,确定第一目标文本和第二目标文本不相似;不相同字符数小于等于允许不相同字符数,确定第一目标文本和第二目标文本相似。本专利技术实施例提供了一种相似文本的确定方法、装置及设备,本专利技术实施例中,在对两个目标文本进行相似判断时,首先将两个目标文本划分为数量相同的短文本,再从短文本中提取各自的特征文本,如果两个特征文本相似,则可以说明两个目标文本也相似,即通过判断特征文本是否相似来比较两个目标文本的相似性,简化了比较两个目标文本的处理过程;在判断两个特征文本是否相似时,首先根据预设相似阈值计算出第一目标文本和第二目标文本之间允许不相同字符数,然后识别第一特征文本和第二特征文本之间不相同字符数,将识别出的不相同字符数与计算出的允许不相同字符数进行比较,来确定第一目标文本和第二目标文本之间是否相似,如此不依赖中文分词库与中文分词算法,确定两个目标文本是否相似,减少内存的消耗和开销。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术一实施例的相似文本的确定方法的示意性流程图;图2是根据本专利技术又一实施例的相似文本的确定方法的示意性流程图;图3是根据本专利技术一实施例的相似文本的确定装置的示意性框图;图4是根据本专利技术又一实施例的相似文本的确定装置的示意性框图;图5是根据本专利技术一实施例的相似文本的确定设备的示意性框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了根据本专利技术一实施例的相似文本的确定方法的示意性流程图。如图1所示,该方法包括步骤110-160。110,将第一目标文本和第二目标文本划分为相同数量的短文本。其中,为了简化确定两个目标文本是否相似的过程,本专利技术实施例将目标文本划分为短文本,如果短文本相似,则目标文本也是相似的,由此可以基于短文本来确定目标文本是否相似。在对两个目标文本进行划分时,两个目标文本划分的短文本数量需要相同,从而可以建立两个目标文本的短文本之间的一一对应关系。120,从第一目标文本的短文本中筛选第一特征文本,从第二目标文本短文本中筛选第二特征文本。其中,在对目标文本进行划分后,从各目标文本的短文本中提取出特征文本,以两个特征文本来确定两个目标文本的相似性,进一步简化确定两个目标文本是否相似的过程。130,基于第一特征文本与第二特征文本中字符长度较大的目标字符长度值和预设相似阈值,计算第一目标文本和第二目标文本之间允许不相同字符数。其中,本专利技术实施例中预设相似阈值,即第一目标文本和第二目标文本的相似程度达到预设相似阈值,即可确定两者相似。基于预设相似阈值,可以计算出如果第一目标文本和第二目标文本相似,则第一目标文本包括的字符和第二目标文本之间包括的字符相同的程度,即可以计算出第一目标文本和第二目标文本相似的情况下,第一目标文本和第二目标文本之间允许不相同字符数。140,识别第一特征文本和第二特征文本之间不相同字符数。其中,在步骤130中计算出了第一目标文本和第二目标文本相似的情况下,第一目标文本和第二目标文本之间允许不相同字符数,所以本步骤中需要识别第一特征文本和第二特征文本之间不相同字符数,然后将识别的不相同字符数与计算的允许不相同字符数进行比较,进而确定第一特征文本和第二特征文本是否相似。150,不相同字符数大于允本文档来自技高网...
相似文本的确定方法、装置及设备

【技术保护点】
一种相似文本的确定方法,其特征在于,包括:将第一目标文本和第二目标文本划分为相同数量的短文本;从所述第一目标文本的短文本中筛选第一特征文本,从所述第二目标文本短文本中筛选第二特征文本;基于所述第一特征文本与所述第二特征文本中字符长度较大的目标字符长度值和预设相似阈值,计算所述第一目标文本和所述第二目标文本之间允许不相同字符数;识别所述第一特征文本和所述第二特征文本之间不相同字符数;所述不相同字符数大于所述允许不相同字符数,确定所述第一目标文本和第二目标文本不相似;所述不相同字符数小于等于所述允许不相同字符数,确定所述第一目标文本和第二目标文本相似。

【技术特征摘要】
1.一种相似文本的确定方法,其特征在于,包括:将第一目标文本和第二目标文本划分为相同数量的短文本;从所述第一目标文本的短文本中筛选第一特征文本,从所述第二目标文本短文本中筛选第二特征文本;基于所述第一特征文本与所述第二特征文本中字符长度较大的目标字符长度值和预设相似阈值,计算所述第一目标文本和所述第二目标文本之间允许不相同字符数;识别所述第一特征文本和所述第二特征文本之间不相同字符数;所述不相同字符数大于所述允许不相同字符数,确定所述第一目标文本和第二目标文本不相似;所述不相同字符数小于等于所述允许不相同字符数,确定所述第一目标文本和第二目标文本相似。2.根据权利要求1所述相似文本的确定方法,其特征在于,所述从所述第一目标文本的短文本中筛选第一特征文本,从所述第二目标文本短文本中筛选第二特征文本,包括:基于预设映射规则将所述第一目标文本的短文本中字符和所述第二目标文本的短文本中字符均映射为数字;根据所述第一目标文本的短文本对应数字的大小筛选所述第一特征文本,根据所述第二目标文本的短文本对应数字的大小筛选第二特征文本。3.根据权利要求2所述相似文本的确定方法,其特征在于,所述基于所述第一目标文本的短文本对应数字的大小筛选所述第一特征文本,基于所述第二目标文本的短文本对应数字的大小筛选第二特征文本,包括:从所述第一目标文本的短文本对应数字中,筛选M个数值较大和/或N个数值较小的数字对应字符作为所述第一特征文本,其中,M和N为大于零的整数;从所述第二目标文本的短文本对应数字中,筛选M个数值较大和/或N个数值较小的数字对应字符作为所述第二特征文本。4.根据权利要求1所述相似文本的确定方法,其特征在于,所述基于所述第一特征文本与所述第二特征文本中字符长度较大的目标字符长度值和预设相似阈值,计算所述第一目标文本和所述第二目标文本之间允许不相同字符数,包括:根据公式计算所述允许不相同字符数,所述公式为:y=a-b×a其中,y表示所述允许不相同字符数,a表示所述目标字符长度值,b表示所述预设相似阈值。5.根据权利要求1所述相似文本的确定方法,其特征在于,所述将第一目标文本和第二目标文本划分为相同数量的短文本之前,还包括:删除所述第一目标文本的干扰信息和所述第二目标文本中的干扰信息。6.根据权利要求1所述相似文本的确定方法,其特征在于,所述不相同字符数大于所述允许不相同字符数,确定所述第一目标文本和第二目标文本不相似,包括:所述识别所述第一特征文本和所述第二特征文本之间不相同字符数未完成,所述不相同字符数大于所述允许不相同字符数,确定所述第一目标文本和第二目标文本不相似。7.一种相似文本的确定装置,其特征在于,包括:划分单元,用于将第一目标文本和第二目标文本划分为相同数量的短文本;筛选单元,用于从所述第一目标文本的短文本中筛选第一特征文本,从所述第二目标文本短文本中筛选第二特征文本;计算单元,用于基于所述第一特征文本...

【专利技术属性】
技术研发人员:徐云恒熊胜汤卫东杨晶蕾程幸生江为强
申请(专利权)人:中国移动通信集团湖北有限公司中国移动通信集团公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1