相似文本的确定方法、装置及设备制造方法及图纸

技术编号：16528912 阅读：27 留言：0更新日期：2017-11-09 20:39

本发明专利技术实施例公开了一种相似文本的确定方法、装置及设备。该方法包括：将第一目标文本和第二目标文本划分为相同数量的短文本，并筛选第一特征文本和筛选第二特征文本；基于第一特征文本与第二特征文本中字符长度较大的目标字符长度值和预设相似阈值，计算第一目标文本和第二目标文本之间允许不相同字符数；识别第一特征文本和第二特征文本之间不相同字符数；不相同字符数大于允许不相同字符数，确定第一目标文本和第二目标文本不相似；不相同字符数小于等于允许不相同字符数，确定第一目标文本和第二目标文本相似。本发明专利技术实施例能够不依赖中文分词库与中文分词算法，确定两个目标文本是否相似，减少内存的消耗和开销。

全部详细技术资料下载

【技术实现步骤摘要】
相似文本的确定方法、装置及设备
本专利技术涉及通信
，尤其涉及一种相似文本的确定方法、装置及设备。
技术介绍
随着网络技术的发展，人们的生活越来越依赖网络和移动终端。在网络改变我们日常生活的同时，不法分子将网络信息作为其发布广告、诈骗等非法信息的渠道。不良信息很容易对人民的财产造成损失，或者对社会的稳定造成损坏，因此，目前对网络信息进行监控，尽可能限制不良信息的下发，成为一种保障网络安全的必要手段。目前，通常先制定拦截策略，然后采用计算机技术实现不良信息的自动化拦截。但是为了优化拦截的策略，提高拦截的准确性，需要抽取大量的文本信息进行人工审核。在对为了提高审核效率，通常需要对待审核的文本进行相似聚类处理。现有技术中的计算文本相似度的算法，通常依赖中文分词库与中文分词算法，即通过中文分词库与中文分词算法对待审核的文本进行分词。但是，如果待审核的文本过长，现有的文本相似度算法将会消耗很大的内存，增加内存的开销。
技术实现思路
本专利技术实施例提供了一种相似文本的确定方法、装置及设备，能够解决现有的文本相似度算法将会消耗很大的内存，增加内存的开销的问题。第一方面，本专利技术实施例提供了一种相似文本的确定方法，包括：将第一目标文本和第二目标文本划分为相同数量的短文本；从第一目标文本的短文本中筛选第一特征文本，从第二目标文本短文本中筛选第二特征文本；基于第一特征文本与第二特征文本中字符长度较大的目标字符长度值和预设相似阈值，计算第一目标文本和第二目标文本之间允许不相同字符数；识别第一特征文本和第二特征文本之间不相同字符数；不相同字符数大于允许不相同字符数，确定第一...
相似文本的确定方法、装置及设备

【技术保护点】
一种相似文本的确定方法，其特征在于，包括：将第一目标文本和第二目标文本划分为相同数量的短文本；从所述第一目标文本的短文本中筛选第一特征文本，从所述第二目标文本短文本中筛选第二特征文本；基于所述第一特征文本与所述第二特征文本中字符长度较大的目标字符长度值和预设相似阈值，计算所述第一目标文本和所述第二目标文本之间允许不相同字符数；识别所述第一特征文本和所述第二特征文本之间不相同字符数；所述不相同字符数大于所述允许不相同字符数，确定所述第一目标文本和第二目标文本不相似；所述不相同字符数小于等于所述允许不相同字符数，确定所述第一目标文本和第二目标文本相似。

【技术特征摘要】
1.一种相似文本的确定方法，其特征在于，包括：将第一目标文本和第二目标文本划分为相同数量的短文本；从所述第一目标文本的短文本中筛选第一特征文本，从所述第二目标文本短文本中筛选第二特征文本；基于所述第一特征文本与所述第二特征文本中字符长度较大的目标字符长度值和预设相似阈值，计算所述第一目标文本和所述第二目标文本之间允许不相同字符数；识别所述第一特征文本和所述第二特征文本之间不相同字符数；所述不相同字符数大于所述允许不相同字符数，确定所述第一目标文本和第二目标文本不相似；所述不相同字符数小于等于所述允许不相同字符数，确定所述第一目标文本和第二目标文本相似。2.根据权利要求1所述相似文本的确定方法，其特征在于，所述从所述第一目标文本的短文本中筛选第一特征文本，从所述第二目标文本短文本中筛选第二特征文本，包括：基于预设映射规则将所述第一目标文本的短文本中字符和所述第二目标文本的短文本中字符均映射为数字；根据所述第一目标文本的短文本对应数字的大小筛选所述第一特征文本，根据所述第二目标文本的短文本对应数字的大小筛选第二特征文本。3.根据权利要求2所述相似文本的确定方法，其特征在于，所述基于所述第一目标文本的短文本对应数字的大小筛选所述第一特征文本，基于所述第二目标文本的短文本对应数字的大小筛选第二特征文本，包括：从所述第一目标文本的短文本对应数字中，筛选M个数值较大和/或N个数值较小的数字对应字符作为所述第一特征文本，其中，M和N为大于零的整数；从所述第二目标文本的短文本对应数字中，筛选M个数值较大和/或N个数值较小的数字对应字符作为所述第二特征文本。4.根据权利要求1所述相似文本的确定方法，其特征在于，所述基于所述第一特征文本与所述第二特征文本中字符长度较大的目标字符长度值和预设相似阈值，计算所述第一目标文本和所述第二目标文本之间允许不相同字符数，包括：根据公式计算所述允许不相同字符数，所述公式为：y＝a-b×a其中，y表示所述允许不相同字符数，a表示所述目标字符长度值，b表示所述预设相似阈值。5.根据权利要求1所述相似文本的确定方法，其特征在于，所述将第一目标文本和第二目标文本划分为相同数量的短文本之前，还包括：删除所述第一目标文本的干扰信息和所述第二目标文本中的干扰信息。6.根据权利要求1所述相似文本的确定方法，其特征在于，所述不相同字符数大于所述允许不相同字符数，确定所述第一目标文本和第二目标文本不相似，包括：所述识别所述第一特征文本和所述第二特征文本之间不相同字符数未完成，所述不相同字符数大于所述允许不相同字符数，确定所述第一目标文本和第二目标文本不相似。7.一种相似文本的确定装置，其特征在于，包括：划分单元，用于将第一目标文本和第二目标文本划分为相同数量的短文本；筛选单元，用于从所述第一目标文本的短文本中筛选第一特征文本，从所述第二目标文本短文本中筛选第二特征文本；计算单元，用于基于所述第一特征文本...

【专利技术属性】
技术研发人员：徐云恒，熊胜，汤卫东，杨晶蕾，程幸生，江为强，
申请(专利权)人：中国移动通信集团湖北有限公司，中国移动通信集团公司，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人