【技术实现步骤摘要】
相似文本的处理方法、装置及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种相似文本的处理的方法、装置及计算机可读存储介质。
技术介绍
从海量文本数据中找寻用户感兴趣的文本已经成为热门趋势,但由于海量文本数据中包括大量相似度高的文本数据,如何对相似文本进行去重同样也是重要环节。目前常见的编辑距离、Jaccard相似度等计算文本相似度的方法由于计算复杂度的原因在海量文本数据下并不适用,且缺少二次去重,去重精度有待提升。
技术实现思路
本专利技术提供一种相似文本的处理方法、装置及计算机可读存储介质,其主要目的在于提供一种对文本数据集进行二次筛选的相似文本处理方案。为实现上述目的,本专利技术提供的一种相似文本的处理方法,包括:接收用户输入的比对文本和关键词集,将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序;运行所述文本爬虫程序爬取得到与所述关键词集相关的原始文本集;将所述比对文本和所述原始文本集分别进行离散化处理,得到比对词典和离散文本集;将所 ...
【技术保护点】
1.一种相似文本的处理方法,其特征在于,所述方法包括:/n接收用户输入的比对文本和关键词集,将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序;/n运行所述文本爬虫程序爬取得到与所述关键词集相关的原始文本集;/n将所述比对文本和所述原始文本集分别进行离散化处理,得到比对词典和离散文本集;/n将所述比对词典和所述离散文本集分别进行哈希转化,得到比对数字签名集和文本数字签名集,计算所述比对数字签名集和所述文本数字签名集的海明距离相似度,得到海明距离相似度集,根据所述海明距离相似度集从所述原始文本集内去除一个或者多个文本,得到优化文本集;/n分别计算所述比对词典和所述优 ...
【技术特征摘要】
1.一种相似文本的处理方法,其特征在于,所述方法包括:
接收用户输入的比对文本和关键词集,将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序;
运行所述文本爬虫程序爬取得到与所述关键词集相关的原始文本集;
将所述比对文本和所述原始文本集分别进行离散化处理,得到比对词典和离散文本集;
将所述比对词典和所述离散文本集分别进行哈希转化,得到比对数字签名集和文本数字签名集,计算所述比对数字签名集和所述文本数字签名集的海明距离相似度,得到海明距离相似度集,根据所述海明距离相似度集从所述原始文本集内去除一个或者多个文本,得到优化文本集;
分别计算所述比对词典和所述优化文本集的独热向量,得到词典独热向量集和优化文本独热向量集,计算所述词典独热向量集和所述优化文本独热向量集的余弦相似度,得到余弦相似度集,根据所述余弦相似度集去除所述优化文本集内的一个或者多个文本,完成相似文本的处理,得到搜索文本集,将所述搜索文本集反馈给用户。
2.如权利要求1所述的相似文本的处理方法,其特征在于,所述离散化处理包括:
使用动态规划法则寻找所述比对文本和所述原始文本集的所有的词语切分组合;
计算每种词语切分组合下的词语权重;
遍历得到数值最大的词语权重所对应的词语切分组合,得到该词语切分组合下的比对词典和离散文本集。
3.如权利要求2所述的相似文本的处理方法,其特征在于,所述使用动态规划法则寻找所述比对文本和所述原始文本集所有的词语切分组合,包括:
构建基于所述比对文本和所述原始文本集的梯度下降算法和迭代函数;
求解所述迭代函数的切分参数;
根据切分参数的不同,求解所述梯度下降算法的结果值,根据所述结果值得到不同的词语切分组合。
4.如权利要求1至3中任意一项所述的相似文本的处理方法,其特征在于,该方法还包括:
将所述关键词集进行拆分,得到标题关键字集和文本内容关键字集;及
所述将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序,包括:
将所述标题关键字集输入至所述文本爬虫框架内的标题关键字搜索函数内;
将所述文本内容关键字集输入至所述文本爬虫框架内的文本内容关键字搜索函数内;
编译添加了所述标题关键字集和所述文本内容关键字集的文本爬虫框架,若所述编译未通过,提示用户编译失败并重新接收所述关键词集,若所述编译通过,则生成所述文本爬虫程序。
5.如权利要求1至3中任意一项所述的相似文本的处理方法,其特征在于,所述余弦相似度的计算方法为:
COSsim_AB=||A||||B||cosδ
其中,A表示所述比对词典内词语的向量表示或哈希表示,B表示所述离散文本集内词语的向量表示或哈希表示,||A||表示取模运算,cosδ为所述比对词典内词语与所述离散文本集内词语的余弦值,所述余弦值的计算方法为:
...
【专利技术属性】
技术研发人员:黄晨,徐楠,张蓓,刘屹,沈志勇,
申请(专利权)人:招商局金融科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。