一种相似文本分析方法技术

技术编号:20221759 阅读:34 留言:0更新日期:2019-01-28 20:16
本发明专利技术特别涉及一种相似文本分析方法。该相似文本分析方法,包括simhash值计算过程和相似性比较过程两部分;使用simhash计算文本simhash值,并将取得的simhash值分组存储到数据库中;当需要对文本的相似度进行比较时,只需要用当前文本的simhash对库中其他文本的simhash进行海明距离计算,即可找到最相近的文本。该相似文本分析方法,解决了传统技术所存在的低效、计算结果存在延迟的问题;而且simhash搭配海明距离的计算方式与常见的文本距离计算方式不同,其hash值提前完成计算,避免了后续直接对文本数据的操作,提高了单次计算速度,且计算过程由之前离线定时计算改为了实时计算的方式,不在有计算结果延迟的问题,本身不需要对大数据组件进行依赖,降低了使用和维护的成本。

【技术实现步骤摘要】
一种相似文本分析方法
本专利技术涉及应用数据挖掘
,特别涉及一种相似文本分析方法。
技术介绍
在现今互联网信息行业中,非结构化数据(UnstructuredData)占据了全部数据的百分之70以上,其中有过半以上为文本数据。这些文本数据可能包括了网页、用户文档、网络实时资讯、新闻、微博等,如何高效的利用这些资源,是互联网数据挖掘领域常见的技术困难之一。文本相似性分析(Textsimilarityanalysis)是文本数据挖掘所包括的常用技术,其目的是通过算法对不同的长短文本进行解析、比较,计算出同一段文本与其他文本数据的相似程度。这项技术可用于资讯推荐、相似文章去重、文库检索等多种互联网应用场景。互联网行业中的文本数据一般来自用户的手动上传、网络爬虫的定期采集等,往往存在数据量较大、格式复杂、冗余内容较多以及更新频繁的特点。目前文本的相似性计算通常需要先对一篇文本文档进行格式解析,转换为通用的纯文本格式,之后再使用如Levenshtein,Difflib等距离计算算法将当前的文本与库中的每一个文本比较,最后将计算出的相似性距离排序,取出最相近的几个。此类算法实现不仅复杂,计算本文档来自技高网...

【技术保护点】
1.一种相似文本分析方法,其特征在于:包括simhash值计算过程和相似性比较过程两部分;使用simhash计算文本simhash值,取得文本的simhash值,并将取得的simhash值分组存储到数据库中;当需要对文本的相似度进行比较时,只需要用当前文本的simhash对库中其他文本的simhash进行海明距离计算,即可找到最相近的文本。

【技术特征摘要】
1.一种相似文本分析方法,其特征在于:包括simhash值计算过程和相似性比较过程两部分;使用simhash计算文本simhash值,取得文本的simhash值,并将取得的simhash值分组存储到数据库中;当需要对文本的相似度进行比较时,只需要用当前文本的simhash对库中其他文本的simhash进行海明距离计算,即可找到最相近的文本。2.根据权利要求1所述的相似文本分析方法,其特征在于:所述simhash值计算过程包括以下步骤:(1)对文本进行解析,根据格式提取出其中的纯文本内容;(2)使用文本关键词提取算法从文本中提取出关键词,并过滤包括停用词在内的错误关键词。(3)使用关键词生成simhash结果;(4)将取得的simhash值分组存储到数据库中。3.根据权利要求2所述的相似文本分析方法,其特征在于:所述步骤(1)中,对任意数据源推送文本数据进行解析,删除其中格式信息,转换为纯文本数据。4.根据权利要求2所述的相似文本分析方法,其特...

【专利技术属性】
技术研发人员:解一豪胡晓庆周庆勇
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1