内容相似性短文本查询方法、设备、系统及存储介质技术方案

技术编号:20484947 阅读:19 留言:0更新日期:2019-03-02 19:00
本发明专利技术公开了一种内容相似性短文本查询方法、设备、系统及存储介质。本发明专利技术通过获取多个短文本样本,基于所述短文本样本的时间信息将所述短文本样本划分为多个类别,所述短文本为字符数目未超过预设数目阈值的文本,分别基于各类别中的短文本样本建立Rtree索引,获取当前文本,基于所述Rtree索引,利用Map‑Reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本,在短文本内容相似性查询中考虑时间维度,利用Map‑Reduce分布式计算模型实现了在大量文本数据下对目标文本进行高效、精确的查找。

【技术实现步骤摘要】
内容相似性短文本查询方法、设备、系统及存储介质
本专利技术涉及内容查询
,尤其涉及一种内容相似性短文本查询方法、设备、系统及存储介质。
技术介绍
随着互联网技术和以及全球定位系统的快速发展,每天互联网上会产生海量带有地理位置标签的短文本信息。人们已经不再仅仅依靠社交圈进行联系,在实际生活中也可根据地理位置进行信息共享。如何在数量庞大的数据中快速找到用户需要的有效信息成为当前急需解决的问题。传统移动社交网络下短文本内容相似性查询算法只考虑到距离位置和文本内容,忽视时间维度,得到的结果对时间不敏感,且大多数算法只针对小数量数据采用集中式环境下查询用户所需信息。而在现实生活中,用户查询得到的结果不仅需要满足时效性,而且需要在海量数据下得到快速响应,若采用集中式计算海量数据时,计算能力容易受到硬件条件的限制,降低了用户体验满意度。上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
本专利技术的主要目的在于提供一种内容相似性短文本查询方法、设备、系统及存储介质,旨在解决现有技术中短文本内容相似性查询中,查询结果对时间不敏感及查询速度慢等技术问题。为实现上述目的,本专利技术提供一种内容相似性短文本查询方法,所述方法包括以下步骤:获取多个短文本样本,基于所述短文本样本的时间信息将所述短文本样本划分为多个类别,所述短文本为字符数目未超过预设数目阈值的文本;分别基于各类别中的短文本样本建立Rtree索引;获取当前文本,基于所述Rtree索引,利用Map-Reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本。优选地,所述获取多个短文本样本,基于所述短文本样本的发布时间将所述短文本样本划分为多个类别,具体包括:获取多个短文本样本,删除所述时间信息超过预设时间阈值的短文本样本;将剩余的短文本样本划分为多个类别。优选地,所述分别基于各类别中的短文本样本建立Rtree索引,具体包括:分别获取所述类别对应的短文本样本的位置信息;基于所述短文本样本的位置信息,将所述短文本样本展示在一个二维坐标平面内;获取能够包含所述短文本样本的最小矩形,将所述最小矩形的四个顶点作为初始聚类中心,利用K-Means算法对所述短文本样本进行多次迭代聚类,获得所述短文本样本的四个聚类集合;在所述聚类集合中的短文本样本数目超过预设数目阈值时,对所述聚类集合中的短文本样本执行所述获取能够包含所述短文本样本的最小矩形,将所述最小矩形的四个顶点作为初始聚类中心,利用K-Means算法对所述短文本样本进行计算,通过多次迭代聚类,获得所述短文本样本的四个聚类集合的步骤;在所述聚类集合中的短文本样本数目未超过预设数目阈值时,将所述聚类集合的短文件本样本分别保存在预设树形结构相应的叶子节点中。优选地,所述获取当前文本,基于所述Rtree索引,利用Map-Reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本,具体包括:获取当前文本的关键字、当前位置信息、当前查询时间及查询的时间范围;获取满足所述查询的时间范围的目标Rtree索引及所述目标Rtree中满足预设空间范围的叶子节点中的候选短文本样本;基于所述当前文本的关键字、当前位置信息及当前查询时间,分别计算所述候选短文本样本与所述当前文本的综合相关性;基于所述候选短文本样本与所述当前文本的综合相关性,利用Map-Reduce分布式计算模型中的Map函数确定所述目标Rtree索引中满足预设条件的目标短文本样本;利用Map-Reduce分布式计算模型中的Reduce函数对所述目标短文样本进行汇总筛选,获得所述若干个与所述当前文本内容相似的目标短文本。优选地,所述基于所述候选短文本样本与所述当前文本的综合相关性,利用Map-Reduce分布式计算模型中的Map函数确定所述目标Rtree索引中满足预设条件的目标短文本样本,具体包括:基于与所述当前文本的综合相关性,对所述目标Rtree索引的候选短文本样本进行排序;分别获取所述目标Rtree索引的候选短文本样本中满足预设个数的与所述当前文本的综合相关性排名靠前的目标短文本样本。优选地,所述基于所述当前文本的关键字、当前位置信息及当前查询时间,分别计算所述候选短文本样本与所述当前文本的综合相关性,具体包括:获取所述候选短文本样本的关键字、位置信息及时间信息;根据所述当前文本的关键字及所述候选短文本样本的关键字,确定所述当前文本与所述候选短文本样本的文本相关性;根据所述当前文本的当前位置信息及所述候选短文本样本位置信息,确定所述当前文本与所述候选短文本样本的空间相关性;根据所述当前文本的当前查询时间及所述候选短文本样本的时间信息,确定所述当前文本与所述候选短文本样本的时间相关性;基于所述当前文本与所述候选短文本样本的文本相关性、空间相关性及时间相关性,确定所述分别计算所述候选短文本样本与所述当前文本的综合相关性。优选地,所述分别基于各类别中的短文本样本建立Rtree索引之后,所述方法还包括:每隔预设时间周期,获取新的短文本样本,建立新的Rtree索引。此外,为实现上述目的,本专利技术还提供一种内容相似性短文本查询设备,所述内容相似性短文本查询设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的内容相似性短文本查询程序,所述内容相似性短文本查询程序配置为实现如上文所述的内容相似性短文本查询方法的步骤。此外,为实现上述目的,本专利技术还提供一种内容相似性短文本查询系统,所述内容相似性短文本查询系统包括:获取模块,用于获取多个短文本样本,基于所述短文本样本的时间信息将所述短文本样本划分为多个类别,所述短文本为字符数目未超过预设数目阈值的文本;建立模块,用于分别基于各类别中的短文本样本建立Rtree索引;查找模块,用于获取当前文本,基于所述Rtree索引,利用Map-Reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本。此外,为实现上述目的,本专利技术还提供一种存储介质,所述存储介质上存储有内容相似性短文本查询程序,所述内容相似性短文本查询程序被处理器执行时实现如上文所述的内容相似性短文本查询方法的步骤。本专利技术通过获取多个短文本样本,基于所述短文本样本的时间信息将所述短文本样本划分为多个类别,所述短文本为字符数目未超过预设数目阈值的文本,分别基于各类别中的短文本样本建立Rtree索引,获取当前文本,基于所述Rtree索引,利用Map-Reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本,在短文本内容相似性查询中考虑时间维度,利用Map-Reduce分布式计算模型实现了在大量文本数据下对目标文本进行高效、精确的查找。附图说明图1是本专利技术实施例方案涉及的硬件运行环境的内容相似性短文本查询设备结构示意图;图2为本
技术实现思路
相似性短文本查询方法第一实施例的流程示意图;图3为本专利技术预设树形结构的第一示意图;图4为本
技术实现思路
相似性短文本查询系统第一实施例的流程示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。参照图1本文档来自技高网
...

【技术保护点】
1.一种内容相似性短文本查询方法,其特征在于,所述方法包括以下步骤:获取多个短文本样本,基于所述短文本样本的时间信息将所述短文本样本划分为多个类别,所述短文本为字符数目未超过预设数目阈值的文本;分别基于各类别中的短文本样本建立Rtree索引;获取当前文本,基于所述Rtree索引,利用Map‑Reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本。

【技术特征摘要】
1.一种内容相似性短文本查询方法,其特征在于,所述方法包括以下步骤:获取多个短文本样本,基于所述短文本样本的时间信息将所述短文本样本划分为多个类别,所述短文本为字符数目未超过预设数目阈值的文本;分别基于各类别中的短文本样本建立Rtree索引;获取当前文本,基于所述Rtree索引,利用Map-Reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本。2.如权利要求1所述的方法,其特征在于,所述获取多个短文本样本,基于所述短文本样本的发布时间将所述短文本样本划分为多个类别,具体包括:获取多个短文本样本,删除所述时间信息超过预设时间阈值的短文本样本;将剩余的短文本样本划分为多个类别。3.如权利要求2所述的方法,其特征在于,所述分别基于各类别中的短文本样本建立Rtree索引,具体包括:分别获取所述类别对应的短文本样本的位置信息;基于所述短文本样本的位置信息,将所述短文本样本展示在一个二维坐标平面内;获取能够包含所述短文本样本的最小矩形,将所述最小矩形的四个顶点作为初始聚类中心,利用K-Means算法对所述短文本样本进行多次迭代聚类,获得所述短文本样本的四个聚类集合;在所述聚类集合中的短文本样本数目超过预设数目阈值时,对所述聚类集合中的短文本样本执行所述获取能够包含所述短文本样本的最小矩形,将所述最小矩形的四个顶点作为初始聚类中心,利用K-Means算法对所述短文本样本进行计算,通过多次迭代聚类,获得所述短文本样本的四个聚类集合的步骤;在所述聚类集合中的短文本样本数目未超过预设数目阈值时,将所述聚类集合的短文件本样本分别保存在预设树形结构相应的叶子节点中。4.如权利要求3所述的方法,其特征在于,所述获取当前文本,基于所述Rtree索引,利用Map-Reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本,具体包括:获取当前文本的关键字、当前位置信息、当前查询时间及查询的时间范围;获取满足所述查询的时间范围的目标Rtree索引及所述目标Rtree中满足预设空间范围的叶子节点中的候选短文本样本;基于所述当前文本的关键字、当前位置信息及当前查询时间,分别计算所述候选短文本样本与所述当前文本的综合相关性;基于所述候选短文本样本与所述当前文本的综合相关性,利用Map-Reduce分布式计算模型中的Map函数确定所述目标Rtree索引中满足预设条件的目标短文本样本;利用Map-Reduce分布式计算模型中的Reduce函数对所述目标短文样本进行汇总筛选,获得所述若干个与所述当前文本内容相似的...

【专利技术属性】
技术研发人员:孙翀彭媛雷建云夏梦尹帆刘晶
申请(专利权)人:中南民族大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1