内容相似性短文本查询方法、设备、系统及存储介质技术方案

技术编号：20484947 阅读：19 留言：0更新日期：2019-03-02 19:00

本发明专利技术公开了一种内容相似性短文本查询方法、设备、系统及存储介质。本发明专利技术通过获取多个短文本样本，基于所述短文本样本的时间信息将所述短文本样本划分为多个类别，所述短文本为字符数目未超过预设数目阈值的文本，分别基于各类别中的短文本样本建立Rtree索引，获取当前文本，基于所述Rtree索引，利用Map‑Reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本，在短文本内容相似性查询中考虑时间维度，利用Map‑Reduce分布式计算模型实现了在大量文本数据下对目标文本进行高效、精确的查找。

全部详细技术资料下载

【技术实现步骤摘要】
内容相似性短文本查询方法、设备、系统及存储介质
本专利技术涉及内容查询
，尤其涉及一种内容相似性短文本查询方法、设备、系统及存储介质。
技术介绍
随着互联网技术和以及全球定位系统的快速发展，每天互联网上会产生海量带有地理位置标签的短文本信息。人们已经不再仅仅依靠社交圈进行联系，在实际生活中也可根据地理位置进行信息共享。如何在数量庞大的数据中快速找到用户需要的有效信息成为当前急需解决的问题。传统移动社交网络下短文本内容相似性查询算法只考虑到距离位置和文本内容，忽视时间维度，得到的结果对时间不敏感，且大多数算法只针对小数量数据采用集中式环境下查询用户所需信息。而在现实生活中，用户查询得到的结果不仅需要满足时效性，而且需要在海量数据下得到快速响应，若采用集中式计算海量数据时，计算能力容易受到硬件条件的限制，降低了用户体验满意度。上述内容仅用于辅助理解本专利技术的技术方案，并不代表承认上述内容是现有技术。
技术实现思路
本专利技术的主要目的在于提供一种内容相似性短文本查询方法、设备、系统及存储介质，旨在解决现有技术中短文本内容相似性查询中，查询结果对时间不敏感及查询速度慢等技术问题。为实现上述目的，本专利技术提供一种内容相似性短文本查询方法，所述方法包括以下步骤：获取多个短文本样本，基于所述短文本样本的时间信息将所述短文本样本划分为多个类别，所述短文本为字符数目未超过预设数目阈值的文本；分别基于各类别中的短文本样本建立Rtree索引；获取当前文本，基于所述Rtree索引，利用Map-Reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目...

【技术保护点】
1.一种内容相似性短文本查询方法，其特征在于，所述方法包括以下步骤：获取多个短文本样本，基于所述短文本样本的时间信息将所述短文本样本划分为多个类别，所述短文本为字符数目未超过预设数目阈值的文本；分别基于各类别中的短文本样本建立Rtree索引；获取当前文本，基于所述Rtree索引，利用Map‑Reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本。

【技术特征摘要】
1.一种内容相似性短文本查询方法，其特征在于，所述方法包括以下步骤：获取多个短文本样本，基于所述短文本样本的时间信息将所述短文本样本划分为多个类别，所述短文本为字符数目未超过预设数目阈值的文本；分别基于各类别中的短文本样本建立Rtree索引；获取当前文本，基于所述Rtree索引，利用Map-Reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本。2.如权利要求1所述的方法，其特征在于，所述获取多个短文本样本，基于所述短文本样本的发布时间将所述短文本样本划分为多个类别，具体包括：获取多个短文本样本，删除所述时间信息超过预设时间阈值的短文本样本；将剩余的短文本样本划分为多个类别。3.如权利要求2所述的方法，其特征在于，所述分别基于各类别中的短文本样本建立Rtree索引，具体包括：分别获取所述类别对应的短文本样本的位置信息；基于所述短文本样本的位置信息，将所述短文本样本展示在一个二维坐标平面内；获取能够包含所述短文本样本的最小矩形，将所述最小矩形的四个顶点作为初始聚类中心，利用K-Means算法对所述短文本样本进行多次迭代聚类，获得所述短文本样本的四个聚类集合；在所述聚类集合中的短文本样本数目超过预设数目阈值时，对所述聚类集合中的短文本样本执行所述获取能够包含所述短文本样本的最小矩形，将所述最小矩形的四个顶点作为初始聚类中心，利用K-Means算法对所述短文本样本进行计算，通过多次迭代聚类，获得所述短文本样本的四个聚类集合的步骤；在所述聚类集合中的短文本样本数目未超过预设数目阈值时，将所述聚类集合的短文件本样本分别保存在预设树形结构相应的叶子节点中。4.如权利要求3所述的方法，其特征在于，所述获取当前文本，基于所述Rtree索引，利用Map-Reduce分布式计算模型在所述短文本样本中查找若干个与所述当前文本内容相似的目标短文本，具体包括：获取当前文本的关键字、当前位置信息、当前查询时间及查询的时间范围；获取满足所述查询的时间范围的目标Rtree索引及所述目标Rtree中满足预设空间范围的叶子节点中的候选短文本样本；基于所述当前文本的关键字、当前位置信息及当前查询时间，分别计算所述候选短文本样本与所述当前文本的综合相关性；基于所述候选短文本样本与所述当前文本的综合相关性，利用Map-Reduce分布式计算模型中的Map函数确定所述目标Rtree索引中满足预设条件的目标短文本样本；利用Map-Reduce分布式计算模型中的Reduce函数对所述目标短文样本进行汇总筛选，获得所述若干个与所述当前文本内容相似的...

【专利技术属性】
技术研发人员：孙翀，彭媛，雷建云，夏梦，尹帆，刘晶，
申请(专利权)人：中南民族大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人