基于内容相似性的文本数据分布式查询方法及系统技术方案

技术编号：43814150 阅读：32 留言：0更新日期：2024-12-27 13:28

本发明专利技术公开了基于内容相似性的文本数据分布式查询方法及系统，包括文本特征抽取、数据索引构建、查询处理、后续处理四个步骤。首先，通过文本特征抽取，抽取文本数据滑动窗口内的特征将其转换为特征向量序列；其后，通过数据索引构建，抽取文本子特征序列的前缀特征，并在各子特征维度上分别构建空间索引；最后，通过查询处理，在各子索引上分别基于下界距离查询过滤候选集，通过后续处理，对候选集取交集以完成与文本数据的大规模精确查询。本发明专利技术提出的文本数据分布式索引结构具有较高的空间延展性，在大数据和数据挖掘、数据库等领域可发挥重要作用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大数据、数据库、数据挖掘等领域，具体涉及一种基于内容相似性的文本数据分布式查询方法及系统。

技术介绍

1、文本数据相似性查询方法主要包括基于余弦距离、基于jaccard相似度、基于编辑距离和基于词袋的方法。余弦相似度是一种常用的文本相似性度量方法，它通过计算两个文本向量的夹角余弦值来衡量文本间的相似性。jaccard相似度则是通过计算两个集合的交集元素数目除以并集元素数目来确定相似性，该方法将文本数据看作词汇集合，尽管计算简单，但准确率不足。编辑距离衡量了两个字符串之间的相似性，通过计算将一个字符串转换为另一个字符串所需的最小编辑操作次数(插入、删除、替换等)来度量，该方法主要适用于文本精确匹配和差异分析，难以支持索引构建和高效的相似性查询。基于词袋的方法，如tf-idf，同样将文本看作词汇集合，通过统计词频或使用tf-idf等方法来比较文本相似性，然而该方法忽略了词语顺序，仅考虑词语出现的频率，对语义的相似性度量准确率欠佳。这些方法各有特点，适用于不同的应用场景。例如，余弦相似度和基于词袋的方法更适合于大规模文本数据的相...

【技术保护点】

1.基于内容相似性的文本数据分布式查询方法，其特征在于包括如下步骤：

2.根据权利要求1所述的基于内容相似性的文本数据分布式查询方法，其特征在于：所述步骤(2)中，通过各维度的子特征序列，抽取子特征序列的前缀序列特征，以构建索引；所述步骤(3)中，通过各维度的查询文本子特征序列，抽取查询文本子特征序列的前缀序列特征，在所述索引上依次计算查询文本数据的前缀序列特征与每个索引节点对应的前缀序列特征的欧氏距离，以判断相似性。

3.根据权利要求2所述的基于内容相似性的文本数据分布式查询方法，其特征在于：所述步骤(2)中，抽取每个子特征序列等长前缀序列的起始值、最终值、最大...

【技术特征摘要】

1.基于内容相似性的文本数据分布式查询方法，其特征在于包括如下步骤：

3.根据权利要求2所述的基于内容相似性的文本数据分布式查询方法，其特征在于：所述步骤(2)中，抽取每个子特征序列等长前缀序列的起始值、最终值、最大值、最小值作为特征；所述步骤(3)中，抽取每个查询文本子特征序列等长前缀序列的起始值、最终值、最大值、最小值作为特征。

4.根据权利要求2所述的基于内容相似性的文本数据分布式查询方法，其特征在于：所述步骤(2)中，在本文数据库各子特征序列的前缀序列特征集合上，构建度量索引或空间索引。

5.根据权利要求2所述的基于内容相似性的文本数据分布式查询方法，其特征在于：所述步骤(3)中，在所述索引上，依次计算查询文本数据的每个子特征序列的前缀序列特征，到索引节点对应的文本数据的前缀序列特征的欧氏距离，将距离值大于查询阈值的节点及其子树进行剪枝，返回所有距离值小于等于查询阈值的叶节点所包含的文本对象作为中间候选集。

6.根据权利要求1...

【专利技术属性】
技术研发人员：蔡青林，陈蕾英，吴雨潼，邵健，鲁伟明，陈岭，
申请(专利权)人：东海实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人