【技术实现步骤摘要】
本专利技术涉及信息
,尤其涉及一种数据查询方法及装置。
技术介绍
字符串模糊查询问题,又称为字符串相似度查询问题,一直是数据查询与处理领域的研究热点,在交叉研究领域得到广泛应用,如:在数据库和数据仓库中,表之间通过字符串相似度连接来完成数据集成与清洗;生物信息学中DNA或蛋白质序列的近似模式匹配;搜索引擎对用户输入错误时的“do you mean”提示功能;应用软件的拼写检查和纠错坐寸o字符串相似度是通过“相似度函数”或“距离函数”的计算结果来度量的。常用相似度函数有:0verlap相似度、Jaccard相似度、Cosine相似度、Dice相似度等。相似度函数常被用于文本集合处理,例如文本的分类和聚类等。常用的距离函数包括:编辑距离、海明距离、欧氏距离、曼哈顿距离等。编辑距离是将一个字符串r通过“插入”、“删除”、“替换”三种单字符操作,变换另外一个字符串s所需要最小的操作次数。用ed(r,s)表示字符串r和s之间的编辑距离,其取值范围为非负整数,距离越小表明越相似,为0时则表示精确匹配。计算两个字符串的编辑距离是通过动态规划算法实现的,算法时间复杂度为0 ...
【技术保护点】
一种数据流环境下的模糊关键字的查询方法,其特征在于,包括:接收用户提供的查询条件,所述查询条件包括查询关键字、编辑距离阈值以及滑动窗口宽度;提取所述查询关键字的特征值,组成关键字特征索引;提取当前滑动窗口中基本窗口的特征值,组成滑动窗口的特征索引,所述滑动窗口包含设定数目的基本窗口,所述滑动窗口的特征索引为该滑动窗口中所有基本窗口的特征索引组成的队列;在达到预设的查询触发条件时,触发对当前滑动窗口的查询;根据所述关键字特征索引和编辑距离阈值,对当前滑动窗口的特征索引进行过滤,得到满足过滤下限的候选字符串集。
【技术特征摘要】
1.一种数据流环境下的模糊关键字的查询方法,其特征在于,包括: 接收用户提供的查询条件,所述查询条件包括查询关键字、编辑距离阈值以及滑动窗口宽度; 提取所述查询关键字的特征值,组成关键字特征索引; 提取当前滑动窗口中基本窗口的特征值,组成滑动窗口的特征索引,所述滑动窗口包含设定数目的基本窗口,所述滑动窗口的特征索引为该滑动窗口中所有基本窗口的特征索引组成的队列; 在达到预设的查询触发条件时,触发对当前滑动窗口的查询; 根据所述关键字特征索引和编辑距离阈值,对当前滑动窗口的特征索引进行过滤,得到满足过滤下限的候选字符串集。2.根据权利要求1所述的数据查询方法,其特征在于,在所述根据所述关键字特征索引和编辑距离阈值对当前滑动窗口的特征索引进行过滤得到满足过滤下限的候选字符串集之后,还包括: 验证所述候选字符串集中的各个候选字符串与查询关键字之间的实际编辑距离,与所述编辑距离阈值比较,将实际编辑距离小于或等于编辑距离阈值的字符串作为验证结果存入对应的基本窗口中; 根据实际编辑距离对所述验证结果进行排序; 输出排序后的验证结果序列。3.根据权利要求1所述的数据查询方法,其特征在于,所述预设的查询触发条件为:有m个基本窗口更新至滑动窗口,其中,m为自然数。4.根据权利要求1所述的数据查询方法,其特征在于,所述基本窗口的特征索引通过如下方式获得: 对基本窗口中每个兀组进行字符串提取,然后对每个字符串添加3个特殊字符串,进行q-chunk特征提取,提取到的chunk特征组成为一个倒排索引,该倒排索引即为该基本窗口的特征索引,其中,S值由下式确定:5.根据权利要求1所述的数据查询方法,其特征在于,所述关键字特征索引、基本窗口的特征索引均为倒排表索引,滑动窗口的特征索引为基本窗口的特征索引组成的队列。...
【专利技术属性】
技术研发人员:崔甲,孟丹,王伟平,陈重韬,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。