一种新的基于相似度过滤的大数据保序匹配与检索算法制造技术

技术编号:17994572 阅读:58 留言:0更新日期:2018-05-19 11:45
本发明专利技术公开了一种新的基于相似度过滤的大数据保序匹配与检索算法,包括(1)数据转换,基于变化幅度趋势的字符序列二进制转换方法,该方法通过相邻三个点之间的关系定义二进制序列,从而准确反映三点之间是凸增长或凹增长关系;(2)数据归约,为方便候选序列与模式之间的相似度计算,提出基于趋势比例的数据归约方法,将候选序列与模式均归约到区间[0,1],归约后候选序列与模式的最小值均为0,最大值均为1;(3)相似度计算与过滤。为区分不同变化幅度的凸增长或凹增长之间的震荡幅度,对归约后的序列计算相似度并进行过滤,最终按相似度大小给出与模式匹配的各子序列集合。

A new order matching and retrieval algorithm for large data based on similarity filtering

The invention discloses a new large data preserving sequence matching and retrieval algorithm based on similarity filtering, including (1) data conversion, character sequence binary conversion based on change amplitude trend, which defines binary sequence through the relationship between adjacent three points, thus accurately reflecting the convex growth or concave growth between three points. (2) data reduction, in order to calculate the similarity between candidate sequences and patterns, a data reduction method based on trend ratio is proposed, and the candidate sequences and patterns are all reduced to interval [0,1]. The minimum value of the candidate sequences and patterns after reduction is 0, the maximum is 1; (3) similarity calculation and filtering. In order to distinguish the amplitude between the convex and concave growth of different range of changes, the similarity degree is calculated and filtered, and each subsequence set is finally matched according to the size of the similarity.

【技术实现步骤摘要】
一种新的基于相似度过滤的大数据保序匹配与检索算法
本专利技术涉及一种新的基于相似度过滤的大数据保序匹配与检索算法。
技术介绍
大数据快速匹配与检索成为众多大数据应用急需解决的关键问题!比如视频检索与分析、股票分析与预测、气候分析与预测等。尽管通过云计算、超级计算等先进基础设施和并行分布式处理手段可以有效提高大数据处理的速度。但寻求一种精确、快速的匹配与检索算法对于提高大数据应用数据匹配和检索精确度异常重要。通过抽象与归约等措施。大数据应用中的数据对象可抽象为具有若干属性的点集或序列,进而将大数据匹配与检索问题转化为点集或序列的匹配与检索。更进一步将点集抽象为一组字符或数字,问题的本质就成为字符或数字序列的保序匹配与检索,字符或数字序列的保序匹配是一类重要的模式匹配问题。问题描述如下:假设给定长度为n的字符串T和长度为m的模式P,字符串保序匹配的任务是在T中找出所有与P变化趋势一致且长度相等的子字符串u。如图1所示,假设P=(10,22,15,30,20,18,27),T=(22,85,79,24,42,27,62,40,32,47,69,55,25),那么T中与P相一致的子字符串u=本文档来自技高网...
一种新的基于相似度过滤的大数据保序匹配与检索算法

【技术保护点】
一种新的基于相似度过滤的大数据保序匹配与检索算法,其特征在于,包括如下步骤:(1)数据转换,基于变化幅度趋势的字符序列二进制转换方法,该方法通过相邻三个点之间的关系定义二进制序列,从而准确反映三点之间是凸增长或凹增长关系;(2)数据归约,为方便候选序列与模式之间的相似度计算,提出基于趋势比例的数据归约方法,将候选序列与模式均归约到区间[0,1],归约后候选序列与模式的最小值均为0,最大值均为1;(3)相似度计算与过滤;为区分不同变化幅度的凸增长或凹增长之间的震荡幅度,对归约后的序列计算相似度并进行过滤,最终按相似度大小给出与模式匹配的各子序列集合。

【技术特征摘要】
1.一种新的基于相似度过滤的大数据保序匹配与检索算法,其特征在于,包括如下步骤:(1)数据转换,基于变化幅度趋势的字符序列二进制转换方法,该方法通过相邻三个点之间的关系定义二进制序列,从而准确反映三点之间是凸增长或凹增长关系;(2)数据归约,为方便候选序列与模式之间的相似度计算...

【专利技术属性】
技术研发人员:岑锦潮
申请(专利权)人:佛山租我科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1