一种对海量数据进行快速匹配的算法制造技术

技术编号：32488423 阅读：18 留言：0更新日期：2022-03-02 09:54

本发明专利技术公开了一种对海量数据进行快速匹配的算法，包括HubbleDotNet将全文搜索和关系数据库整合到一起，通过SQL语句对数据库中的数据进行全文和关系查询；在TF

全部详细技术资料下载

【技术实现步骤摘要】
一种对海量数据进行快速匹配的算法

[0001]本专利技术涉及数据匹配
，尤其涉及一种对海量数据进行快速匹配的算法。

技术介绍

[0002]目前的全文搜索数据库组件的匹配相关度存在着问题，搜索到的数据往往不是最希望得到的结果。有些系统试图通过分词来解决，这种方法对问题会有所改善，但不能根本解决问题，而英文环境下，分词根本无法起到作用。HubbleDotNet的算法参考了Lucene、SQL Server的算法并做了重大改进，匹配相关度较其他同类的全文搜索数据库组件有了显著提高。系统会根据得分排序得到相匹配的数据，再采用编辑距离(Edit Distance)算法，算出其精确的匹配值。从而大大提高了海量数据的匹配速度及匹配精度。

技术实现思路

[0003]本专利技术的目的是为了解决现有技术中数据匹配得到的结果不精确的问题，而提出的一种对海量数据进行快速匹配的算法。
[0004]为了实现上述目的，本专利技术采用了如下技术方案：一种对海量数据进行快速匹配的算法，包括以下步骤：
[0005]S1、HubbleDotNet将全文搜索和关系数据库整合到一起，通过SQL语句对数据库中的数据进行全文和关系查询；
[0006]S2、在TF
‑
IDF算法的基础上增加了位置函数fp(t,d,q)：
[0007]S3、通过HubbleDotNet得到精确的数据后，系统采用编辑距离算法的的基础上，结合自身特定的递归算法，对数据进行匹配运算。
[0008]在上述的对海量...

【技术保护点】

【技术特征摘要】
1.一种对海量数据进行快速匹配的算法，其特征在于，包括以下步骤：S1、HubbleDotNet将全文搜索和关系数据库整合到一起，通过SQL语句对数据库中的数据进行全文和关系查询；S2、在TF
‑
IDF算法的基础上增加了位置函数fp(t,d,q)：S3、通过HubbleDotNet得到精确的数据后，系统采用编辑距离算法的的基础上，结合自身特定的递归算法，对数据进行匹配运算。2.根据权利要求1所述的一种对海量数据进行快速匹配的算法，其特征在于，HubbleDotNet组件本身负责对全文数据进行倒排索引，并将索引存储到表所指定的目录下，数据的存储则由和Hubble.net关联的关系数据库完成。3.根据权利要求1所述的一种对海量数据进行快速匹配的算法，其特征在于，HubbleDotNet的基...

【专利技术属性】
技术研发人员：胡永伟，
申请(专利权)人：江苏省舜禹信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人