基于相似度的数据对比查询方法及系统技术方案

技术编号:19822024 阅读:72 留言:0更新日期:2018-12-19 14:47
公开了一种基于相似度的数据对比查询方法及系统。该方法可以包括:分析待查字符串,提取待查字符串的多个关键词;检索多个关键词,获得多个对比字符串;将待查字符串分别与每一个对比字符串进行计算,获得对比字符串对应的相似度系数;根据相似度系数的大小,对多个对比字符串进行排序。本发明专利技术通过对比待查字符串与对比字符串,计算相似度系数,实现快速精准的查询数据。

【技术实现步骤摘要】
基于相似度的数据对比查询方法及系统
本专利技术涉及信息
,更具体地,涉及一种基于相似度的数据对比查询方法及系统。
技术介绍
大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,其具有5大特点:大量、高速、多样、价值、真实性。但是,目前的大数据查询多为人力手动,效率较低。因此,有必要开发一种基于相似度的数据对比查询方法及系统。公开于本专利技术
技术介绍
部分的信息仅仅旨在加深对本专利技术的一般
技术介绍
的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
技术实现思路
本专利技术提出了一种基于相似度的数据对比查询方法及系统,其能够通过对比待查字符串与对比字符串,计算相似度系数,实现快速精准的查询数据。根据本专利技术的一方面,提出了一种基于相似度的数据对比查询方法。所述方法可以包括:分析待查字符串,提取所述待查字符串的多个关键词;检索所述多个关键词,获得多个对比字符串;将所述待查字符串分别与每一个所述对比字符串进行计算,获得所述对比字符串对应的相似度系数;根据所述相似度系数的大小,对所述多个对比字符串进行排序。优选地,每一个所述对比字符串包括至少一个所述关键词。优选地,还包括:将所述多个关键词根据重要程度进行排序,并对每一个关键词赋予重点因子。优选地,所述相似度系数为:Fj=∑Aiwi(1)其中,Fj表示第j个对比字符串的相似度系数,j取[1,M],M表示对比字符串的个数,wi表示该对比字符串与待查字符串相同的关键词,Ai表示该关键词对应的重点因子,i取[1,N],N表示关键词的个数。根据本专利技术的另一方面,提出了一种基于相似度的数据对比查询系统,所述系统可以包括:处理器,用于分析待查字符串,提取所述待查字符串的多个关键词;检索器,用于检索所述多个关键词,获得多个对比字符串;计算单元,用于将所述待查字符串分别与每一个所述对比字符串进行计算,获得所述对比字符串对应的相似度系数;显示单元,用于根据所述相似度系数的大小,对所述多个对比字符串进行排序。优选地,每一个所述对比字符串包括至少一个所述关键词。优选地,还包括:将所述多个关键词根据重要程度进行排序,并对每一个关键词赋予重点因子。优选地,所述相似度系数为:Fj=∑Aiwi(1)其中,Fj表示第j个对比字符串的相似度系数,j取[1,M],M表示对比字符串的个数,wi表示该对比字符串与待查字符串相同的关键词,Ai表示该关键词对应的重点因子,i取[1,N],N表示关键词的个数。本专利技术的方法和装置具有其它的特性和优点,这些特性和优点从并入本文中的附图和随后的具体实施方式中将是显而易见的,或者将在并入本文中的附图和随后的具体实施方式中进行详细陈述,这些附图和具体实施方式共同用于解释本专利技术的特定原理。附图说明通过结合附图对本专利技术示例性实施方式进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显,其中,在本专利技术示例性实施方式中,相同的参考标号通常代表相同部件。图1示出了根据本专利技术的基于相似度的数据对比查询方法的步骤的流程图。具体实施方式下面将参照附图更详细地描述本专利技术。虽然附图中显示了本专利技术的优选实施方式,然而应该理解,可以以各种形式实现本专利技术而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本专利技术更加透彻和完整,并且能够将本专利技术的范围完整地传达给本领域的技术人员。图1示出了根据本专利技术的基于相似度的数据对比查询方法的步骤的流程图。在该实施方式中,根据本专利技术的基于相似度的数据对比查询方法可以包括:步骤101,分析待查字符串,提取待查字符串的多个关键词;步骤102,检索多个关键词,获得多个对比字符串;步骤103,将待查字符串分别与每一个对比字符串进行计算,获得对比字符串对应的相似度系数;以及步骤104,根据相似度系数的大小,对多个对比字符串进行排序。在一个示例中,每一个对比字符串包括至少一个关键词。在一个示例中,还包括:将多个关键词根据重要程度进行排序,并对每一个关键词赋予重点因子。在一个示例中,相似度系数为:Fj=∑Aiwi(1)其中,Fj表示第j个对比字符串的相似度系数,j取[1,M],M表示对比字符串的个数,wi表示该对比字符串与待查字符串相同的关键词,Ai表示该关键词对应的重点因子,i取[1,N],N表示关键词的个数。具体地,根据本专利技术的基于相似度的数据对比查询方法可以包括:根据待查字符串,通过分析,提取待查字符串的多个关键词,将多个关键词根据重要程度进行排序,并对每一个关键词赋予重点因子,基于多个关键词,通过检索,获得多个对比字符串,其中,每一个对比字符串包括至少一个关键词,将对比字符串与待查字符串相同的关键词及其对应的重点因子代入公式(1),计算求取每一个对比字符串对应的相似度系数,按照相似度系数从大到小,对多个对比字符串进行排序,并按顺序显示多个对比字符串。本方法通过对比待查字符串与对比字符串,计算相似度系数,实现快速精准的查询数据。应用示例为便于理解本专利技术实施方式的方案及其效果,以下给出一个具体应用示例。本领域技术人员应理解,该示例仅为了便于理解本专利技术,其任何具体细节并非意在以任何方式限制本专利技术。根据本专利技术的基于相似度的数据对比查询方法包括:待查字符串为华为P20(极光色,6GB,128GB),通过分析,提取待查字符串的5个关键词,并将5个关键词根据重要程度进行排序为华为、P20、128GB、极光色、6GB,并对每一个关键词赋予重点因子:华为为0.3、P20为0.25、128GB为0.25、极光色为0.1、6GB为0.1,基于5个关键词,通过检索,获得3个对比字符串为华为P20黑色6GB64GB、华为Mate10与P20Pro,将对比字符串与待查字符串相同的关键词及其对应的重点因子代入公式(1),计算求取华为P20黑色6GB64GB对应的相似度系数为0.65,华为Mate10对应的相似度系数为0.3,P20Pro对应的相似度系数为0.25,按照相似度系数从大到小,对3个对比字符串进行排序,并按顺序显示3个对比字符串为:华为P20黑色6GB64GB、华为Mate10、P20Pro。综上所述,本专利技术通过对比待查字符串与对比字符串,计算相似度系数,实现快速精准的查询数据。本领域技术人员应理解,上面对本专利技术的实施方式的描述的目的仅为了示例性地说明本专利技术的实施方式的有益效果,并不意在将本专利技术的实施方式限制于所给出的任何示例。根据本专利技术的实施方式,提供了一种基于相似度的数据对比查询系统,系统可以包括:处理器,用于分析待查字符串,提取待查字符串的多个关键词;检索器,用于检索多个关键词,获得多个对比字符串;计算单元,用于将待查字符串分别与每一个对比字符串进行计算,获得对比字符串对应的相似度系数;显示单元,用于根据相似度系数的大小,对多个对比字符串进行排序。在一个示例中,每一个对比字符串包括至少一个关键词。在一个示例中,还包括:将多个关键词根据重要程度进行排序,并对每一个关键词赋予重点因子。在一个示例中,相似度系数为:Fj=∑Aiwi(1)其中,Fj表示第j个对比字符串的相似度系数,j取本文档来自技高网...

【技术保护点】
1.一种基于相似度的数据对比查询方法,包括:分析待查字符串,提取所述待查字符串的多个关键词;检索所述多个关键词,获得多个对比字符串;将所述待查字符串分别与每一个所述对比字符串进行计算,获得所述对比字符串对应的相似度系数;根据所述相似度系数的大小,对所述多个对比字符串进行排序。

【技术特征摘要】
1.一种基于相似度的数据对比查询方法,包括:分析待查字符串,提取所述待查字符串的多个关键词;检索所述多个关键词,获得多个对比字符串;将所述待查字符串分别与每一个所述对比字符串进行计算,获得所述对比字符串对应的相似度系数;根据所述相似度系数的大小,对所述多个对比字符串进行排序。2.根据权利要求1所述的基于相似度的数据对比查询方法,其中,每一个所述对比字符串包括至少一个所述关键词。3.根据权利要求1所述的基于相似度的数据对比查询方法,其中,还包括:将所述多个关键词根据重要程度进行排序,并对每一个关键词赋予重点因子。4.根据权利要求3所述的基于相似度的数据对比查询方法,其中,所述相似度系数为:Fj=∑Aiwi(1)其中,Fj表示第j个对比字符串的相似度系数,j取[1,M],M表示对比字符串的个数,wi表示该对比字符串与待查字符串相同的关键词,Ai表示该关键词对应的重点因子,i取[1,N],N表示关键词的个数。5.一种基于相似度的数据对...

【专利技术属性】
技术研发人员:孙英辉姚天
申请(专利权)人:芜湖智权大数据运营有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1