海量信息搜索系统技术方案

技术编号：33308381 阅读：15 留言：0更新日期：2022-05-06 12:19

本发明专利技术属于信息搜索技术领域，具体涉及海量信息搜索系统。所述系统包括：信息录入单元、链云构建单元、数据库、搜索指令输入单元、关键词模糊转换单元和搜索单元；所述信息经由信息录入单元录入后，存储在数据库中，链云构建单元将这些信息中相似的信息构建关联数据链云，然后在搜索指令输入单元中输入搜索指令后，关键词模糊转换单元将搜索指令进行关键词转后，进行搜索，以实现海量数据的精确检索。本发明专利技术通过在信息录入时，对信息进行关联，以构建关联数据链云，在进行检索时，则通过对搜索指令进行提取和转换，再在关联数据链云中进行搜索，提升了搜索的效率和准确率。提升了搜索的效率和准确率。提升了搜索的效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】
海量信息搜索系统

[0001]本专利技术属于信息搜索
，具体涉及海量信息搜索系统。

技术介绍

[0002]数据搜索即把数据库中存储的数据根据用户的需求提取出来。数据搜索的结果会生成一个数据表，既可以放回数据库，也可以作为进一步处理的对象。
[0003]大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。在大数据的应用中，大数据的搜索是核心，如何在巨量的数据中找到想要的结果，考验着大数据应用中的硬件和软件。
[0004]专利号为CN201310166729.1A的专利公开了一种基于Hadoop的海量人脸识别搜索引擎设计方法，属于云计算和模式识别领域。以Hadoop云计算框架为基础，由内层、中间层和外层三层构成。内层用于存放海量的人脸图像及身份信息与提供分布式计算资源，中间层用于搜索引擎的索引表的建立与维护，外层用于接收任务与分配任务。为了在保证精度的同时提高人脸图像在数据库中的搜索速度，本方法采用在中间层使用K均值聚类算法建立人脸特征向量聚类索引表与聚类名单表相结合的方法。
[0005]其以Hadoop云计算为基础，使用三层架构的方式来对数据进行分层搜索，使用K均值聚类来进行索引表和名单表的结合，以此实现海量图像数据的搜索，但其无法针对所有数据类型进行搜索，无法适用于多种数据类型，且在搜索依然使用传统的特征向量的索引搜索方式，准确率依然较低。

技术实现思路

>[0006]有鉴于此，本专利技术的主要目的在于提供海量信息搜索系统，通过在信息录入时，对信息进行关联，以构建关联数据链云，在进行检索时，则通过对搜索指令进行提取和转换，再在关联数据链云中进行搜索，提升了搜索的效率和准确率。
[0007]为达到上述目的，本专利技术的技术方案是这样实现的：海量信息搜索系统，所述系统包括：信息录入单元，配置用于采集需要录入的信息，对录入的信息进行关键词提取，以得到录入的信息的至少一个关键词，将关键词作为录入的信息的附加信息与录入的信息共同组成元数据；数据库，配置用于存储元数据；链云构建单元，配置用于对数据库中的元数据进行基于关键词的分组，将关键词相同或关键词的差别在设定范围内的元数据筛选出来，同时，将筛选出的元数据进行数据相似性比对，得到筛选出的元数据中，每个元数据与其他元数据的相似度，将这些筛选出来进行关联，以构建关联数据链云，将所有的构建的关联数据链云组成搜索云，具体包括：将每个元数据与其相似度在设定阈值以上的元数据进行关联；搜索指令输入单元，配置用于输入搜索指令，并提取输入的搜索指令的指令关键词，判断所述提取的指令关键词是否包含于所述信息录入单元提取的关键词集合中，若包含于，则将提取的指令关键词作为搜索数据；若不包含于，则
将提取的指令关键词进行保存作为待处理指令关键词；所述关键词集合定义为信息录入单元提取到的所有的彼此互不相同的关键词组成的集合；关键词模糊转换单元，配置用于将搜索指令输入单元中的待处理指令关键词进行关键词转换，以得到待处理指令关键词在关键词集合中最接近的关键词，作为搜索数据；搜索单元，配置用于基于搜索指令进行元数据的匹配搜索，得到若干个元数据，判断搜索到的元数据中的关键词是否存在与搜索数据相同的，若存在，则找到关键词相同的元数据，在搜索云找到该元数据所在的关联数据链云中，再在关联数据链云中筛选得到包含该元数据的相似度相加值最大的包含元数据最多的数据链，所述数据链的结构为开环结构，将筛选得到的数据链作为搜索结果呈现给用户，完成本次数据搜索。
[0008]进一步的，所述信息录入单元包括：采集部分，配置用于采集需要录入的信息；提取部分，配置用于对录入的信息进行关键词提取，以得到录入的信息的至少一个关键词；组合部分，配置用于将关键词作为录入的信息的附加信息与录入的信息共同组成元数据；其中所述采集部分包括主动采集部分和被动采集部分；所述主动采集部分，配置用于以设定的周期，在设定的数据源进行数据采集；所述被动采集部分，配置用于供用户主动录入数据，完成数据采集。
[0009]进一步的，所述提取部分对录入的信息进行关键词提取，以得到录入的信息的至少一个关键词的方法执行以下步骤：利用分词器对文本进行分词得到单词；计算任意两个所述单词之间的词性相似度，将词性相似度超过设定的判定阈值的两个单词中随机舍弃一个单词，保留另外一个单词，直到所有单词彼此之间的词性相似度均低于设定的判定阈值，此时保留下的所有单词作为提取到的关键词，完成本次关键词提取。
[0010]进一步的，所述计算任意两个所述单词之间的词性相似度的方法执行以下步骤：使用如下所述的相似度计算公式计算两个单词之间的相似度：；其中，为计算得到的两个单词之间的相似度的二进制值，将其转换为10进制后，得到词性相似度；为两个单词中，其中一个的对应的二进制值，为另外一个对应的二进制为值；为两个单词中，其中一个正向移动位后的二进制值，为另外一个逆向移动位后的二进制值。
[0011]进一步的，所述链云构建单元包括：分组部分，配置用于对数据库中的元数据进行基于关键词的分组，将关键词相同或关键词的差别在设定范围内的元数据筛选出来；相似度比对部分，配置用于将筛选出的元数据进行数据相似性比对，得到筛选出的元数据中，每个元数据与其他元数据的相似度，将这些筛选出来进行关联，以构建关联数据链云，将所有的构建的关联数据链云组成搜索云，具体包括：确定元数据之间的一维数据相似度，所述一维数据相似度包括元数据在所述元数据的一维属性上的相似度，其中所述一维属性包括以下至少一项：元数据的数据类别，元数据的字符数量和元数据的时间属性；确定元数据之间的二维数据相似度，所述二维数据相似度包括元数据在具有不同数据类别的元数据之间二维转移上的相似度；以及根据所述一维数据相似度和所述二维数据相似度确定元数据之间的相似度。
[0012]进一步的，所述根据所述一维数据相似度和所述二维数据相似度确定元数据之间
的相似度：；其中为元数据之间的相似度，为一维数据相似度，为二维数据相似度。
[0013]进一步的，所述确定元数据之间的一维数据相似度的方法执行以下步骤：比对元数据之间的字符数量、时间属性和数据类别；使用公式计算得到一维相似度：；其中，为字符数量相似值，当元数据之间的字符数量相等时，取值为1，否则，取值为0；为时间属性相似值，当元数据之间的时间属性相等时，取值为1，否则，取值为0；为数据类别相似值，当元数据之间的数据类别相等时，取值为1，否则，取值为0。
[0014]进一步的，所述元数据在具有不同数据类别的元数据之间二维转移上的相似度使用如下公式计算得到：在不同数据类别下元数据之间，使用相似度计算公式计算元数据的关键词的相似度，将相似度最高的元数据筛选出来，再使用如下公式计算彼此之间在时间属性和数据类别下的相似度：；其中为字符数量相似值，当元数据之间的字符数量相等时，取值为1，否则，取值为0；为时间属性相似值，当元数据之间的时间属性相等本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.海量信息搜索系统，其特征在于，所述系统包括：信息录入单元，配置用于采集需要录入的信息，对录入的信息进行关键词提取，以得到录入的信息的至少一个关键词，将关键词作为录入的信息的附加信息与录入的信息共同组成元数据；数据库，配置用于存储元数据；链云构建单元，配置用于对数据库中的元数据进行基于关键词的分组，将关键词相同或关键词的差别在设定范围内的元数据筛选出来，同时，将筛选出的元数据进行数据相似性比对，得到筛选出的元数据中，每个元数据与其他元数据的相似度，将这些筛选出来进行关联，以构建关联数据链云，将所有的构建的关联数据链云组成搜索云，具体包括：将每个元数据与其相似度在设定阈值以上的元数据进行关联；搜索指令输入单元，配置用于输入搜索指令，并提取输入的搜索指令的指令关键词，判断所述提取的指令关键词是否包含于所述信息录入单元提取的关键词集合中，若包含于，则将提取的指令关键词作为搜索数据；若不包含于，则将提取的指令关键词进行保存作为待处理指令关键词；所述关键词集合定义为信息录入单元提取到的所有的彼此互不相同的关键词组成的集合；关键词模糊转换单元，配置用于将搜索指令输入单元中的待处理指令关键词进行关键词转换，以得到待处理指令关键词在关键词集合中最接近的关键词，作为搜索数据；搜索单元，配置用于基于搜索指令进行元数据的匹配搜索，得到若干个元数据，判断搜索到的元数据中的关键词是否存在与搜索数据相同的，若存在，则找到关键词相同的元数据，在搜索云找到该元数据所在的关联数据链云中，再在关联数据链云中筛选得到包含该元数据的相似度相加值最大的包含元数据最多的数据链，所述数据链的结构为开环结构，将筛选得到的数据链作为搜索结果呈现给用户，完成本次数据搜索。2.如权利要求1所述的系统，其特征在于，所述信息录入单元包括：采集部分，配置用于采集需要录入的信息；提取部分，配置用于对录入的信息进行关键词提取，以得到录入的信息的至少一个关键词；组合部分，配置用于将关键词作为录入的信息的附加信息与录入的信息共同组成元数据；其中所述采集部分包括主动采集部分和被动采集部分；所述主动采集部分，配置用于以设定的周期，在设定的数据源进行数据采集；所述被动采集部分，配置用于供用户主动录入数据，完成数据采集。3.如权利要求2所述的系统，其特征在于，所述提取部分对录入的信息进行关键词提取，以得到录入的信息的至少一个关键词的方法执行以下步骤：利用分词器对文本进行分词得到单词；计算任意两个所述单词之间的词性相似度，将词性相似度超过设定的判定阈值的两个单词中随机舍弃一个单词，保留另外一个单词，直到所有单词彼此之间的词性相似度均低于设定的判定阈值，此时保留下的所有单词作为提取到的关键词，完成本次关键词提取。4.如权利要求3所述的系统，其特征在于，所述计算任意两个所述单词之间的词性相似度的方法执行以下步骤：使用如下所述的相似度计算公式计算两个单词之间的相似度：；其中，为计算得到的两个单词之间的相似度的二进制...

【专利技术属性】
技术研发人员：唐长春，
申请(专利权)人：唐长春，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人