一种基于大数据的语义信息检索方法技术

技术编号：38833479 阅读：12 留言：0更新日期：2023-09-17 09:51

本发明专利技术公开了一种基于大数据的语义信息检索方法，包括获取历史检索数据和资料库资料的主题，对所述历史检索数据进行预处理，提取预处理后的所述历史检索数据主题，对所述主题进行词义消歧，根据所述主题的计算相似度，根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析，计算所述历史检索数据和语义关联分析后的所述资料库资料的语义相似度，根据所述语义相似度构建语义匹配模型，将关联分析后的所述历史检索数据和所述资料库资料输入语义匹配模型，输出为检索结果。该方法不仅可以提高语义信息检索的精度，同时具有较好的可解释性，可以直接应用于基于大数据的语义信息检索系统中。据的语义信息检索系统中。据的语义信息检索系统中。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据的语义信息检索方法

[0001]本专利技术涉及大数据领域，尤其涉及一种基于大数据的语义信息检索方法。

技术介绍

[0002]大数据技术在语义信息检索领域的应用越来越广泛，可以帮助语义信息检索管理系统的管理者及时、高效地获取语义信息检索，实现语义信息检索管理的调整。目前，语义信息检索具有用户信息量庞大、数据种类多样、信息密度大等特点，语义信息检索方法存在较多的不确定因素，导致语义信息检索方法存在较大的不确定性。虽然已经专利技术了一些基于大数据的语义信息检索方法，但是仍不能有效解决语义信息检索方法的不确定问题。

技术实现思路

[0003]本专利技术的目的是要提供一种基于大数据的语义信息检索方法。
[0004]为达到上述目的，本专利技术是按照以下技术方案实施的：本专利技术包括以下步骤：A获取历史检索数据和资料库资料的主题，对所述历史检索数据进行预处理，提取预处理后的所述历史检索数据主题，对所述主题进行词义消歧；B根据所述主题的计算相似度，根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析；C计算所述历史检索数据和语义关联分析后的所述资料库资料的语义相似度，根据所述语义相似度构建语义匹配模型，所述语义匹配模型包括第一语义匹配算法和第二语义匹配算法，所述历史检索数据和语义关联分析后的所述资料库资料输入第一语义匹配算法获取初始匹配，将所述初始匹配输入第二语义匹配算法获得检索信息；D将关联分析后的所述历史检索数据和所述资料库资料输入语义匹配模型，输出为检索结果。
[000...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的语义信息检索方法，其特征在于，包括以下步骤：A获取历史检索数据和资料库资料的主题，对所述历史检索数据进行预处理，提取预处理后的所述历史检索数据主题，对所述主题进行词义消歧；B根据所述主题的计算相似度，根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析；C计算所述历史检索数据和语义关联分析后的所述资料库资料的语义相似度，根据所述语义相似度构建语义匹配模型，所述语义匹配模型包括第一语义匹配算法和第二语义匹配算法，所述历史检索数据和语义关联分析后的所述资料库资料输入第一语义匹配算法获取初始匹配，将所述初始匹配输入第二语义匹配算法获得检索信息；D将关联分析后的所述历史检索数据和所述资料库资料输入语义匹配模型，输出为检索结果。2.根据权利要求1所述的一种基于大数据的语义信息检索方法，其特征在于，在步骤A中所述预处理的方法，包括对所述历史检索数据进行去重、去噪、分词、去停用词、词性筛选、去低频词和向量化。3.根据权利要求1所述的一种基于大数据的语义信息检索方法，其特征在于，提取预处理后的所述历史检索数据主题的方法，包括：去除预处理后的所述历史检索数据中的副词、组词和形容词，保留名词构成名词词典：；其中名词词典为A，行表示一种所述历史检索数据对应的名词，词典的长度为m，词的个数为n；将词汇与词典进行匹配，构造高维的稀疏矩阵；将稀疏矩阵分解为基矩阵和系数矩阵的乘积：；其中稀疏矩阵为B，基矩阵为C，系数矩阵为D，列数为r；基矩阵是主题的集合，系数矩阵是匹配的主题词集合，多次迭代，对高维矩阵进行降维，当满足如下条件时停止迭代：当满足如下条件时停止迭代：；其中迭代次数为t，任意小实数为；输出主题词作为提取结果。4.根据权利要求1所述的一种基于大数据的语义信息检索方法，其特征在于，对所述主题进行词义消歧的方法，包括：对词典中每个义类中的所有词，收集包含词的上下文的主题作为训练集；对主题进行统计，找出能够有效标示每个义类的主题词，并计算主题词的权重：；其中主题词i的权重为，主题词i出现在训练集中的概率为，主题词i出现在义类T中的概率为；
使用词向量模型获取词义相似度，根据主题词的权重对词义相似度的进行加权计算，将加权值最高的词义作为消歧结果。5.根据权利要求1所述的一种基于大数据的语义信息检索方法，其特征在于，根据所述主题的计算相似度的方法，包括：；其中检索数据的第i个主题为，资料库资料的第j个主题为，主题与主题的相似度为。6.根据权利要求1所述的一种基于大数据的语义信息检索方法，其特征在于，根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析的方法，包括：将资料库资料的主题作为节点，历史检索数据和资料库资料属性的关联度...

【专利技术属性】
技术研发人员：王静雅，于钢，孙宇宁，卢丽丽，
申请(专利权)人：中国标准化研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人