System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于词向量匹配的数据检索方法、设备及介质技术_技高网

一种基于词向量匹配的数据检索方法、设备及介质技术

技术编号:40825735 阅读:2 留言:0更新日期:2024-04-01 14:46
本申请公开了基于词向量匹配的数据检索方法、设备及介质,方法包括:使用脚本编写工具,编写脚本文件并运行,打开网页获取网页数据,进行预处理,得到标准化数据集,进行词向量化处理,并得到标准化数据集中各关键词对应的重要度,构建文档矩阵,分为训练矩阵和测试矩阵,对文档主题生成模型进行训练,通过训练好的文档主题生成模型,获得各文档对应的权重分布,创建新文档数据集,获取用户的输入数据,对输入数据进行词向量匹配,并返回匹配的关键词。文档主题生成模型可以帮助识别文本数据中的主题,可以更好地组织和理解数据集,从而提供更准确的数据检索,通过计算每个关键词对应的重要度,能够提高数据检索的精确性和相关性。

【技术实现步骤摘要】

本申请涉及信息检索,具体涉及一种基于词向量匹配的数据检索方法、设备及介质


技术介绍

1、随着工业互联网和大数据的快速发展,数据量以及其复杂性也随之大幅度增加,在大规模的数据集中进行检索变得越来越困难,传统的数据检索方法包括关键词检索、布尔逻辑检索等,其中,关键词检索是通过在数据中进行关键词匹配来实现数据检索;布尔逻辑检索是使用逻辑运算符来组合关键词进行检索。

2、传统的数据检索方法适应于结构化数据中,主要依赖于关键词匹配来实现,难以处理数据中的上下文语义关系,在非结构化的大规模数据集中,难以挖掘数据的相关语义信息,从而很难有效地检索相关信息。


技术实现思路

1、为了解决上述问题,本申请提出了一种基于词向量匹配的数据检索方法,包括:

2、使用脚本编写工具,编写脚本文件并运行,通过所述脚本文件,打开网页获取网页数据;

3、对所述网页数据进行预处理,得到标准化数据集,对所述标准化数据集进行词向量化处理,并得到所述标准化数据集中各关键词对应的重要度;

4、根据所述标准化数据集以及所述重要度,构建文档矩阵,将所述文档矩阵划分为训练矩阵和测试矩阵,基于所述训练矩阵,对文档主题生成模型进行训练;

5、训练完成后,通过训练好的所述文档主题生成模型,获得所述文档矩阵中各文档对应的权重分布,基于所述权重分布和所述重要度,创建新文档数据集,并对所述新文档数据集进行词向量化处理;

6、获取用户的输入数据,对所述输入数据进行词向量化处理,根据所述新文档数据集,对所述输入数据进行词向量匹配,并返回匹配的关键词。

7、另一方面,本申请还提出基于词向量匹配的数据检索设备,包括:

8、至少一个处理器;以及,

9、与所述至少一个处理器通信连接的存储器;其中,

10、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如:上述示例所述的基于词向量匹配的数据检索方法。

11、另一方面,本申请还提出了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:上述示例所述的基于词向量匹配的数据检索方法。

12、通过本申请提出一种基于词向量匹配的数据检索方法能够带来如下有益效果:

13、对数据进行词向量化处理,将非结构化数据转化为向量表示转化为向量表示,通过向量可以更好地捕捉到词语之间的语义关系,能够进行更好的数据检索和分析,同时计算数据中各词语的重要度,从而确定对于文本的主题和内容是最重要的关键词,能够提高数据检索的准确性和相关性。

14、通过训练文档主题生成模型,能够有助于识别文本数据中的主题和话题,通过将文本数据划分为不同的主题,可以更好地组织和理解数据集,从而提供更准确的数据检索。

本文档来自技高网...

【技术保护点】

1.一种基于词向量匹配的数据检索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述网页数据进行预处理,得到标准化数据集,具体包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述标准化数据集进行词向量化处理,具体包括:

4.根据权利要求3所述的方法,其特征在于,所述得到所述标准化数据集中各关键词对应的重要度,具体包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述标准化数据集以及所述重要度,构建文档矩阵,将所述文档矩阵划分为训练矩阵和测试矩阵,基于所述训练矩阵,对文档主题生成模型进行训练,具体包括:

6.根据权利要求5所述的方法,其特征在于,所述通过所述训练矩阵,对主题生成模型进行迭代训练,并通过所述测试矩阵,对所述文档主题生成模型的训练成果进行评估,具体包括:

7.根据权利要求1所述的方法,其特征在于,所述通过训练好的所述文档主题生成模型,获得所述文档矩阵中各文档对应的权重分布,基于所述权重分布和所述重要度,创建新文档,并对所述新文档进行词向量化处理,具体包括:</p>

8.根据权利要求7所述的方法,其特征在于,所述获取用户的输入数据,对所述输入数据进行词向量化处理,根据所述新文档数据集,对所述输入数据进行词向量匹配,并返回匹配的关键词,具体包括:

9.一种基于词向量匹配的数据检索设备,其特征在于,包括:

10.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:权利要求1~8中任一项权利要求所述的基于词向量匹配的数据检索方法。

...

【技术特征摘要】

1.一种基于词向量匹配的数据检索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述网页数据进行预处理,得到标准化数据集,具体包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述标准化数据集进行词向量化处理,具体包括:

4.根据权利要求3所述的方法,其特征在于,所述得到所述标准化数据集中各关键词对应的重要度,具体包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述标准化数据集以及所述重要度,构建文档矩阵,将所述文档矩阵划分为训练矩阵和测试矩阵,基于所述训练矩阵,对文档主题生成模型进行训练,具体包括:

6.根据权利要求5所述的方法,其特征在于,所述通过所述训练矩阵,对主题生成模型进行迭代训练,并通过所述测试矩...

【专利技术属性】
技术研发人员:黄旭肖雪商广勇李佳张娜娜罗涛
申请(专利权)人:浪潮云洲工业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1