用于大语言模型的数据知识提取方法技术

技术编号：40774293 阅读：2 留言：0更新日期：2024-03-25 20:21

本发明专利技术涉及自然语言数据处理技术领域，具体涉及用于大语言模型的数据知识提取方法，该方法首先基于自然语言处理方法根据英文文本数据进行分析得到分词高维向量；根据噪声数据与整体数据之间的相似度较低的特征，通过分析分词高维向量之间的相似度整体偏离情况，将噪声高维向量筛除，得到参考高维向量；根据参考高维向量对应的数值分布复杂性以及参考高维向量之间的关联性，筛选出主成分分析向量和最优k值；使得结合最优k值后根据主成分分析高维向量通过PCA降维方法进行数据降维的效果更好，也即根据降维后的摘要信息向量对英文文本数据知识提取的效果更好。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言数据处理，具体涉及用于大语言模型的数据知识提取方法。

技术介绍

1、在自然语言数据处理技术中，通常采用大语言模型的数据知识提取方法对英文文本数据进行数据提取。大语言模型的数据提取方法通常包括：文本数据预处理、分词、词向量表示、训练模型、特征抽取和知识提取以及后处理对应的几个过程。通过词向量表示过程能够将分词处理得到的各个分词转化为高维向量；进一步地通过训练模型以及特征抽取和知识提取过程能够筛选出用于数据降维的分词高维向量；进一步地根据分词高维向量进行数据降维，即可根据降维后的向量进行英文文本数据知识提取。

2、现有技术通常采用主成分分析（principal components analysis，pca）降维方法根据分词高维向量进行数据降维，但是pca降维方法在选取主要特征向量构建投影矩阵时，需要确定前k个特征向量，也即k值的选取；k值的选取不当会导致信息保留不完善，从而导致降维效果较差，也即现有技术直接对各个分词高维向量通过pca降维方法进行数据降维的效果较差，造成对英文文本数据知识提取的效果较差。

技术实现思路

1、为了解决现有技术直接对各个分词高维向量通过pca降维方法进行数据降维的效果较差，造成对英文文本数据知识提取的效果较差的技术问题，本专利技术的目的在于提供一种用于大语言模型的数据知识提取方法，所采用的技术方案具体如下：

2、本专利技术提出了一种用于大语言模型的数据知识提取方法，所述方法包括：

3、对用于知识提取

4、根据每个分词高维向量与其余分词高维向量之间的相似度整体偏离情况，得到每个分词高维向量的噪声存在概率；根据所述噪声存在概率在所有分词高维向量中筛除噪声高维向量，得到至少两个参考高维向量；

5、根据每个参考高维向量对应数值序列的数值分布复杂性，以及每个参考高维向量与其余参考高维向量之间的关联性，得到每个参考高维向量的分析重要性；根据所述分析重要性筛选出主成分分析高维向量；

6、根据所述主成分分析高维向量结合主成分分析方法进行数据降维，得到降维后的摘要信息向量；根据所述摘要信息向量进行英文文本数据知识提取。

7、进一步地，所述噪声存在概率的获取方法包括：

8、任选两个分词高维向量作为一个高维向量二元组，获取所有的高维向量二元组；将每个高维向量二元组中的两个分词高维向量之间的余弦相似度，作为每个高维向量二元组的参考相似度；将所有高维向量二元组的参考相似度的均值，作为向量整体相似度；

9、依次将每个分词高维向量，作为目标分词高维向量；在所有分词高维向量中，将目标分词高维向量之外的其他分词高维向量，作为目标分词高维向量的对比高维向量；将目标分词高维向量与每个对比高维向量之间的余弦相似度，作为目标分词高维向量的每个对比高维向量的对比相似度；将目标分词高维向量的对应的所有对比高维向量的对比相似度的均值，作为目标分词高维向量的向量局部相似度；

10、将目标分词高维向量的向量局部相似度与所述向量整体相似度之间的差异，作为目标分词高维向量的向量偏离程度；

11、将目标分词高维向量中所有元素值的方差，作为目标分词高维向量的数值离散程度；

12、根据所述向量偏离程度和所述数值离散程度，得到目标分词高维向量的噪声存在概率，所述向量偏离程度和所述数值离散程度均与所述噪声存在概率呈正相关关系。

13、进一步地，所述参考高维向量的获取方法包括：

14、将大于预设噪声阈值的噪声存在概率对应的分词高维向量，作为噪声高维向量；将所有分词高维向量中噪声高维向量之外的分词高维向量，作为参考高维向量。

15、进一步地，所述分析重要性的获取方法包括：

16、将每个参考高维向量标量化后，得到每个参考高维向量的标量数据序列；将所述标量数据序列中所有数据的信息熵，作为每个参考高维向量的分布混乱程度；

17、依次将每个参考高维向量作为目标参考高维向量；在所有参考高维向量中，将目标参考高维向量之外的其他参考高维向量，作为目标参考高维向量对应的对比参考高维向量；

18、根据每个对比参考高维向量的分布混乱程度与目标参考高维向量的分布混乱程度之间的相对占比，得到每个对比参考高维向量的对比权重系数；

19、将每个对比参考高维向量的对比权重系数的负相关映射值，作为每个对比参考高维向量影响下目标参考高维向量的参考权重系数；

20、通过所述对比权重系数对每个对比参考高维向量的标量数据序列进行加权，得到每个对比参考高维向量的加权数据序列；通过所述参考权重系数对目标参考高维向量的标量数据序列进行加权，得到每个对比参考高维向量影响下目标参考高维向量的加权数据序列；

21、将每个对比参考高维向量的加权数据序列与对应的对比参考高维向量影响下目标参考高维向量的加权数据序列之间的皮尔逊相关系数，作为每个对比参考高维向量的加权相关性；将目标参考高维向量对应的所有对比参考高维向量的加权相关性的均值的归一化值，作为目标参考高维向量的分析重要性。

22、进一步地，所述根据所述主成分分析高维向量结合主成分分析方法进行数据降维，得到降维后的摘要信息向量的方法包括：

23、将每个主成分高维向量作为列向量组成主成分分析矩阵；对所述主成分分析矩阵通过主成分分析方法得到对应的协方差矩阵的各个特征向量和每个特征向量对应的特征值；

24、将每个特征向量对应的特征值，以从大到小的顺序排列，得到特征值序列；将特征值序列中所有特征值的累加和，作为整体累加值；在所述特征值序列中，将每个特征值与该特征值之前的所有特征值的累加和，作为每个特征值的参考累加值；将所述参考累加值与所述整体累加值的比值，作为每个特征值对应的特征向量的方差解释率；在所述特征值序列中，将大于预设解释率阈值的方差解释率对应的特征值的索引值，作为主成分分析的最优k值；

25、根据所述最优k值以及所述主成分分析矩阵进行主成分分析降维，得到降维后的各个摘要信息向量。

26、进一步地，所述分词高维向量的获取方法包括：

27、对用于知识提取的英文文本数据通过分词方法进行分词，得到至少两个分词处理单元；通过word2vec技术将每个分词处理单元映射为初始高维向量；通过训练好的大语言模型bert得到每个初始高维向量的语义信息；根据所有初始高维向量的语义信息通过tf-idf算法进行提取，得到至少两个分词高维向量。

28、进一步地，所述根据所述向量偏离程度和所述数值离散程度，得到目标分词高维向量的噪声存在概率的方法包括：

29、将所述向量偏离程度和所述数值离散程度的乘积的归一化值，作为目标分词高维向量的噪声存在概率。

30、进一步地，所述对比权重系数的获取方法包括：

31、将每个对本文档来自技高网...

【技术保护点】

1.用于大语言模型的数据知识提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的用于大语言模型的数据知识提取方法，其特征在于，所述噪声存在概率的获取方法包括：

3.根据权利要求1所述的用于大语言模型的数据知识提取方法，其特征在于，所述参考高维向量的获取方法包括：

4.根据权利要求1所述的用于大语言模型的数据知识提取方法，其特征在于，所述分析重要性的获取方法包括：

5.根据权利要求1所述的用于大语言模型的数据知识提取方法，其特征在于，所述根据所述主成分分析高维向量结合主成分分析方法进行数据降维，得到降维后的摘要信息向量的方法包括：

6.根据权利要求1所述的用于大语言模型的数据知识提取方法，其特征在于，所述分词高维向量的获取方法包括：

7.根据权利要求2所述的用于大语言模型的数据知识提取方法，其特征在于，所述根据所述向量偏离程度和所述数值离散程度，得到目标分词高维向量的噪声存在概率的方法包括：

8.根据权利要求4所述的用于大语言模型的数据知识提取方法，其特征在于，所述对比权重系数的获取方法包括：

9.根据权利要求4所述的用于大语言模型的数据知识提取方法，其特征在于，所述参考权重系数的获取方法包括：

10.根据权利要求1所述的用于大语言模型的数据知识提取方法，其特征在于，所述根据所述分析重要性筛选出主成分分析高维向量的方法包括：

...

【技术特征摘要】

1.用于大语言模型的数据知识提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的用于大语言模型的数据知识提取方法，其特征在于，所述噪声存在概率的获取方法包括：

3.根据权利要求1所述的用于大语言模型的数据知识提取方法，其特征在于，所述参考高维向量的获取方法包括：

4.根据权利要求1所述的用于大语言模型的数据知识提取方法，其特征在于，所述分析重要性的获取方法包括：

6.根据权利要求1所述的...

【专利技术属性】
技术研发人员：王亚，赵策，屠静，苏岳，万晶晶，李伟伟，颉彬，周勤民，
申请(专利权)人：卓世智星成都科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人