一种大语言模型知识增强方法及系统技术方案

技术编号：40243736 阅读：9 留言：0更新日期：2024-02-02 22:40

本发明专利技术涉及数据处理技术领域，提出了一种大语言模型知识增强方法及系统，包括：获取原始事务库；根据每个频繁1‑项集所在不同事务中事务项的分布确定事务子矩阵；根据不同事务子矩阵内元素分布的相似性确定项集语义相似度；根据每棵FP子树内每条链接路径上节点之间的相似程度确定规则潜在系数；根据每棵FP子树内每条链接路径上节点内项集携带语义信息的相似程度确定文本信息发散指数；根据规则潜在系数、文本信息发散指数获取冗余概率；采用数据挖掘算法基于冗余概率得到情感关联规则；基于情感关联规则实现用于情感分析的大语言模型的知识增强。本发明专利技术通过挖掘评价文本中的情感关联规则提高了模型知识的情感分析推理能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，具体涉及一种大语言模型知识增强方法及系统。

技术介绍

1、大语言模型(large language model，llm)是利用深度学习技术在大规模语料库上训练得到的、具大规模参数的通用性语言模型，具有较强的上下文理解能力和语言生成能力，被应用于多个领域，包括信息检索与问答、自动摘要和文章生成以及情感分析与舆情监测等。但是大语言模型缺乏对特定领域知识的深入理解以及缺乏对个性化情感表达的理解和生成能力，而基于关联规则的数据挖掘算法可以帮助大语言模型从大规模文本数据中挖掘出词语之间的关联规则和语义联系，从而提升大语言模型对特定领域知识的理解能力并改善情感表达的个性化，为大语言模型的性能提升和应用场景拓展提供重要支持。

2、fp-growth（frequent pattern growth）算法是一种用于发现数据间关联规则的数据挖掘算法，通过构建fp树发现数据集中频繁出现的项集，并基于频繁项集生成关联规则。因此数据挖掘算法可以从大规模文本数据中挖掘出隐藏的信息和知识，并将其应用于大语言模型的训练和知识库构建中，以增强大语言模型的表达能力和应用范围。但是传统的fp-growth算法在对大规模的数据进行处理时，生成的fp树中会存在冗余的频繁项集，不仅会占用大量内存空间，还会挖掘大量置信度较低的关联规则，降低算法的运行效率。

技术实现思路

1、本专利技术提供一种大语言模型知识增强方法及系统，以解决情感分析大语言模型知识增强时关联规则冗余的问题，所采用的技术方案具体如下：

2、第一方面，本专利技术一个实施例提供一种大语言模型知识增强方法，该方法包括以下步骤：

3、基于已有评论文本数据的分词处理结果获取原始事务库；

4、根据每个频繁1-项集所在不同事务中事务项的分布确定每个频繁1-项集的事务子矩阵；根据不同频繁1-项集的事务子矩阵内元素分布的相似性确定每棵fp子树的项集语义相似度；

5、根据每个频繁1-项集对应fp子树内每条链接路径上节点之间的相似程度确定所述fp子树的规则潜在系数；

6、根据每个频繁1-项集对应fp子树内每条链接路径上节点内项集携带语义信息的相似程度确定所述fp子树的文本信息发散指数；

7、根据每个频繁1-项集中对应fp子树的规则潜在系数、文本信息发散指数获取所述fp子树上每个节点的冗余概率；采用数据挖掘算法基于每个频繁1-项集中对应fp子树上所有节点的冗余概率得到情感关联规则；基于情感关联规则实现用于情感分析的大语言模型的知识增强。

8、优选的，所述基于已有评论文本数据的分词处理结果获取原始事务库的方法为：

9、利用爬虫技术从评分软件上获取预设数量条评论文本数据，对所有评论文本数据按照时间顺序进行由小到大的编号；

10、采用ltp工具包对每条评论文本数据分别进行分词、词性标注、去停用词的处理，采用编码技术对所有评论文本数据的处理结果进行编码；

11、将每条评论文本数据的编号作为一件事务的编号，将每条评论文本数据的编码结果作为每条评论文本数据对应事务的事务项集合；将所有事务组成的数据库作为原始事务库。

12、优选的，所述根据每个频繁1-项集所在不同事务中事务项的分布确定每个频繁1-项集的事务子矩阵的方法为：

13、采用数据挖掘算法基于原始事务库得到原始事务库中的所有频繁1-项集；

14、将每件事务的事务项集合中所有频繁1-项集的赋值结果组成的向量作为一个行向量，将所有事务对应行向量组成的矩阵作为事务库矩阵；

15、将任意一个频繁1-项集作为目标项集，将事务库矩阵中不包含目标项集的所有行内的元素值置为0，将事务库矩阵中包含目标项集的所有行内的元素值不变，将事务库矩阵中所有行内元素值重置后的结果作为目标项集的事务子矩阵。

16、优选的，所述根据不同频繁1-项集的事务子矩阵内元素分布的相似性确定每棵fp子树的项集语义相似度的方法为：

17、将每个频繁1-项集的事务子矩阵所有存在值为1的行向量对应事务组成的集合作为每个频繁1-项集的匹配事务库，将采用fp-growth算法基于每个事务的匹配事务库构建的fp树作为每个频繁1-项集的fp子树；

18、将每个频繁1-项集的匹配事务库中任意一件事务内事务项对应的编码结果组成的向量作为一个语义编码向量；将每个频繁1-项集的匹配事务库中所有事务对应的语义编码向量的集合作为每个频繁1-项集的语义编码集合；

19、基于每个频繁1-项集的语义编码集合与其余任意一个频繁1-项集的语义编码集合之间的度量距离确定语义相似度；

20、将每个频繁1-项集的事务子矩阵中每个值为1的元素所在的行数和列数组成的数据对作为一个序数对，将每个频繁1-项集的事务子矩阵中所有值为1的元素对应的序数对组成的集合作为每个频繁1-项集的数据位置集合；

21、基于每个频繁1-项集的数据位置集合与其余任意一个频繁1-项集的数据位置集合内元素分布的度量距离确定语义分布接近系数；

22、每棵fp子树的项集语义相似度由语义相似度、语义分布接近系数两部分组成，其中，所述项集语义相似度分别与语义相似度、语义分布接近系数成正相关关系。

23、优选的，所述根据每个频繁1-项集对应fp子树内每条链接路径上节点之间的相似程度确定所述fp子树的规则潜在系数的方法为：

24、将每个频繁1-项集作为目标项集，将每个频繁1-项集对应fp子树上目标项集所在节点标记为目标节点，将每个频繁1-项集的fp子树上每条经过目标项集的链路作为主要链路，将每条主要链路上目标项集的支持度与链路上任意一个节点内项集支持度的均值作为第一均值；将每条主要链路上目标项集对应的词性权重与链路上任意一个节点内项集对应词性权重的均值作为第二均值；

25、将每条主要链路上目标项集与链路上任意一个节点内项集之间的语义分布接近系数与第一均值、第二均值的乘积作为每条主要链路上任意一个节点的数据关联系数；

26、将每条主要链路上所有节点的数据关联系数的均值作为第一计算因子；将第一计算因子在每棵fp子树上所有主要链路上累加结果的均值作为目标节点的规则关联系数；

27、每棵fp子树的规则潜在系数由项集语义相似度、规则关联系数两部分组成，其中，所述规则潜在系数分别与项集语义相似度、规则关联系数成正比关系。

28、优选的，所述根据每个频繁1-项集对应fp子树内每条链接路径上节点内项集携带语义信息的相似程度确定所述fp子树的文本信息发散指数的方法为：

29、将每条主要链路上每个节点作为无向图中的一个节点所确定的无向图作为一幅节点分布图，采用深度游走算法得到每幅节点分布图中每个节点的节点分布向量；

30、将每条主要链路上目标项集所在节点的子孙节点与祖先节点数量之和作为分子；

31、将每条主要链路上目标项集所在节点与其余节本文档来自技高网...

【技术保护点】

1.一种大语言模型知识增强方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种大语言模型知识增强方法，其特征在于，所述基于已有评论文本数据的分词处理结果获取原始事务库的方法为：

3.根据权利要求1所述的一种大语言模型知识增强方法，其特征在于，所述根据每个频繁1-项集所在不同事务中事务项的分布确定每个频繁1-项集的事务子矩阵的方法为：

4.根据权利要求1所述的一种大语言模型知识增强方法，其特征在于，所述根据不同频繁1-项集的事务子矩阵内元素分布的相似性确定每棵FP子树的项集语义相似度的方法为：

5.根据权利要求1所述的一种大语言模型知识增强方法，其特征在于，所述根据每个频繁1-项集对应FP子树内每条链接路径上节点之间的相似程度确定所述FP子树的规则潜在系数的方法为：

6.根据权利要求1所述的一种大语言模型知识增强方法，其特征在于，所述根据每个频繁1-项集对应FP子树内每条链接路径上节点内项集携带语义信息的相似程度确定所述FP子树的文本信息发散指数的方法为：

7.根据权利要求1所述的一种大语言模型

8.根据权利要求1所述的一种大语言模型知识增强方法，其特征在于，所述采用数据挖掘算法基于每个频繁1-项集中对应FP子树上所有节点的冗余概率得到情感关联规则的方法为：

9.根据权利要求1所述的一种大语言模型知识增强方法，其特征在于，所述基于情感关联规则实现用于情感分析的大语言模型的知识增强的方法为：

10.一种大语言模型知识增强系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-9任意一项所述一种大语言模型知识增强方法的步骤。

...

【技术特征摘要】

1.一种大语言模型知识增强方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种大语言模型知识增强方法，其特征在于，所述基于已有评论文本数据的分词处理结果获取原始事务库的方法为：

4.根据权利要求1所述的一种大语言模型知识增强方法，其特征在于，所述根据不同频繁1-项集的事务子矩阵内元素分布的相似性确定每棵fp子树的项集语义相似度的方法为：

5.根据权利要求1所述的一种大语言模型知识增强方法，其特征在于，所述根据每个频繁1-项集对应fp子树内每条链接路径上节点之间的相似程度确定所述fp子树的规则潜在系数的方法为：

6.根据权利要求1所述的一种大语言模型知识增强方法，其特征在于，所述根据每个频繁1-项集对应fp...

【专利技术属性】
技术研发人员：王亚，赵策，屠静，苏岳，万晶晶，李伟伟，颉彬，周勤民，张玥，雷媛媛，孙岩，潘亮亮，刘岩，
申请(专利权)人：卓世科技海南有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人