System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理领,具体涉及一种技术层次智能构建方法和装置。
技术介绍
1、互联网上的信息越来越丰富,更多的文本数据已经不单单仅限于一个层次,对一个层次的文本数据进行聚类已不能满足人们对知识的需要。因此迅速而准确地从海量文本中提取有价值的信息、构建技术层次结构,已然成为自然语言处理领域备受关注的重要研究方向。
2、大语言模型因其强大的语义理解能力、文本分析能力、处理各种文本信息的能力,主要被应用在文本分析、文本概括、和文本生成等领域,除此之外,如何扩展其应用场景仍在探索中。而针对技术层次构建这一具体领域,目前尚未有相关文献公开大语言模型的相关应用,因此如何将大语言模型应用于技术层次构建这一场景,是目前亟需解决的技术问题。
技术实现思路
1、(一)解决的技术问题
2、针对现有技术的不足,本专利技术提供了一种技术层次智能构建方法和装置,解决了如何将大语言模型应用于技术层次构建的问题。
3、(二)技术方案
4、为实现以上目的,本专利技术通过以下技术方案予以实现:
5、第一方面,提供了一种技术层次智能构建方法,所述方法包括:
6、s1、获取目标主题相关文献的文本数据,并将各个所述文本数据转换为第一词向量;
7、s2、基于特征提取模型从各个所述第一词向量中提取对应的特征向量;
8、s3、获取所有特征向量的层次聚类结果;
9、s4、获取层次聚类结果中各个簇包含特征向量对应的摘要
10、s5、将所有所述摘要文本输入迁移到目标主题的大语言模型,得到各个簇对应的主题文本,再将所述主题文本转化为第二词向量;
11、s6、将第二词向量作为对应簇的中心点,并基于新的中心点更新层次聚类结果;
12、s7、基于更新后的层次聚类结果修正对应的特征提取模型进行优化,得到优化后的特征提取模型;
13、s8、基于优化后的特征提取模型,重新执行s2~s7,直至达到预设的目标优化次数后,输出层次分类结果以及每个簇对应的主题文本。
14、进一步的,所述目标主题相关文献包括专利或论文;
15、且所述获取目标主题相关文献的文本数据,并将各个所述文本数据转换为第一词向量,包括:
16、通过bert预训练模型获取所述文本数据的词向量,作为第一词向量;
17、且基于特征提取模型从各个所述第一词向量中提取对应的特征向量,包括:
18、利用attention-lstm模型从第一词向量提取特征向量。
19、进一步的,所述获取所有特征向量的层次聚类结果,包括:
20、s3.1、将每个特征向量视为一个簇;
21、s3.2、计算任意两个簇的相似度,并将相似度最大的两个簇合并成一个新的簇;
22、s3.3、当一个簇内有多个特征向量时,将簇内所有特征向量的中心作为簇的中心;
23、s3.4、返回执行步骤s3.2和s3.3,直到所有特征向量都合并成一个簇或者达到预设的簇的数量;
24、s3.5、根据合并的顺序,得到层次树作为层次聚类结果。
25、进一步的,所述获取层次聚类结果中各个簇包含特征向量对应的摘要文本,包括:
26、采用attention-lstm模型获取各个簇包含特征向量对应的摘要文本,且所述attention-lstm模型输出的摘要文本的长度满足所述大语言模型的输入长度限制。
27、进一步的,所述基于更新后的层次聚类结果修正对应的特征提取模型进行优化,包括:
28、将更新后的层次聚类结果,作为样本的标签,并通过反向传播来更新特征提取模型的参数。
29、第二方面,提供了一种技术层次智能构建装置,所述装置包括:
30、第一词向量获取模块,用于获取目标主题相关文献的文本数据,并将各个所述文本数据转换为第一词向量;
31、特征向量提取模块,用于基于特征提取模型从各个所述第一词向量中提取对应的特征向量;
32、层次聚类模块,用于获取所有特征向量的层次聚类结果;
33、摘要生产模块,用于获取层次聚类结果中各个簇包含特征向量对应的摘要文本;
34、第二词向量获取模块,用于将所有所述摘要文本输入迁移到目标主题的大语言模型,得到各个簇对应的主题文本,再将所述主题文本转化为第二词向量;
35、聚类结果更新模块,用于将第二词向量作为对应簇的中心点,并基于新的中心点更新层次聚类结果;
36、模型参数更新模块,用于基于更新后的层次聚类结果修正对应的特征提取模型进行优化,得到优化后的特征提取模型;
37、迭代模块,用于基于优化后的特征提取模型,重新依次调用特征向量提取模块、层次聚类模块、摘要生产模块、第二词向量获取模块、聚类结果更新模块、模型参数更新模块,直至达到预设的目标优化次数后,输出层次分类结果以及每个簇对应的主题文本。
38、进一步的,所述目标主题相关文献包括专利或论文;
39、且所述获取目标主题相关文献的文本数据,并将各个所述文本数据转换为第一词向量,包括:
40、通过bert预训练模型获取所述文本数据的词向量,作为第一词向量;
41、且基于特征提取模型从各个所述第一词向量中提取对应的特征向量,包括:
42、利用attention-lstm模型从第一词向量提取特征向量。
43、进一步的,所述获取所有特征向量的层次聚类结果,包括:
44、s3.1、将每个特征向量视为一个簇;
45、s3.2、计算任意两个簇的相似度,并将相似度最大的两个簇合并成一个新的簇;
46、s3.3、当一个簇内有多个特征向量时,将簇内所有特征向量的中心作为簇的中心;
47、s3.4、返回执行步骤s3.2和s3.3,直到所有特征向量都合并成一个簇或者达到预设的簇的数量;
48、s3.5、根据合并的顺序,得到层次树作为层次聚类结果。
49、进一步的,所述获取层次聚类结果中各个簇包含特征向量对应的摘要文本,包括:
50、采用attention-lstm模型获取各个簇包含特征向量对应的摘要文本,且所述attention-lstm模型输出的摘要文本的长度满足所述大语言模型的输入长度限制。
51、进一步的,所述基于更新后的层次聚类结果修正对应的特征提取模型进行优化,包括:
52、将更新后的层次聚类结果,作为样本的标签,并通过反向传播来更新特征提取模型的参数。
53、(三)有益效果
54、本专利技术提供了一种技术层次智能构建方法和装置。与现有技术相比,具备以下有益效果:
55、本专利技术首先对目标主题相关文件进行特征提取后获取层次聚类结果,并获取层次聚类结果中每一类对应的摘要文本,以满本文档来自技高网...
【技术保护点】
1.一种技术层次智能构建方法,其特征在于,所述方法包括:
2.如权利要求1所述的一种技术层次智能构建方法,其特征在于,所述目标主题相关文献包括专利或论文;
3.如权利要求1所述的一种技术层次智能构建方法,其特征在于,所述获取所有特征向量的层次聚类结果,包括:
4.如权利要求1所述的一种技术层次智能构建方法,其特征在于,所述获取层次聚类结果中各个簇包含特征向量对应的摘要文本,包括:
5.如权利要求1所述的一种技术层次智能构建方法,其特征在于,所述基于更新后的层次聚类结果修正对应的特征提取模型进行优化,包括:
6.一种技术层次智能构建装置,其特征在于,所述装置包括:
7.如权利要求1所述的一种技术层次智能构建装置,其特征在于,所述目标主题相关文献包括专利或论文;
8.如权利要求1所述的一种技术层次智能构建装置,其特征在于,所述获取所有特征向量的层次聚类结果,包括:
9.如权利要求1所述的一种技术层次智能构建装置,其特征在于,所述获取层次聚类结果中各个簇包含特征向量对应的摘要文本,包括:
...【技术特征摘要】
1.一种技术层次智能构建方法,其特征在于,所述方法包括:
2.如权利要求1所述的一种技术层次智能构建方法,其特征在于,所述目标主题相关文献包括专利或论文;
3.如权利要求1所述的一种技术层次智能构建方法,其特征在于,所述获取所有特征向量的层次聚类结果,包括:
4.如权利要求1所述的一种技术层次智能构建方法,其特征在于,所述获取层次聚类结果中各个簇包含特征向量对应的摘要文本,包括:
5.如权利要求1所述的一种技术层次智能构建方法,其特征在于,所述基于更新后的层次聚类结果修正对应的特征提取模型进行优化,包括:
...【专利技术属性】
技术研发人员:秦琪,陈艺,王安宁,王庆军,赵龙,陈子坤,杨瑞雪,包佳佳,丁洁,丁国成,黄杰,刘鑫,范明豪,马亚彬,翟玥,卞真旭,
申请(专利权)人:国网安徽省电力有限公司电力科学研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。