System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文献分析方法、系统、设备及存储介质技术方案_技高网

一种文献分析方法、系统、设备及存储介质技术方案

技术编号:40409387 阅读:4 留言:0更新日期:2024-02-20 22:29
本发明专利技术公开了一种文献分析方法、系统、设备及存储介质,应用于人工智能技术领域,解决了传统方案中文献分析准确性低的问题,包括:对文献集进行知识抽取,得到包括多个三元组的三元组集合;基于三元组集合,按照预设规则建立包括三层结构的异质图,使得异质图的第三层用于反映三元组集合中的不同三元组之间的联系,且异质图的第二层与第三层连接并用于反映三元组所属文献与三元组之间的联系,且异质图的第一层与第二层连接并用于反映文献作者所属机构与文献之间的联系;基于异质图,利用训练完毕的图卷积网络模型执行设定的下游任务,并将图卷积网络模型的输出作为对应于文献集的分析结果。应用本发明专利技术的方案,可以得到文献集准确的分析结果。

【技术实现步骤摘要】

本专利技术涉及人工智能,特别是涉及一种文献分析方法、系统、设备及存储介质


技术介绍

1、ai for science,指的是人工智能所驱动的科学研究,通过人工智能与机器学习等方法处理和分析大量数据,可以高效发现数据之间的关联,帮助科学家克服“维数灾难”,更快、更准地理解复杂的自然现象和社会现象,已成为当前科研新范式,快速且深刻地影响着各个科学领域。以脑科学的实际场景为例,脑科学研究对于探索脑疾病、人类智能机理、类脑计算、脑机接口、芯片设计等方面均具有重大意义。

2、据不完全统计,目前全世界与脑科学相关的文献高达300多万篇,同时全世界有大量的神经科学知识图谱、本体、术语库、神经科学成像、三维建模、实验数据等多源异构的数据。对这些数据的存储、分析、服务、管理是长期的挑战性难题。虽然科学研究成果日积月累,但是这些科学文献并没有得到高效、充分地利用。

3、目前有的方案,会人工预定义抽取的实体类型和关系类型,然后人工标注训练语料进行有监督学习,或者基于规则、模板、词典等进行知识抽取。这类方法对于新的场景下迁移效果不好,特别是对于脑科学这样的高知识密度、高难度的科学领域,需要邀请领域专家标注数据,都是极具挑战性的现实问题。还有的方案中,会基于图神经网络模型来进行分析,主要是通过设计模型结构,提取图数据中与任务相关的特征,但由于无法提取整个图数据中自然存在的结构,会对模型能力带来局限性,即方案的准确性还有待提高。

4、综上所述,如何有效地实现文献分析,提高分析的准确性,是目前本领域技术人员急需解决的技术问题。


技术实现思路

1、本专利技术的目的是提供一种文献分析方法、系统、设备及存储介质,以有效地实现文献分析,提高分析的准确性。

2、为解决上述技术问题,本专利技术提供如下技术方案:

3、一种文献分析方法,包括:

4、对文献集进行知识抽取,得到包括多个三元组的三元组集合;

5、基于所述三元组集合,按照预设规则建立包括三层结构的异质图,使得所述异质图的第三层用于反映所述三元组集合中的不同三元组之间的联系,且所述异质图的第二层与第三层连接并用于反映三元组所属文献与三元组之间的联系,且所述异质图的第一层与第二层连接并用于反映文献作者所属机构与文献之间的联系;

6、基于所述异质图,利用训练完毕的图卷积网络模型执行设定的下游任务,并将所述图卷积网络模型的输出作为对应于所述文献集的分析结果。

7、在一种实施方式中,所述对文献集进行知识抽取,得到包括多个三元组的三元组集合,包括:

8、基于开放信息抽取算法,将文献集划分成多个文档,并依次进行各个文档的知识抽取;

9、对于当前进行知识抽取的文档,先基于开放信息抽取算法确定出所述文档的谓语集合,再基于所述文档,确定出所述谓语集合中的各个谓语各自对应的主语和宾语,得到对应于当前进行知识抽取的文档的各个三元组;

10、在各个文档的知识抽取均执行完毕之后,得到对应于所述文献集的包括多个三元组的三元组集合。

11、在一种实施方式中,还包括:

12、按照设定的过滤规则,对基于所述开放信息抽取算法所得到的三元组集合中的各个三元组进行质量校验,并且,将通过质量校验的三元组置入高质量三元组集合中,将未通过质量校验的三元组置入低质量三元组集合中;

13、所述基于所述三元组集合,按照预设规则建立包括三层结构的异质图,包括:

14、基于所述高质量三元组集合,按照预设规则建立包括三层结构的异质图。

15、在一种实施方式中,按照设定的过滤规则,对基于所述开放信息抽取算法所得到的三元组集合中的各个三元组进行质量校验,包括:

16、对于基于所述开放信息抽取算法所得到的三元组集合中的各个三元组,依次进行质量校验;

17、对于当前进行质量校验的三元组,确定出对应于所述三元组的原文档,并基于所述原文档以及当前进行质量校验的三元组,通过n种不同的抽取算法进行知识抽取,得到n个质检三元组;

18、对于当前进行质量校验的三元组,确定出所述三元组与相对应的n个质检三元组之间的相似度;

19、对于当前进行质量校验的三元组,当所述三元组与相对应的n个质检三元组之间的相似度高于设定的第一阈值时,确定出所述三元组通过质量校验,否则确定出所述三元组未通过质量校验;

20、其中,n为不小于2的正整数,且n种抽取算法均与所述开放信息抽取算法不同。

21、在一种实施方式中,n=2,对于当前进行质量校验的三元组,确定出所述三元组与相对应的n个质检三元组之间的相似度,包括:

22、对于当前进行质量校验的三元组,按照v=α×v1+β×v2的计算方式,确定出所述三元组与相对应的n个质检三元组之间的相似度v;

23、其中,v表示的是确定出的所述三元组与相对应的n个质检三元组之间的相似度,α和β均为预设系数,v1表示的是所述三元组与第1质检三元组之间的相似度,v2表示的是所述三元组与第2质检三元组之间的相似度;

24、所述第1质检三元组为通过第1种抽取算法进行知识抽取后所得到的质检三元组,且v1=sim([s,p,o],[s,p1,o1]);sim为相似度计算函数;s,p,o依次表示的是当前进行质量校验的所述三元组中的主语,谓语,宾语,p1表示的是所述第1质检三元组中的谓语,o1表示的是所述第1质检三元组中的宾语;

25、所述第2质检三元组为通过第2种抽取算法进行知识抽取后所得到的质检三元组,且v2=sim([s,p,o],[s,p2,o2]);p2表示的是所述第2质检三元组中的谓语,o2表示的是所述第2质检三元组中的宾语。

26、在一种实施方式中,第1种抽取算法为基于阅读理解模型的抽取算法,第2种抽取算法为基于提示学习模型的抽取算法。

27、在一种实施方式中,还包括:

28、对低质量三元组集合中的各个三元组进行追加验证,并将通过了追加验证的各个三元组置入所述高质量三元组集合中。

29、在一种实施方式中,对低质量三元组集合中的各个三元组进行追加验证,包括:

30、通过自动化统计筛选工具,对低质量三元组集合中的各个三元组进行追加验证;

31、通过自动化问答工具,对低质量三元组集合中的各个三元组进行追加验证;

32、对于所述自动化统计筛选工具所输出的各个三元组以及所述自动化问答工具所输出的各个三元组,均确定为通过了追加验证。

33、在一种实施方式中,通过自动化统计筛选工具,对低质量三元组集合中的各个三元组进行追加验证,包括:

34、通过自动化统计筛选工具,对低质量三元组集合中的各个三元组进行追加验证;

35、其中,对于低质量三元组集合中的任意1个三元组,当该三元组在所述三元组集合中的出现频率高于设定的频率阈值时,所述自动化统计筛选工具输出该本文档来自技高网...

【技术保护点】

1.一种文献分析方法,其特征在于,包括:

2.根据权利要求1所述的文献分析方法,其特征在于,所述对文献集进行知识抽取,得到包括多个三元组的三元组集合,包括:

3.根据权利要求2所述的文献分析方法,其特征在于,还包括:

4.根据权利要求3所述的文献分析方法,其特征在于,按照设定的过滤规则,对基于所述开放信息抽取算法所得到的三元组集合中的各个三元组进行质量校验,包括:

5.根据权利要求4所述的文献分析方法,其特征在于,N=2,对于当前进行质量校验的三元组,确定出所述三元组与相对应的N个质检三元组之间的相似度,包括:

6.根据权利要求5所述的文献分析方法,其特征在于,第1种抽取算法为基于阅读理解模型的抽取算法,第2种抽取算法为基于提示学习模型的抽取算法。

7.根据权利要求3所述的文献分析方法,其特征在于,还包括:

8.根据权利要求7所述的文献分析方法,其特征在于,对低质量三元组集合中的各个三元组进行追加验证,包括:

9.根据权利要求8所述的文献分析方法,其特征在于,通过自动化统计筛选工具,对低质量三元组集合中的各个三元组进行追加验证,包括:

10.根据权利要求3所述的文献分析方法,其特征在于,还包括:

11.根据权利要求1所述的文献分析方法,其特征在于,基于所述三元组集合,按照预设规则建立包括三层结构的异质图,使得所述异质图的第三层用于反映所述三元组集合中的不同三元组之间的联系,且所述异质图的第二层与第三层连接并用于反映三元组所属文献与三元组之间的联系,且所述异质图的第一层与第二层连接并用于反映文献作者所属机构与文献之间的联系,包括:

12.根据权利要求1所述的文献分析方法,其特征在于,基于所述异质图,利用训练完毕的图卷积网络模型执行设定的下游任务,并将所述图卷积网络模型的输出作为对应于所述文献集的分析结果,包括:

13.根据权利要求1所述的文献分析方法,其特征在于,基于所述异质图,利用训练完毕的图卷积网络模型执行设定的下游任务,并将所述图卷积网络模型的输出作为对应于所述文献集的分析结果,包括:

14.根据权利要求1所述的文献分析方法,其特征在于,基于所述异质图,利用训练完毕的图卷积网络模型执行设定的下游任务,并将所述图卷积网络模型的输出作为对应于所述文献集的分析结果,包括:

15.根据权利要求1至14任一项所述的文献分析方法,其特征在于,基于所述异质图,利用训练完毕的图卷积网络模型执行设定的下游任务,并将所述图卷积网络模型的输出作为对应于所述文献集的分析结果,包括:

16.根据权利要求15所述的文献分析方法,其特征在于,还包括:

17.根据权利要求16所述的文献分析方法,其特征在于,所述第二算法为用于学习节点之间的语义关系的知识图谱嵌入算法。

18.根据权利要求16所述的文献分析方法,其特征在于,还包括:

19.根据权利要求18所述的文献分析方法,其特征在于,所述第三算法为用于学习节点相似性的图嵌入算法。

20.一种文献分析系统,其特征在于,包括:

21.一种文献分析设备,其特征在于,包括:

22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至19任一项所述的文献分析方法的步骤。

...

【技术特征摘要】

1.一种文献分析方法,其特征在于,包括:

2.根据权利要求1所述的文献分析方法,其特征在于,所述对文献集进行知识抽取,得到包括多个三元组的三元组集合,包括:

3.根据权利要求2所述的文献分析方法,其特征在于,还包括:

4.根据权利要求3所述的文献分析方法,其特征在于,按照设定的过滤规则,对基于所述开放信息抽取算法所得到的三元组集合中的各个三元组进行质量校验,包括:

5.根据权利要求4所述的文献分析方法,其特征在于,n=2,对于当前进行质量校验的三元组,确定出所述三元组与相对应的n个质检三元组之间的相似度,包括:

6.根据权利要求5所述的文献分析方法,其特征在于,第1种抽取算法为基于阅读理解模型的抽取算法,第2种抽取算法为基于提示学习模型的抽取算法。

7.根据权利要求3所述的文献分析方法,其特征在于,还包括:

8.根据权利要求7所述的文献分析方法,其特征在于,对低质量三元组集合中的各个三元组进行追加验证,包括:

9.根据权利要求8所述的文献分析方法,其特征在于,通过自动化统计筛选工具,对低质量三元组集合中的各个三元组进行追加验证,包括:

10.根据权利要求3所述的文献分析方法,其特征在于,还包括:

11.根据权利要求1所述的文献分析方法,其特征在于,基于所述三元组集合,按照预设规则建立包括三层结构的异质图,使得所述异质图的第三层用于反映所述三元组集合中的不同三元组之间的联系,且所述异质图的第二层与第三层连接并用于反映三元组所属文献与三元组之间的联系,且所述异质图的第一层与第二层连接并用于反映文献作者所属机构与文献之间的联系,包括:

【专利技术属性】
技术研发人员:朱洪银张闯王敏
申请(专利权)人:广东浪潮智慧计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1