System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种知识图谱本体中概念构建方法、装置、介质及设备制造方法及图纸_技高网
当前位置: 首页 > 专利查询>之江实验室专利>正文

一种知识图谱本体中概念构建方法、装置、介质及设备制造方法及图纸

技术编号:41007466 阅读:3 留言:0更新日期:2024-04-18 21:43
本说明书公开了一种知识图谱本体中概念构建方法、装置、介质及设备,获取用户输入的待构建数据。将待构建数据输入训练完成的主题模型,得到待构建数据中的各关键词。向用户返回各关键词以及提示信息,接收用户返回的针对各关键词的评估信息,提示信息用于提示用户评估各关键词。当评估信息为各关键词均通过评估时,将各关键词输入训练完成的通用大语言模型,确定待构建数据包含的概念,以根据确定出的概念构建知识图谱,通过主题模型提取待构建数据中的各关键词,并向用户返回关键词,实现了针对待构建数据自动挖掘关键词以及关键词评估的可视化,提高确定的关键词的可解释性。通过用户返回的评估信息,实现了人工对待构建数据提取结果的修正。

【技术实现步骤摘要】

本说明书涉及计算机,尤其涉及一种知识图谱本体中概念构建方法、装置、介质及设备


技术介绍

1、目前,知识图谱在自然语言处理、搜索引擎以及问题回答系统等领域的有着广泛应用,有助于机器理解文本背后的语义,从而更好地为用户提供准确和相关的信息。知识图谱,是一种用于表示知识的图形化结构,它包含了一个领域中的概念、实体、关系和属性,以及它们之间的逻辑关联,以一种机器可读的形式来组织和表达知识,使得计算机能够更好地从知识中理解和推理信息。

2、在知识图谱中,本体是指知识图谱中一组“概念-关系-概念”,是知识图谱的核心组成部分,是一种形式化的知识表示结构。在构建知识图谱之前,需要先构建本体,即,以本体为核心构建知识图谱。

3、在现有技术中,通常需要利用专家对所属领域所具备的知识点、概念、术语具有系统的认知和抽象能力,提炼出具有广泛性的概念。然后在此基础上逐步细化,确定概念包含的实体,实体的属性,进而确定概念之间的关系,直至构建出本体。但是,这种方式需要耗费较长时间,而且会耗费大量人力,提炼出的概念质量参差不齐。

4、为此,本说明书提供了一种知识图谱本体中概念构建方法、装置、介质及设备。


技术实现思路

1、本说明书提供一种知识图谱本体中概念构建方法、装置、介质及设备,以部分的解决现有技术存在的上述问题。

2、本说明书采用下述技术方案:

3、本说明书提供了一种知识图谱本体中概念构建方法,包括:

4、获取用户输入的待构建数据;p>

5、将所述待构建数据输入训练完成的主题模型,得到所述待构建数据中的各关键词;

6、向所述用户返回所述各关键词以及提示信息,接收所述用户返回的针对所述各关键词的评估信息,所述提示信息用于提示所述用户评估所述各关键词;

7、当所述评估信息为所述各关键词均通过评估时,将所述各关键词输入训练完成的通用大语言模型,确定所述待构建数据包含的概念,以根据确定出的概念构建知识图谱。

8、可选的,所述训练完成的主题模型至少包括词嵌入子模型、聚类子模型、提取子模型;

9、将所述待构建数据输入训练完成的主题模型,得到所述待构建数据中的各关键词,具体包括:

10、将所述待构建数据输入所述词嵌入子模型,将所述待构建数据中各分词映射至向量空间,确定所述各分词的特征向量;

11、将所述各分词的特征向量输入所述聚类子模型,得到所述待构建数据中各分词的各聚类结果;

12、将所述各聚类结果输入所述提取子模型,得到所述各聚类结果分别对应的各关键词。

13、可选的,所述提取子模型包括词袋子模块以及关键词子模块;

14、将所述各聚类结果输入所述提取子模型,得到所述各聚类结果分别对应的各关键词,具体包括:

15、针对每个聚类结果,将该聚类结果的各分词的特征向量输入所述词袋子模块,得到该聚类结果对应的词袋矩阵;

16、将该聚类结果对应的词袋矩阵输入所述关键词子模块,得到该聚类结果对应的各关键词。

17、可选的,将所述待构建数据输入训练完成的主题模型之前,所述方法还包括:

18、将所述待构建数据进行预处理,所述预处理包括特殊字符处理、停用词处理以及文本分词处理中的至少一种。

19、可选的,所述方法还包括:

20、当所述评估信息为所述各关键词不通过评估时,根据所述评估信息携带的信息,对所述主题模型进行调整,重新确定关键词,直至通过所述用户的评估。

21、可选的,根据所述评估信息携带的信息,对所述主题模型进行调整,具体包括:

22、根据所述评估信息携带的信息中的引导词,对所述聚类子模型添加所述引导词,使所述聚类子模型根据所述引导词进行聚类。

23、可选的,所述训练完成的主题模型还包括降维子模型;

24、将所述各分词的特征向量输入所述聚类子模型之前,所述方法还包括:

25、将所述各分词的特征向量输入所述降维子模型,得到降维后的所述各分词的特征向量。

26、本说明书提供了一种知识图谱本体中概念构建装置,包括:

27、获取模块,用于获取用户输入的待构建数据;

28、提取模块,用于将所述待构建数据输入训练完成的主题模型,得到所述待构建数据中的各关键词;

29、评估模块,用于向所述用户返回所述各关键词以及提示信息,接收所述用户返回的针对所述各关键词的评估信息,所述提示信息用于提示所述用户评估所述各关键词;

30、确定模块,用于当所述评估信息为所述各关键词均通过评估时,将所述各关键词输入训练完成的通用大语言模型,确定所述待构建数据包含的概念,以根据确定出的概念构建知识图谱。

31、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述知识图谱本体中概念构建方法。

32、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现知识图谱本体中概念构建方法。

33、本说明书采用的上述至少一个技术方案能够达到以下有益效果:

34、本说明书提供的知识图谱本体中概念构建方法,获取用户输入的待构建数据。将待构建数据输入训练完成的主题模型,得到待构建数据中的各关键词。向用户返回各关键词以及提示信息,接收用户返回的针对各关键词的评估信息,提示信息用于提示用户评估各关键词。当评估信息为各关键词均通过评估时,将各关键词输入训练完成的通用大语言模型,确定待构建数据包含的概念,以根据确定出的概念构建知识图谱。

35、通过主题模型提取待构建数据中的各关键词,并向用户返回关键词,实现了针对待构建数据自动挖掘关键词以及关键词评估的可视化,提高确定的关键词的可解释性。通过用户返回的评估信息,实现了人工对待构建数据提取结果的修正。

本文档来自技高网...

【技术保护点】

1.一种知识图谱本体中概念构建方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述训练完成的主题模型至少包括词嵌入子模型、聚类子模型、提取子模型;

3.如权利要求2所述的方法,其特征在于,所述提取子模型包括词袋子模块以及关键词子模块;

4.如权利要求1所述的方法,其特征在于,将所述待构建数据输入训练完成的主题模型之前,所述方法还包括:

5.如权利要求2所述的方法,其特征在于,所述方法还包括:

6.如权利要求5所述的方法,其特征在于,根据所述评估信息携带的信息,对所述主题模型进行调整,具体包括:

7.如权利要求2所述的方法,其特征在于,所述训练完成的主题模型还包括降维子模型;

8.一种知识图谱本体中概念构建装置,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。

10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。

...

【技术特征摘要】

1.一种知识图谱本体中概念构建方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述训练完成的主题模型至少包括词嵌入子模型、聚类子模型、提取子模型;

3.如权利要求2所述的方法,其特征在于,所述提取子模型包括词袋子模块以及关键词子模块;

4.如权利要求1所述的方法,其特征在于,将所述待构建数据输入训练完成的主题模型之前,所述方法还包括:

5.如权利要求2所述的方法,其特征在于,所述方法还包括:

6.如权利要求5所述的方法,其特征在于,根据所述评估信息携带...

【专利技术属性】
技术研发人员:段宏英沈志龙孔祥夫董波
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1