System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于超算的多模态海洋知识语义交互方法与系统技术方案_技高网

基于超算的多模态海洋知识语义交互方法与系统技术方案

技术编号:40991519 阅读:3 留言:0更新日期:2024-04-18 21:33
本申请涉及一种基于超算的多模态海洋知识语义交互方法与系统,其中,该方法包括:获取海洋领域数据源进行数据预处理后构建海洋知识图谱;监听问题语音数据并转换为文本数据,基于文本数据中的疑问词及特征词查询海洋知识图谱中对应的节点及节点间关系确定其问题分类,基于问题分类查询图数据库中的检索结果并生成回答语音数据;构建生成式内容语义交互模型,将文本数据转换为语义向量后利用图片信息生成器得到低维图片向量,将低维图片向量进行升维后输出结果图片;其中,所述方法的生产环境预先部署于一超算平台基于超算GPU集群搭建。通过本申请实现降低模型发布成本及训练成本,提升模型响应速度。

【技术实现步骤摘要】

本申请涉及语义交互,特别是涉及基于超算的多模态海洋知识语义交互方法与系统


技术介绍

1、知识问答系统是信息检索系统的一种高级形式,它能用准确、简介的自然语言回答用户自然语言提出的问题。现有的技术方案主要分两类:一类是基于知识图谱的知识问答方法,例如:生物医药知识图谱智能问答、军事知识智能问答;另一类是基于大语言模型的知识问答方法,例如:百度文心一言大模型、科大讯飞星火大模型、华为盘古大模型等。

2、但是,目前还缺少一种应用于海洋领域的海洋知识语义交互方案,另外,基于知识图谱的方法响应速度快、对硬件的依赖水平低,但是存在问答形式单一、知识库范围小等方面的缺点;基于大语言模型的方法功能强大,但是面临研发成本高、领域性差等方面的缺点。


技术实现思路

1、本申请实施例提供了一种基于超算的多模态海洋知识语义交互方法、系统、计算机设备和计算机可读存储介质,以至少提供一种面向海洋领域的多模态知识语义交互模型。

2、第一方面,本申请实施例提供了一种基于超算的多模态海洋知识语义交互方法,包括:

3、知识图谱构建步骤,获取海洋领域数据源进行数据预处理,抽取本体及关系并配置实体属性构建海洋知识图谱存储至图数据库,所述海洋领域数据源包括:互联网数据、开源数据库、公开数据集,所述数据预处理包括数据解析、数据清洗、实体对齐;其中,海洋知识图谱的原始数据采用neo4j图数据库以图数据的组织形式进行存储,图数据存储采用树形结构,如图所示,其中,本体包括根节点及各级子节点,关系包括父类-子类关系及热点节点的关联关系,实体包括根节点、一级节点、二级节点、三级节点、四级节点、五级节点,根节点为知识范围,一级子节点为九类知识类别,二级子节点为九类知识类别细分子类别,三级子节点、四级子节点同理,五级节点为具体实体。实体属性包括实体名称、实体id及实体描述。

4、问答语义交互步骤,监听问题语音数据并将语音识别转换为文本数据,基于所述文本数据中的疑问词及特征词查询所述海洋知识图谱中对应的节点及节点间关系确定其问题分类,基于所述问题分类查询图数据库中的检索结果,将所述检索结果转换为回答语音数据;

5、生成式内容语义交互步骤,基于aigc模型构建生成式内容语义交互模型,获取文本数据并将所述文本数据经文本编码器转换为语义向量后利用一图片信息生成器得到低维图片向量,将所述低维图片向量进行升维后输出结果图片;

6、其中,所述方法的生产环境预先部署于一超算平台基于超算gpu集群搭建,具体的,所述生产环境包括但不限于分布式图数据库和pytorch深度学习框架。

7、在其中一些实施例中,所述知识图谱构建步骤进一步包括:

8、数据获取步骤,爬取海洋领域名词的百度百科数据,并采用大语言模型api接口获取海洋领域名词的数据,得到海洋领域原始数据并存储为csv格式,海洋知识图谱中的每个根节点都用一条记录来表示;

9、图数据库链接步骤,采用excel2json工具将海洋领域原始数据转换为json数据形式,以便于导入neo4j数据库,使用py2neo库链接neo4j图数据库并设置图数据库访问地址及用户名、密码,以便于批量导入json数据;

10、节点关系构建步骤,读取海洋领域原始数据中的实体及其实体属性,并读取节点间的关系,运用cypher语句在neo4j图数据库中构建多级节点及节点间关系,形成海洋知识图谱,导出所述多级节点的实体名称形成特征词数据字典。

11、在其中一些实施例中,通过编写脚本检查并删除图数据库中的重复节点及节点间关系。

12、在其中一些实施例中,所述问答语义交互步骤进一步包括:

13、问题数据获取步骤,监听获取用户的问题语音数据并利用语音识别算法转换为文本数据;

14、问题分类步骤,加载所述特征词数据字典对应的特征词存储在数组列表中并配置疑问词,过滤所述文本数据中的特征词及疑问词,基于所述文本数据中的特征词及疑问词定位和/或采用字段匹配进行模糊定位至所述海洋知识图谱的节点及节点间关系,得到所述问题分类,提升问题分类的精度,避免“答非所问”的问题;问题回答获取步骤,根据所述问题分类构造查询语句,根据所述查询语句执行图数据库信息流检索并将检索结果以回答话术的方式进行优化后转换为回答语音数据。

15、在其中一些实施例中,所述生成式内容语义交互步骤进一步包括:

16、语义向量获取步骤,获取输入的文本数据利用文本编码器text encoder将所述文本数据转换为包含文本语义信息的语义向量,具体的,所述文本数据可以为图像内容、图像风格;

17、图片信息生成步骤,利用图片信息生成器image information creator根据所述语义向量生成一64*64维度的低维图片向量;

18、结果图片生成步骤,利用图片解码器image decoder将所述低维图片向量输出为512*512维度的结果图片。

19、在其中一些实施例中,所述生成式内容语义交互步骤中,进一步包括:

20、模型预训练步骤,基于预先构建的模型训练数据集对生成式内容语义交互模型进行通用预训练;

21、海洋个性化设置步骤,获取海洋训练数据集训练海洋领域lora模型(low-rankadaptation of large language models,大语言模型的低阶适应模型),以完成模型在海洋领域的个性化设置,其中,将所述预训练模型及海洋训练数据集在gpu节点上进行分布式数据并行训练,以提高模型训练效率。

22、第二方面,本申请实施例提供了一种基于超算的多模态海洋知识语义交互系统,包括:

23、知识图谱构建模块,用于获取海洋领域数据源进行数据预处理,抽取本体及关系并配置实体属性构建海洋知识图谱存储至图数据库,所述海洋领域数据源包括:互联网数据、开源数据库、公开数据集,所述数据预处理包括数据解析、数据清洗、实体对齐;其中,海洋知识图谱的原始数据采用neo4j图数据库以图数据的组织形式进行存储,图数据存储采用树形结构,如图所示,其中,本体包括根节点及各级子节点,关系包括父类-子类关系及热点节点的关联关系,实体包括根节点、一级节点、二级节点、三级节点、四级节点、五级节点,根节点为知识范围,一级子节点为九类知识类别,二级子节点为九类知识类别细分子类别,三级子节点、四级子节点同理,五级节点为具体实体。实体属性包括实体名称、实体id及实体描述。

24、问答语义交互模块,用于监听问题语音数据并将语音识别转换为文本数据,基于所述文本数据中的疑问词及特征词查询所述海洋知识图谱中对应的节点及节点间关系确定其问题分类,基于所述问题分类查询图数据库中的检索结果,将所述检索结果转换为回答语音数据;

25、生成式内容语义交互模块,用于基于aigc模型构建生成式内容语义交互模型,获取文本数据并将所述文本数据经文本编码器转换为语义向量后利用一图片信本文档来自技高网...

【技术保护点】

1.一种基于超算的多模态海洋知识语义交互方法,其特征在于,包括:

2.根据权利要求1所述的基于超算的多模态海洋知识语义交互方法,其特征在于,所述知识图谱构建步骤进一步包括:

3.根据权利要求2所述的基于超算的多模态海洋知识语义交互方法,其特征在于,所述问答语义交互步骤进一步包括:

4.根据权利要求2所述的基于超算的多模态海洋知识语义交互方法,其特征在于,所述生成式内容语义交互步骤进一步包括:

5.根据权利要求4所述的基于超算的多模态海洋知识语义交互方法,其特征在于,所述生成式内容语义交互步骤中,进一步包括:

6.一种基于超算的多模态海洋知识语义交互系统,其特征在于,包括:

7.根据权利要求6所述的基于超算的多模态海洋知识语义交互系统,其特征在于,所述问答语义交互模块进一步包括:

8.根据权利要求6所述的基于超算的多模态海洋知识语义交互系统,其特征在于,所述生成式内容语义交互模块进一步包括:

9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于超算的多模态海洋知识语义交互方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一项所述的基于超算的多模态海洋知识语义交互方法。

...

【技术特征摘要】

1.一种基于超算的多模态海洋知识语义交互方法,其特征在于,包括:

2.根据权利要求1所述的基于超算的多模态海洋知识语义交互方法,其特征在于,所述知识图谱构建步骤进一步包括:

3.根据权利要求2所述的基于超算的多模态海洋知识语义交互方法,其特征在于,所述问答语义交互步骤进一步包括:

4.根据权利要求2所述的基于超算的多模态海洋知识语义交互方法,其特征在于,所述生成式内容语义交互步骤进一步包括:

5.根据权利要求4所述的基于超算的多模态海洋知识语义交互方法,其特征在于,所述生成式内容语义交互步骤中,进一步包括:

6.一种基于超算的多模态海洋知识语义交互系统,其特征在于,包括:<...

【专利技术属性】
技术研发人员:陈溟杨帅贾晓艺苏亮谭华李志勇戴维巍王成锐岳国峰黄笑晗董振华丁燕梅张嘉树
申请(专利权)人:青岛国实科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1