System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于表达知识图谱的地表异常预警文本生成方法技术_技高网

一种基于表达知识图谱的地表异常预警文本生成方法技术

技术编号:40668663 阅读:4 留言:0更新日期:2024-03-18 19:04
本发明专利技术公开了一种基于表达知识图谱的地表异常预警文本生成方法,包括:知识抽取:依据已有的地表异常知识图谱模式层对输入的地表异常语义信息进行知识抽取,生成结构化的地表异常数据;地表异常预警表达知识图谱构建:将生成的结构化地表异常数据存入图数据库,并转换为三元组形式;预警表达文本生成:将三元组形式的地表异常数据输入到预训练好的预警表达文本生成模型中,并进行文本生成训练,获得训练好的预警表达文本生成模型,生成自然语言描述的预警表达文本。本发明专利技术能够基于少量、无成对样本的数据集进行训练,既能保障生成文本的准确性,也能提高生成文本的灵活性和多样性,为各类突发性地表异常预警工作提供迅速而有效的信息支持。

【技术实现步骤摘要】

本专利技术属于地表异常与灾害应急管理领域,涉及地表异常预警文本生成技术,具体涉及一种基于表达知识图谱的地表异常预警文本生成方法


技术介绍

1、地表异常的即时预警面临地面处理与传输任务中链条长、响应慢等问题,将高度专业、关系复杂的地表异常遥感预警信息表达为适于卫星实时推送的形式是十分必要的,面向不同的预警对象,如何通过自然语言文本,简洁、可读、可控地表达并传递高质量预警信息更是重中之重。

2、一方面,传统文本生成的领域研究主要集中在基于模板的生成方法,该方法在特定领域表现出色,但具有难以扩展、泛化性较差、生成文本单一等问题,难以满足表达多样化等需求。另一方面,深度学习模型具有大规模数据处理以及适应不同的文本生成任务的能力,提高了文本生成的准确性和多样性,基于深度学习模型的文本生成主要包括序列到序列和图到序列两种端到端的模型方法:

3、基于序列到序列架构的文本生成方法,主要通过训练好的序列到序列模型进行文本生成,但是该模型在训练时易忽略了训练样本之间的关系,完整性差;基于图到序列架构的文本生成方法,主要通过知识图谱衍生出多种引导文本生成的途径,不仅能够保留训练样本之间的关系,并且可以增加生成文本的多样性。

4、现有的图到序列架构的文本生成方法通常需要大量的数据进行训练。然而,在地表异常领域,有关灾害类的数据集十分有限。因此,面向即时遥感探测与语义提取获取的地表异常预警信息,需要一个新的技术方案来解决这些问题。


技术实现思路

1、专利技术目的:针对现有技术中存在的预警内容复杂、对齐数据匮乏、规则方法效率低下等问题,提供一种基于表达知识图谱的地表异常预警文本生成方法,能够基于少量、无成对样本的数据集进行训练,既能保障生成文本的准确性,也能提高生成文本的灵活性和多样性,能够为各类突发性地表异常预警工作提供迅速而有效的信息支持。

2、技术方案:为实现上述目的,本专利技术提供一种基于表达知识图谱的地表异常预警文本生成方法,包括如下步骤:

3、s1:地表异常预警表达知识抽取:

4、依据已有的地表异常知识图谱模式层对输入的地表异常语义信息进行知识抽取,生成结构化的地表异常数据;

5、s2:地表异常预警表达知识图谱构建:

6、将生成的结构化地表异常数据存入图数据库,并转换为三元组形式;

7、s3:预警表达文本生成:

8、将三元组形式的地表异常数据输入到预警表达文本生成模型中,并进行文本生成训练,获得训练好的预警表达文本生成模型,最终生成自然语言描述的预警表达文本。

9、进一步地,所述步骤s1中知识抽取包括节点抽取和关系抽取,具体如下:

10、节点抽取:依据已有的地表异常知识图谱模式层及其文本语义的表达形式,将语义信息抽取为不同表达模式的实体,接着按节点类型将实体进行划分,分为事件节点、对象节点、状态节点、特征节点、表达节点等类型,按照节点类型与抽取顺序,为每个节点分配唯一的节点编号,并定义其属性,包括节点类型、节点一级标签、节点二级标签、节点名称、节点说明等,并设定属性若为空值则填入“\”;

11、关系抽取:根据节点与节点之间的内容,依据已有的地表异常知识图谱模式层,将关系进行类型划分,分为上下位关系、关联关系、时空关系等类型,确定关系名称,按照关系类型与抽取顺序,为每个关系分配唯一的关系编号,并定义关系的属性,包括关系类型、关系一级标签、关系二级标签、关系名称、关系说明等,并设定属性若为空值则填入“\”。

12、进一步地,所述节点抽取中的地表异常知识图谱节点分类,按节点类型将实体分为事件节点、对象节点、状态节点、特征节点、表达节点类型,事件节点为地表异常事件节点,对象节点分为地表异常对象节点、地表异常强度对象节点、地表异常影响对象节点、地表异常环境对象节点、地表异常预警行为对象节点,状态节点分为瞬时状态节点、过程趋势状态节点,特征节点分为异常时间特征、异常事件特征、异常区间特征等103种,表达节点分为时间点表达、时间段表达、经纬度坐标表达、行政区域表达等136种;

13、所述关系抽取中的地表异常知识图谱关系分类,包括上下位关系、关联关系、时空关系类型,其中,上下位关系分为层次关系、构成关系和分类关系,层次关系用于表示同一地表异常预警事件中不同类型节点之间的层次关系;构成关系用于表示时间或者空间上整体-局部关系与过程-瞬时关系;分类关系用于表示两种同类型节点在隶属同一概念分类结构中呈“父类-子类”之间的关系。

14、进一步地,所述步骤s2具体为:

15、s2-1:数据存入:

16、按照事件节点、对象节点、状态节点、特征节点、表达节点的顺序,逐步读取节点数据,将节点的属性数据按“属性-值”的方式存入neo4j图数据库,接着读取关系数据,根据头节点编号与尾节点编号在图数据库中确定头尾节点,然后在头尾节点之间建立关系,并将关系类型、关系一级标签、关系二级标签、关系名称、关系说明等关系属性写入;

17、s2-2:三元组转换:从图数据库中提取信息,将知识图谱转化为三元组形式,按照{"relations":[节点1,关系,节点2],"text":"","entity":[节点1,节点2]}的格式,按顺序写入json文件中。

18、进一步地,所述步骤s3中预警表达文本生成具体包括如下步骤:

19、s3-1:实体、关系词编码:通过将实体、关系词与模型的词典进行比对,若词典中存在对应词语,则根据词典中对应词语的编码,若词典中不存在对应词语,则返回字典中"<unk>"的编码;

20、s3-2:实体嵌入与池化:对于知识图谱对应的文本,先进行实体识别,基于预训练词嵌入模型对每个实体进行词嵌入,实体的嵌入表示是由实体中每个单词的上下文嵌入获得的,每个单词的嵌入是通过考虑它之前的上下文和之后的内容来编码,获得每个单词的嵌入后,通过平均池化来计算实体的最终嵌入;

21、s3-3:无标签连通图构建:使用编码后的三元组构建无标签连通图,作为后续的输入;在构建过程中,使用两个节点来代替表示关系的边,使用图注意力网络计算每个节点的嵌入表示,并为了捕捉图的全局结构,引入一个根节点,这个根节点与所有其他节点相连,最终得到无标签连通图;

22、s3-4:预警文本生成循环训练与迭代反向翻译:

23、将步骤s3-2中得到的实体最终嵌入、步骤s3-3中得到的无标签连通图输入至预警文本生成模型中进行文本生成训练,得到训练好的预警文本生成模型;

24、s3-5:预测文本序列生成:

25、将无标签连通图输入至预警文本生成模型中,生成预测文本序列;

26、s3-6:预警文本生成:基于得到的预测文本序列,生成自然语言描述的预警文本。进一步地,所述步骤s3-3中无标签连通图的表达如下:

27、g=(v,e)

28、其中,v表示实体/关本文档来自技高网...

【技术保护点】

1.一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,所述步骤S1中知识抽取包括节点抽取和关系抽取,具体如下:

3.根据权利要求2所述的一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,所述节点抽取中的地表异常知识图谱节点分类,按节点类型将实体分为事件节点、对象节点、状态节点、特征节点、表达节点类型,事件节点为地表异常事件节点,对象节点分为地表异常对象节点、地表异常强度对象节点、地表异常影响对象节点、地表异常环境对象节点、地表异常预警行为对象节点,状态节点分为瞬时状态节点、过程趋势状态节点;

4.根据权利要求3所述的一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,所述步骤S2具体为:

5.根据权利要求1所述的一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,所述步骤S3中预警表达文本生成具体包括如下步骤:

6.根据权利要求5所述的一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,所述步骤S3-3中无标签连通图的表达如下:

7.根据权利要求5所述的一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,所述步骤S3-4中预警文本生成模型的训练方法为:预警文本生成模型由图结构至文本模型与文本至图结构模型组成,通过图结构至文本模型与文本至图结构模型两个模型的反复转换与不断迭代,学习表达知识图谱与预警表达文本的映射关系,反复交替优化模型,生成文本-图谱合成集,最终得到训练好的预警文本生成模型。

8.根据权利要求6所述的一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,所述步骤S3-4中预警文本生成模型采用预警文本生成循环训练与迭代反向翻译,在循环训练中,一个训练周期包括使用当前的G2T模型将图转换为文本,然后使用T2G模型将该文本转换回图,形成一个闭环,不断减少合成数据集与真实地表异常文本-图数据对之间分布的差异,在每次迭代中,模型参数通过最小化循环损失函数与更新,当合成数据集与真实的配对数据集有相同的分布时,总损失会等于从而实现无监督学习的目标。

9.根据权利要求8所述的一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,所述预警文本生成模型的循环训练中,

10.根据权利要求9所述的一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,所述步骤S3-5中由预警文本生成模型中的图结构至文本模型进行预测文本序列生成,其中图结构至文本模型包含图注意力网络、双向LSTM实体编码器、LSTM解码器,使用注意力机制来计算图中每个节点的表示,通过聚合每个节点的邻居节点的信息来增强节点的表示能力,使用双向LSTM实体编码器可以捕获实体前后的上下文信息,为实体生成一个全面的表示,最终通过LSTM解码器将图的编码表示转换为预测文本序列。

...

【技术特征摘要】

1.一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,所述步骤s1中知识抽取包括节点抽取和关系抽取,具体如下:

3.根据权利要求2所述的一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,所述节点抽取中的地表异常知识图谱节点分类,按节点类型将实体分为事件节点、对象节点、状态节点、特征节点、表达节点类型,事件节点为地表异常事件节点,对象节点分为地表异常对象节点、地表异常强度对象节点、地表异常影响对象节点、地表异常环境对象节点、地表异常预警行为对象节点,状态节点分为瞬时状态节点、过程趋势状态节点;

4.根据权利要求3所述的一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,所述步骤s2具体为:

5.根据权利要求1所述的一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,所述步骤s3中预警表达文本生成具体包括如下步骤:

6.根据权利要求5所述的一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,所述步骤s3-3中无标签连通图的表达如下:

7.根据权利要求5所述的一种基于表达知识图谱的地表异常预警文本生成方法,其特征在于,所述步骤s3-4中预警文本生成模型的训练方法为:预警文本生成模型由图结构至文本模型与文本至图结构模型组成,通过图结构至文本模型与...

【专利技术属性】
技术研发人员:吴越张翎龙毅曾嘉周喜
申请(专利权)人:南京师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1