【技术实现步骤摘要】
一种基于MDATA模型的时空知识抽取方法
[0001]本专利技术涉及知识图谱等人工智能
,尤其涉及一种基于MDATA模型的时空知识抽取方法。
技术介绍
[0002]知识图谱中一般存储的是经过处理和规范化之后的知识元组,其中很大比重的知识是事件型的,具有一定的实时性和空间性。因此,时间和空间信息(后面统称为“时空信息”)是事件的重要组成部分。时空数据在众多领域的知识库构建中都发挥重要的作用,其识别准确性直接影响下游任务的事件判断、行为决策等。例如在面向网络安全的知识图谱中,安全事件往往具有特定的时空属性,表达不同的网络安全事件发生的先后顺序以及IP的传播关系。但是目前已有的知识图谱缺乏对时间和空间信息的单独考虑。时间信息和空间信息的抽取与规范化,并集成到知识元组中,对于构建时空信息完整的知识图谱具有重要意义。
[0003]在面向文本的数据抽取中,包括实体抽取、关系抽取和事件抽取。通常,时间和空间信息都被分类在实体下面的某个子类别中,不作单独处理。但直接抽取的时间空间信息普遍表现信息不完整、格式不统一、表达不准确的特点,导致其无法直接使用在图谱推理等下游任务中。例如,“前两天下午”这一时间短语如果缺乏上下文和背景信息,则无法通过“今天”的具体日期来推出“前天下午”的具体,那么这一时间表达式不准确且难以保存和利用的。再比如,“南山”这一空间信息,如果没有上下文和背景信息,那么也是无法完整具体地表达“南山”到底指的是深圳市南山区,或是南山风景区,或是常州市南山村,或是其他地点。因此,将时空信息抽取作为一项单独的 ...
【技术保护点】
【技术特征摘要】
1.一种基于MDATA模型的时空知识抽取方法,其特征在于,包括以下步骤:步骤1,识别时间和空间知识;通过时间触发词表、空间触发词表识别输入序列中的时空知识,并将序列中的时空知识替换为概念代号;步骤2,时空知识的实体关系依赖识别,得到知识五元组;步骤3,时间、空间知识规范化处理。2.根据权利要求1所述的时空知识抽取方法,其特征在于,在所述步骤1中,具体包括:步骤101,在文本经过预处理后,按照分隔符对文本进行切分,切分后的每一部分为一个输入单元;步骤102,对每一个输入单位进行分词,得到一个文本序列,序列中的每一部分表示为令牌;步骤103,通过时间触发词表、空间触发词表得到文本序列中的时间和空间相关的令牌;步骤104,将识别得到的时空信息相关的令牌处理为概念代号,时间用time表示,空间用location表示。3.根据权利要求1所述的时空知识抽取方法,其特征在于,在所述步骤2中,将新的序列输入训练好的BERT+CRF模型中,通过序列标注的方法,识别输入中的实体、关系和相关的时空属性,并将其表达为知识五元组。4.根据权利要求3所述的时空知识抽取方法,其特征在于,在所述步骤2中,所述BERT+CRF模型的训练过程具体包括:步骤Y1,通过正则表达式及触发词表从海量语料中筛选含表达时空信息的文本,并替换语料中的时空信息为概念代号,其中时间统一替换为Time,空间统一替换为Spatial;步骤Y2,对语料进行无监督的精确标注;步骤Y3,将标注的样本送入BERT+CRF模型中进行训练;根据时空信息的上下文局部强相关性,用语料训练BERT+CRF模型。5.根据权利要求4所述的时空知识抽取方法,其特征在于,在所述步骤Y2中,标注的标签类型包括:实体P,关系R,时间T,空间S,其它O;在所述步骤Y3中,标注的规则具体为:步骤a,若实体的名词或行为有修饰,则简化,只标名词或行为;步骤b,一个样本中多个实体关系组,则分成多个样本;步骤c,一个样本中有多个时间和空间信息,将其中与样本中包含事件无关的时间和空间信息标注为O,作为负样本;步骤d,标注中,调整或删掉没有任何逻辑的样本;在所述步骤Y3中,用B
‑
标签表示某一标注的开始,I
‑
标签表示某一标注的非起始字段。6.根据权利要求3所述的时空知识抽取方法,其特征在于,在所述步骤2中,具体包括:步骤201,首先向BERT+CRF模型输入层输入句子,是输入长度,表示为中文单个字或英文单词,经过BERT层后,得到输入的特征向量,其中是单词的表征向量;
步骤202,特征向量E
X
经过全连接层得到输出序列,其中表示将映射为所有类别的分数;步骤203,将输出序列输入CRF层,进一步计算将输入句子预测为任一标签序列的得分;对于任一标签序列,将输入句子分类到标签序列的得分计算公式为:公式为:表示输入句子分类到标签序列的得分,表示输入长度,也是输出序列的长度,表示第个单词的预测标签,是求和公式中使用到的变量表示,T是转移矩阵,表示标签之间的转移分数,代表由标签转移到标签的概率,是状态分数,表示将输入句子中单词预...
【专利技术属性】
技术研发人员:贾焰,方滨兴,顾钊铨,张欢,杜磊,张志强,闫昊,谭昊,廖清,高翠芸,
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。