【技术实现步骤摘要】
一种基于自描述网络的信息抽取方法及装置
[0001]本专利技术涉及一种基于自描述网络的信息抽取方法及装置,属于自然语言处理
技术介绍
[0002]信息抽取旨在从非结构化文本中自动抽取结构化的记录信息,该类记录信息包括但不限于实体信息、事件信息等。以实体信息抽取为例,给定句子“Steve Jobs was born in San Francisco.”,一个信息抽取系统应当能够识别出一个“Steve Jobs”是一个“人类”实体,“San Francisco”是一个“地点”实体。以事件信息抽取为例,给定句子“Bush is due to visit the country next month.”,一个信息抽取系统应当能够识别出“访问”事件,触发词是“visit”。信息抽取是知识图谱构建及自然语言理解中的关键任务。
[0003]信息抽取的难点在于如何仅利用少量的标注数据,模型就能够充分理解抽取目标,并准确地进行信息抽取。训练一个能够准确抽取目标信息的信息抽取系统依赖于大量的标注数据,但标注数据的成本较高,因此 ...
【技术保护点】
【技术特征摘要】
1.一种基于自描述网络的信息抽取方法,其特征在于,包括以下步骤:构建基于自描述网络的序列到序列神经网络模型,该序列到序列神经网络模型包括编码器和解码器;该序列到序列神经网络模型执行描述生成任务,将标注数据和前缀提示符输入到编码器,由编码器捕捉标注数据的语义信息,得到语义特征表示;解码器处理语义特征表示,在每个预测时间步通过预测每个词语的概率分布,将概率最大的词语作为预测出的词语,生成文本序列,通过解析将文本序列中针对每个实体提及生成的概念词汇作为实体提及的描述;合并相同类别的实体提及的描述,获得类别的描述;该序列到序列神经网络模型执行信息生成任务,将目标文本和前缀提示符输入编码器,由编码器捕捉标注数据的语义信息,得到语义特征表示;解码器处理语义特征表示,在每个预测时间步通过预测每个词语的概率分布,将概率最大的词语作为预测出的词语,生成文本序列,通过解析获得文本中的识别的实体。收集外部标注数据,构造描述生成任务的训练数据和信息生成任务的训练数据,对序列到序列神经网络模型进行预训练,预训练过程中序列到序列神经网络模型采用多任务学习形式,同时执行描述生成任务和信息生成任务,使得两个任务之间共享知识;预训练好的模型再在特定任务的标注数据上进行微调,进一步在未标注数据集上进行信息抽取。2.如权利要求1所述的方法,其特征在于,序列到序列神经网络模型的编码器基于自注意力机制。3.如权利要求1所述的方法,其特征在于,序列到序列神经网络模型的解码器基于混合注意力机制。4.如权利要求1所述的方法,其特征在于,对序列到序列神经网络模型进行预训练时,对于描述生成任务,每次随机采样训练数据的句子中的实体加入到前缀提示中;对于信息生...
【专利技术属性】
技术研发人员:刘庆,陈家慰,林鸿宇,韩先培,孙乐,郑佳,
申请(专利权)人:中国科学院软件研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。