【技术实现步骤摘要】
一种基于预定义关系的知识联合抽取的方法及装置
本申请涉及一种基于预定义关系的知识联合抽取的方法及装置。
技术介绍
自然语言是指一种自然地随文化演化的语言。例如,汉语、英语、日语为自然语言的例子,这一种用法可见于自然语言处理一词中。自然语言是人类交流和思维的主要工具。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的,也是各国人表达的方法其中之一。现在的自然语言处理一般从实体识别出发,然后利用深度学习的方式建立识别模块,达到识别的目的。虽然深度学习大大提高了在知识抽取方面的效率,但是其适用性却受到原有素材的影响,且对于实体层面的重视反而弱化了自然语言所进行的内在关系的表达。
技术实现思路
为了解决上述问题,本申请一方面提出了一种基于预定义关系的知识联合抽取的方法,包括如下步骤:提取目标信息,所述目标信息包括拓展关系和实体;以拓展关系作为出发点,将得到的实体按照第一规则与拓展关系进行组队得到信息组;所述第一规则包括拓展关系预设的若干连接节点,所述连 ...
【技术保护点】
1.一种基于预定义关系的知识联合抽取的方法,其特征在于:包括如下步骤:/n提取目标信息,所述目标信息包括拓展关系和实体;/n以拓展关系作为出发点,将得到的实体按照第一规则与拓展关系进行组队得到信息组;/n所述第一规则包括拓展关系预设的若干连接节点,所述连接节点有对预设连接的实体预设条件。/n
【技术特征摘要】
1.一种基于预定义关系的知识联合抽取的方法,其特征在于:包括如下步骤:
提取目标信息,所述目标信息包括拓展关系和实体;
以拓展关系作为出发点,将得到的实体按照第一规则与拓展关系进行组队得到信息组;
所述第一规则包括拓展关系预设的若干连接节点,所述连接节点有对预设连接的实体预设条件。
2.根据权利要求1所述的一种基于预定义关系的知识联合抽取的方法,其特征在于:所述拓展关系的识别模型采用bert-wwm-ext+膨胀门卷积神经网络模型训练得到。
3.根据权利要求2所述的一种基于预定义关系的知识联合抽取的方法,其特征在于:所述拓展关系识别模型按照如下方法训练得到:
构建训练样本,针对采集的语料按照语句进行人工标注;根据人工经验,及预定义的关系类型,对语句进行拓展关系标注;
使用bert-wwm-ext针对训练样本,构建成向量,输入到膨胀门卷积神经网络进行拓展关系识别模型的训练。
4.根据权利要求1所述的一种基于预定义关系的知识联合抽取的方法,其特征在于:所述实体识别模型采用bert-wwm-ext+BILSTM+CRF实体识别模型训练得到。
5.根据权利要求2所述的一种基于预定义关系的知识联合抽取的方法,其特征在于:所述实体识别模型按照如下方法训练得到:
构建训练样本,针对采集的语料对其中的实体进行人工标注;
标注采用BIOES标注,实体类型分为PER人员,ORG机构,ADDR地点,BK书籍;
将标注好的样本通过bert-wwm-ext预训练模型生成向量,输入到的BILSTM+CRF网络进行实体识别模型的训练。
6.根据权利要求5所述的一种基于预定义关系的知识联合抽取的方法,其特征在于:在进行实体识别模型中,采用BIOES标注按照如下方式进行,
对于PER人员,B-PER代表人员实体开始字符,I-PER代表人员实体中间字符,E-PER代表人员实体结束字符...
【专利技术属性】
技术研发人员:于文才,钟琴隆,杜明本,李鑫宇,张亚宁,董林林,杜志诚,马强,
申请(专利权)人:山东旗帜信息有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。