一种文本三元组抽取方法及抽取系统技术方案

技术编号:24574644 阅读:54 留言:0更新日期:2020-06-21 00:12
本发明专利技术提出了一种文本三元组抽取方法,为了保证效率,模型以CNN+Attention的结构为基础。其中CNN使用膨胀卷积神经网络和残差结构,实现文本的长距离相关和信息的多通道流通,注意力机制应用Google力推的Self‑Attention。模型思想先预测文本中的subject,然后传入subject来预测该subject所对应的object及predicate。模型为了解决文本中存在多个subject、多个object甚至多个predicate等情况,利用0/1序列结构进行标注。本发明专利技术还提出了一种文本三元组抽取系统。

A text triple extraction method and system

【技术实现步骤摘要】
一种文本三元组抽取方法及抽取系统
本专利技术属于信息检索、智能问答、智能对话
,具体涉及一种自然语言处理中文本三元组抽取方法及抽取系统。
技术介绍
文本三元组抽取深度学习方法又分为两大类,Pipeline(先进行实体识别,然后对识别出的实体进行关系分类)和Jointmodel(实体识别和关系抽取作为一个整体的序列标注问题)。其中Pipeline把实体识别和关系分类作为两个完全独立的过程,不会相互影响,关系的识别依赖于实体识别的效果;而JointModel实体识别和关系分类的过程共同优化。网络缺点:先进行实体识别,然后对识别出的实体进行关系分类,但这种思路无法很好地处理同一组(subject,object)对应多个predicate的情况,同时会存在采样效率地的问题;另一种思路是作为一个整体的序列标注来做,但这种设计不能很好地处理同时有多个subject、多个object的情况,而无一例外地,这些方法都不能解决subject、object有重叠的情况。
技术实现思路
为了克服目前文本三元组提取方法中存在的本文档来自技高网...

【技术保护点】
1.一种文本三元组抽取方法,其特征在于,包括以下步骤:/n步骤1:对输入句子进行分字分词处理,分别在字级别和词级别进行embedding,把每个词的embedding,重复词中字的个数词,进行卷积和门控线性单元,得到的结果和字embedding进行混合,最后与Position Embedding相加得到总体的embedding层;/n步骤2:将得到字-词-位置Embedding输入到19层膨胀卷积和残差结构中进行编码,得到编码后的特征序列记为F;/n步骤3:将F传入一层Self-Attention后,将输出结果与先验特征进行拼接,其中先验特征是指对数据的每句中的subject,如果存在于现有的...

【技术特征摘要】
1.一种文本三元组抽取方法,其特征在于,包括以下步骤:
步骤1:对输入句子进行分字分词处理,分别在字级别和词级别进行embedding,把每个词的embedding,重复词中字的个数词,进行卷积和门控线性单元,得到的结果和字embedding进行混合,最后与PositionEmbedding相加得到总体的embedding层;
步骤2:将得到字-词-位置Embedding输入到19层膨胀卷积和残差结构中进行编码,得到编码后的特征序列记为F;
步骤3:将F传入一层Self-Attention后,将输出结果与先验特征进行拼接,其中先验特征是指对数据的每句中的subject,如果存在于现有的subject知识库中,则相应的位置标记为1,否则标0;
步骤4:将拼接后的结果传入TextCNN、Dense,用0/1序列的结构预测subject的首、尾位置;
步骤5:训练时随机采样一个标注的subject,然后将F对应此subject的子序列传入到一个6层膨胀卷积和残差结构中进行编码,得到subject的编码向量,然后加上相对位置的PositionEmbedding,得到一个与输入序列等长的向量序列;
步骤6:将F传入另一层Self-Attention后,将输出结果与第5步输出的向量序列、先验特征进行拼接,其中先验特征是指对数据的每句中的objec和predicate,如果存在于现有的object和predicate知识库中,则相应的位置标记为1,否则标记0;
步骤7:将拼接后的结果传入TextCNN、Dense,对于每一种predicate,都构建一个用0/1序列结构来预测对应的object的首、尾位置,把object、predicate预测出来。


2.如权利要求1所述的文本三元组抽取方法,其特征在于,所述残差结构对应的公式是式(1)和式(2):






式中,X为残差结构的输入(此发明中是指膨胀卷积之后的结果),公式中有两个卷积:卷积1:X·W1+b1为卷积操作,其中W1和b1为卷积参数;卷积2:X·W2+b2为卷积操作,其中W2和b2为卷积参数;σ为sigmoid激活函数;为乘法操作符;ε是一个常数因子,用于增加模型的鲁棒性。


3.如权利要求2所述的文本三元组抽取方法,其特征在于,所述残差结构中两个Conv1D形式是一样的,包括卷积核数、窗口大小,权值不共享,其中一个用sigmoid函数激活,然后再加一个扰动,以增加模型的鲁棒性,另外一个不加激活函数,然后将它们得到...

【专利技术属性】
技术研发人员:聂桂芝杨攀攀
申请(专利权)人:上海方立数码科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1