一种文本三元组抽取方法及抽取系统技术方案

技术编号：24574644 阅读：54 留言：0更新日期：2020-06-21 00:12

本发明专利技术提出了一种文本三元组抽取方法，为了保证效率，模型以CNN+Attention的结构为基础。其中CNN使用膨胀卷积神经网络和残差结构，实现文本的长距离相关和信息的多通道流通，注意力机制应用Google力推的Self‑Attention。模型思想先预测文本中的subject，然后传入subject来预测该subject所对应的object及predicate。模型为了解决文本中存在多个subject、多个object甚至多个predicate等情况,利用0/1序列结构进行标注。本发明专利技术还提出了一种文本三元组抽取系统。

A text triple extraction method and system

全部详细技术资料下载

【技术实现步骤摘要】
一种文本三元组抽取方法及抽取系统
本专利技术属于信息检索、智能问答、智能对话
，具体涉及一种自然语言处理中文本三元组抽取方法及抽取系统。
技术介绍
文本三元组抽取深度学习方法又分为两大类，Pipeline(先进行实体识别，然后对识别出的实体进行关系分类)和Jointmodel(实体识别和关系抽取作为一个整体的序列标注问题)。其中Pipeline把实体识别和关系分类作为两个完全独立的过程，不会相互影响，关系的识别依赖于实体识别的效果；而JointModel实体识别和关系分类的过程共同优化。网络缺点：先进行实体识别，然后对识别出的实体进行关系分类，但这种思路无法很好地处理同一组(subject,object)对应多个predicate的情况，同时会存在采样效率地的问题；另一种思路是作为一个整体的序列标注来做，但这种设计不能很好地处理同时有多个subject、多个object的情况，而无一例外地，这些方法都不能解决subject、object有重叠的情况。
技术实现思路
为了克服目前文本三...

【技术保护点】
1.一种文本三元组抽取方法，其特征在于，包括以下步骤：/n步骤1：对输入句子进行分字分词处理，分别在字级别和词级别进行embedding，把每个词的embedding，重复词中字的个数词，进行卷积和门控线性单元，得到的结果和字embedding进行混合，最后与Position Embedding相加得到总体的embedding层；/n步骤2：将得到字-词-位置Embedding输入到19层膨胀卷积和残差结构中进行编码，得到编码后的特征序列记为F；/n步骤3：将F传入一层Self-Attention后，将输出结果与先验特征进行拼接，其中先验特征是指对数据的每句中的subject，如果存在于现有的...

【技术特征摘要】
1.一种文本三元组抽取方法，其特征在于，包括以下步骤：
步骤1：对输入句子进行分字分词处理，分别在字级别和词级别进行embedding，把每个词的embedding，重复词中字的个数词，进行卷积和门控线性单元，得到的结果和字embedding进行混合，最后与PositionEmbedding相加得到总体的embedding层；
步骤2：将得到字-词-位置Embedding输入到19层膨胀卷积和残差结构中进行编码，得到编码后的特征序列记为F；
步骤3：将F传入一层Self-Attention后，将输出结果与先验特征进行拼接，其中先验特征是指对数据的每句中的subject，如果存在于现有的subject知识库中，则相应的位置标记为1，否则标0；
步骤4：将拼接后的结果传入TextCNN、Dense，用0/1序列的结构预测subject的首、尾位置；
步骤5：训练时随机采样一个标注的subject，然后将F对应此subject的子序列传入到一个6层膨胀卷积和残差结构中进行编码，得到subject的编码向量，然后加上相对位置的PositionEmbedding，得到一个与输入序列等长的向量序列；
步骤6：将F传入另一层Self-Attention后，将输出结果与第5步输出的向量序列、先验特征进行拼接，其中先验特征是指对数据的每句中的objec和predicate,如果存在于现有的object和predicate知识库中，则相应的位置标记为1，否则标记0；
步骤7：将拼接后的结果传入TextCNN、Dense，对于每一种predicate，都构建一个用0/1序列结构来预测对应的object的首、尾位置，把object、predicate预测出来。

2.如权利要求1所述的文本三元组抽取方法，其特征在于，所述残差结构对应的公式是式(1)和式(2)：

式中，X为残差结构的输入(此发明中是指膨胀卷积之后的结果)，公式中有两个卷积：卷积1：X·W1+b1为卷积操作，其中W1和b1为卷积参数；卷积2：X·W2+b2为卷积操作，其中W2和b2为卷积参数；σ为sigmoid激活函数；为乘法操作符；ε是一个常数因子，用于增加模型的鲁棒性。

3.如权利要求2所述的文本三元组抽取方法，其特征在于，所述残差结构中两个Conv1D形式是一样的，包括卷积核数、窗口大小，权值不共享，其中一个用sigmoid函数激活，然后再加一个扰动，以增加模型的鲁棒性，另外一个不加激活函数，然后将它们得到...

【专利技术属性】
技术研发人员：聂桂芝，杨攀攀，
申请(专利权)人：上海方立数码科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人