一种社交噪音文本实体关系抽取优化方法及系统技术方案

技术编号:29156665 阅读:21 留言:0更新日期:2021-07-06 22:56
本发明专利技术一种社交噪音文本实体关系抽取优化方法及系统,可解决社交文本领域数据标注成本大、数据更新速度快、数据集本身存在偏差以及原有模型可能陷入虚假相关性的问题。该方法将因果推断引入自然语言处理生成词向量的过程中,应用因果推断中干预与反事实的优势,实现了数据增强并减弱数据集本身带来的偏差。不仅能够减少人力标注数据的投入成本,而且能够有效模拟实际场景中文本的不规范性与创新性,提高模型对于社交噪音文本实体关系抽取的鲁棒性。与此同时,由于方法本身对于词向量进行处理,因此对于现有各类模型均有较好的适应性与应用可能性。

【技术实现步骤摘要】
一种社交噪音文本实体关系抽取优化方法及系统
本专利技术属于实体关系提取优化
,特别涉及一种社交噪音文本实体关系抽取优化方法及系统。
技术介绍
实体关系提取技术已经成为大数据分析和构建知识图谱的关键一环,该技术的目标为输出句子中所有的(主体,关系类型,客体)三元组为目标。随着该领域的不断发展,新的方法不断被提出。最早期的pipeline流水线模型将实体提取与关系提取分为先后的两个步骤,但该方法容易产生累积误差。随后许多研究人员提出了多种实体关系联合抽取模型,减少了累积误差。现有的实体关系联合提取模型大致可分为基于编码器的模型和任务分解的模型两类。前者直接采用encoder-decoder编码器-解码器结构,代表模型有NovelTagging与CopyRE。NovelTagging使用Decoder输出每个词所对应的标签,而标签由单词位置、关系类型与关系角色三部分组成。CopyRE中Decoder依次提取出句子中的关系类型、主体和客体,按此顺序提取完句子中所有的三元组。而任务分解的模型采用的主要思想为将实体关系提取任务进行分解,首先提取出所有本文档来自技高网...

【技术保护点】
1.一种社交噪音文本实体关系抽取优化方法,其特征在于,包括以下步骤:/nS1,利用原始数据集同类关系下的主体客体以及利用同一类别的实体替代主体客体的方法来构建语义反事实语料库;/nS2,利用语法结构和识别结果标准构建反事实检验器,筛选出有利用价值的语义反事实并入原始数据,未通过检验的语义反事实数据将被删除并通过S1补齐数目;/nS3,利用相对位置编码提取词语位置信息,通过对主客体的位置编码调换完成句法位置反事实生成;/nS4,扩充的数据集利用BERT预训练模型作为编码器得到对应的词向量;/nS5,在反事实扩充数据集的词向量的基础上,基于句法位置编码与词向量组成的数据,通过对于其中的反事实数据与...

【技术特征摘要】
1.一种社交噪音文本实体关系抽取优化方法,其特征在于,包括以下步骤:
S1,利用原始数据集同类关系下的主体客体以及利用同一类别的实体替代主体客体的方法来构建语义反事实语料库;
S2,利用语法结构和识别结果标准构建反事实检验器,筛选出有利用价值的语义反事实并入原始数据,未通过检验的语义反事实数据将被删除并通过S1补齐数目;
S3,利用相对位置编码提取词语位置信息,通过对主客体的位置编码调换完成句法位置反事实生成;
S4,扩充的数据集利用BERT预训练模型作为编码器得到对应的词向量;
S5,在反事实扩充数据集的词向量的基础上,基于句法位置编码与词向量组成的数据,通过对于其中的反事实数据与原数据做同样的变换处理得到消除引入位置编码影响后的反事实词向量,作为抽取模型的输入;
S6,多分类器将数据输入得到的词向量作为模型输入进行训练,模型利用现有各类实体关系抽取模型,得到最终抽取结果;
S7,将待抽取文本经过BERT预训练模型得到对应词向量后输入已训练模型完成实体关系抽取。


2.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法,其特征在于,S1中,语义反事实语料库生成是通过对于同一类型关系建立的主体客体数据库进行抽取,该语料库充当反事实原始语料库,建立方式包括利用原始数据集同类关系下的主体客体、以及利用外部同一类别的实体替代主体客体;以语义相似程度作为衡量标准,利用抽取结果进行替换填充,进而在原始数据基础上生成与原数据不同但语义得到丰富的反事实数据。


3.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法,其特征在于,S2中,反事实检验器常用的检验标准有句法结构是否合理、主体客体词性与实体类别信息是否统一、是否能够被在原数据集上训练的模型识别得到;如果句法结构合理、词性与类别统一、能够被原模型抽取得到,则证明该反事实数据具有利用价值,被后续使用;如果未通过检验,则重新利用主体客体数据库中进行生成;外部实时数据被引入以扩充反事实原始语料库。


4.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法,其特征在于,S3中,句法位置反事实生成是面向数据集中固有的主体与客体之间位置存在前后关系的现象,对于主体在后客体在前的情况,引入句子中单词词语位置表示;在主体在前客体在后数据的基础上,对于主体与客体前后关系的位置表示进行改变进而生成关于句法位置的反事实,其通过对于主体客体对应的位置表示进行调换,得到反事实的位置表示;位置表示可以通过计算相对位置编码得到。


5.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法,其特征在于,S4中,对于生成的语义反事实及句法位置反事实,成功通...

【专利技术属性】
技术研发人员:刘晓明李承祖冯乙洋多小川贺靖涵
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1