一种基于增量学习和多模型融合的中文实体关系抽取方法技术

技术编号:28321603 阅读:32 留言:0更新日期:2021-05-04 13:02
本发明专利技术提出了一种基于增量学习和多模型融合的中文实体关系抽取方法,预训练词向量模型、实体识别模型和依存句法分析模型,并初始化关系数据簇;获取扩充关系数据簇的增量学习样本集,利用实体识别模型得到样本的实体集合,利用依存句法分析模型提取样本中每句句子的主语、谓语和宾语,利用词向量模型将句子中的谓语转换为词向量,投射到关系数据簇中,然后通过增量学习的方式不断扩充每个关系数据簇的数据量,最终得到扩充完成的关系数据簇;获取中文实体关系抽取的测试样本集,结合预训练模型和扩充完成的关系数据簇,确定测试样本对应的关系数据种类,完成中文实体关系抽取。本发明专利技术不需要大量人工标注,扩展能力强,泛化度高。

【技术实现步骤摘要】
一种基于增量学习和多模型融合的中文实体关系抽取方法
本专利技术涉及自然语言处理领域,具体涉及一种基于增量学习和多模型融合的中文实体关系抽取方法。
技术介绍
互联网时代,每时每刻都有大量的信息出现,大众用户面对如此庞大、杂乱无章的数据量,往往有些应接不暇,通常需要花费时间去仔细阅读和理解,那么如何从这些非结构化的信息中提取出有价值的信息,帮助用户快速找到对自己有益的信息,就迫切需要一些自动化的提取方式,信息抽取技术正是在这样的背景下应运而生的。信息抽取指的是从大量的非结构化的文本信息中提取出有价值的信息,并转换为结构化的数据存储,方便用户进一步分析和使用。关系抽取是信息抽取领域非常重要的技术,它能够自动地提取文本中的实体对及其之间的关系,形成三元组形式,不仅能帮助用户从海量的数据中获得文本的高价值信息,还能快速理解信息之间的相互关系,而且对知识图谱、问答系统的构建具有重要意义。大多数的关系抽取是基于有监督学习或是规则的方法,通常需要专业人士来人工标注数据,常常花费大量的时间和人力成本,而且标注的数据通常存在一定的误差,影响后续的算法模型训练。而且,传统的关系抽取方式所使用的训练数据集通常是针对某一个特定领域的,无法具备通用性,难以进行大规模的工程应用。另外,传统方式生成的关系抽取模型往往受限于原有的训练数据,面对日益增加的新数据没有加以有效利用,缺乏更新性和可扩展性。
技术实现思路
本专利技术的目的在于提出了一种基于增量学习和多模型融合的中文实体关系抽取方法,以解决现有关系抽取方法需要大量人工标注,局限于特定领域,不具有持续扩展性,泛化能力差,预测准确度低的问题。实现本专利技术目的的技术解决方案为:一种基于增量学习和多模型融合的中文实体关系抽取方法,具体包含如下步骤:步骤1:获取Word2Vec预训练模型的外部语料库,并使用神经网络算法训练得到词向量模型;步骤2:获取实体识别预训练模型的外部语料库,并结合BiLSTM和CRF算法生成实体识别模型;步骤3:获取依存句法分析预训练模型的外部语料库,并基于依存句法分析算法生成依存句法分析模型;步骤4:根据预定义的实体间基础关系类别,及每个类别下的基础关系词汇,初始化多个关系数据簇;步骤5:获取扩充关系数据簇的增量学习样本集,利用实体识别模型得到样本的实体集合,利用依存句法分析模型提取样本中每句句子的主语、谓语和宾语,利用词向量模型将句子中的谓语转换为词向量,投射到步骤4初始化的多个关系数据簇中,然后通过增量学习的方式不断扩充每个关系数据簇的数据量,最终得到扩充完成的多个关系数据簇;步骤6:获取中文实体关系抽取的测试样本集,结合利用实体识别模型得到测试样本的实体集合,利用依存句法分析模型提取测试样本中每句句子的主语、谓语和宾语,利用词向量模型将句子中的谓语转换为词向量,投射到步骤5扩充完成的多个关系数据簇中,确定对应的关系类别,完成中文实体关系抽取。进一步的,步骤1中,获取Word2Vec预训练模型的外部语料库,并使用神经网络算法训练得到词向量模型,记为Mw2v,具体方法为:1.1、训练语料库为中文维基百科语料库,通过对语料库进行文本内容提取、数据处理、分词这些操作,生成训练数据集;1.2、基于此训练数据集,使用word2vec算法中的Skip-gram模型(ContinuousSkip-gramModel)对其进行训练,模型包括输入层、投影层和输出层三层神经网络,通过当前词汇来预测上下文的语义信息,通过式(1)计算词汇概率:P(wn-c,wn-c+1,…,wn+c-1,wn+c|wn)(1)其中,wn表示第n个词汇,c为滑动窗口的大小,在训练参数中,设置词向量维度为250维,窗口大小为5,通过训练最终生成word2vec词向量模型,记为Mw2v。进一步的,步骤2中,获取实体识别预训练模型的外部语料库,并结合BiLSTM和CRF算法生成实体识别模型,记为Mee,具体方法为:2.1、基于MSRA_NER训练数据集,结合使用BiLSTM算法和CRF算法进行训练,其中,BiLSTM算法也称双向LSTM算法,其输入为词嵌入层的输出,即文本分词后通过嵌入层转换得到的词向量,记为(w1,w2,…,wn),wn表示第n个词汇,正向LSTM的输出记为反向LSTM的输出记为按照式(2)计算最终隐藏层的输出:2.2、CRF层设置在BiLSTM层后面,通过学习标签状态转移概率矩阵来约束BiLSTM的输出;2.3、通过训练最终生成实体识别模型,记为Mee。进一步的,步骤3中,获取依存句法分析预训练模型的外部语料库,并基于依存句法分析算法生成依存句法分析模型,具体方法:训练语料库为哈工大的中文依存语料库,使用依存句法分析算法训练该语料库,学习句子中各语法成分之间的相互依赖关系,最终生成依存句法分析模型,记为Mdp。进一步的,步骤4中,根据预定义的实体间基础关系类别,及每个类别下的基础关系词汇,初始化关系数据簇,具体方法为:4.1、预定义实体间的基础关系类别标签C=(c1,c2,…,cm),其中m为关系类别数;4.2、搜集整理每个类别下的基础关系词汇,每个类别下的词汇数满足不少于20个,各类别的词汇数量记为P=(p1,…,pi,…,pm),其中pi代表第i个类别的词汇数;4.3、使用步骤1中生成的词向量模型Mw2v将每个关系类别下的基础词汇转换为词向量,记为最终构成m个关系数据簇,记为CU=(cu1,…,cui,…,cum),其中,表示第i个类别的关系数据簇,簇中数据量为pi,l为词向量的数据维度;进一步的,步骤5中,获取扩充关系数据簇的增量学习样本集,利用实体识别模型得到样本的实体集合,利用依存句法分析模型提取样本中每句句子的主语、谓语和宾语,利用词向量模型将句子中的谓语转换为词向量,投射到步骤4初始化的多个关系数据簇中,然后通过增量学习的方式不断扩充每个关系数据簇的数据量,最终得到扩充完成的多个关系数据簇,具体方法为:5.1、将搜狐新闻的中文文本语料库作为扩充关系数据簇的增量学习样本集,内容以TXT格式存储,记为Φ=(T1,T2,…,Tn),其中n为样本个数;5.2、针对样本集中的每篇文本Ti,使用步骤2生成的实体识别模型Mee提取出其中的实体,进行去重、停用词过滤这些操作,得到实体集合,记为E;5.3、对文本Ti进行分句处理;5.4、针对文本中的每句句子,使用步骤3生成的依存句法分析模型Mdp提取出句子的主语、谓语和宾语,组成三元组形式,记为(S,V,O);5.5、判断三元组中的主语S和宾语O是否都存在于实体集合E中,若存在,则继续;若不存在,则跳过;5.6、使用步骤1中生成的Mw2v模型将谓语V转换为词向量v,并将其到m个关系数据簇CU中进行匹配,若已经存在该条关系词向量数据,则跳过;若不存在,则继续;5.7、按照式(3)计算其与第i个关系簇之间的相似度:...

【技术保护点】
1.一种基于增量学习和多模型融合的中文实体关系抽取方法,其特征在于,具体包含如下步骤:/n步骤1:获取Word2Vec预训练模型的外部语料库,并使用神经网络算法训练得到词向量模型;/n步骤2:获取实体识别预训练模型的外部语料库,并结合BiLSTM和CRF算法生成实体识别模型;/n步骤3:获取依存句法分析预训练模型的外部语料库,并基于依存句法分析算法生成依存句法分析模型;/n步骤4:根据预定义的实体间基础关系类别,及每个类别下的基础关系词汇,初始化多个关系数据簇;/n步骤5:获取扩充关系数据簇的增量学习样本集,利用实体识别模型得到样本的实体集合,利用依存句法分析模型提取样本中每句句子的主语、谓语和宾语,利用词向量模型将句子中的谓语转换为词向量,投射到步骤4初始化的多个关系数据簇中,然后通过增量学习的方式不断扩充每个关系数据簇的数据量,最终得到扩充完成的多个关系数据簇;/n步骤6:获取中文实体关系抽取的测试样本集,结合利用实体识别模型得到测试样本的实体集合,利用依存句法分析模型提取测试样本中每句句子的主语、谓语和宾语,利用词向量模型将句子中的谓语转换为词向量,投射到步骤5扩充完成的多个关系数据簇中,确定对应的关系类别,完成中文实体关系抽取。/n...

【技术特征摘要】
1.一种基于增量学习和多模型融合的中文实体关系抽取方法,其特征在于,具体包含如下步骤:
步骤1:获取Word2Vec预训练模型的外部语料库,并使用神经网络算法训练得到词向量模型;
步骤2:获取实体识别预训练模型的外部语料库,并结合BiLSTM和CRF算法生成实体识别模型;
步骤3:获取依存句法分析预训练模型的外部语料库,并基于依存句法分析算法生成依存句法分析模型;
步骤4:根据预定义的实体间基础关系类别,及每个类别下的基础关系词汇,初始化多个关系数据簇;
步骤5:获取扩充关系数据簇的增量学习样本集,利用实体识别模型得到样本的实体集合,利用依存句法分析模型提取样本中每句句子的主语、谓语和宾语,利用词向量模型将句子中的谓语转换为词向量,投射到步骤4初始化的多个关系数据簇中,然后通过增量学习的方式不断扩充每个关系数据簇的数据量,最终得到扩充完成的多个关系数据簇;
步骤6:获取中文实体关系抽取的测试样本集,结合利用实体识别模型得到测试样本的实体集合,利用依存句法分析模型提取测试样本中每句句子的主语、谓语和宾语,利用词向量模型将句子中的谓语转换为词向量,投射到步骤5扩充完成的多个关系数据簇中,确定对应的关系类别,完成中文实体关系抽取。


2.根据权利要求1所述的基于增量学习和多模型融合的中文实体关系抽取方法,其特征在于,步骤1中,获取Word2Vec预训练模型的外部语料库,并使用神经网络算法训练得到词向量模型,记为Mw2v,具体方法为:
1.1、训练语料库为中文维基百科语料库,通过对语料库进行文本内容提取、数据处理、分词这些操作,生成训练数据集;
1.2、基于此训练数据集,使用word2vec算法中的Skip-gram模型(ContinuousSkip-gramModel)对其进行训练,模型包括输入层、投影层和输出层三层神经网络,通过当前词汇来预测上下文的语义信息,通过式(1)计算词汇概率:
P(wn-c,wn-c+1,…,wn+c-1,wn+c|wn)(1)
其中,wn表示第n个词汇,c为滑动窗口的大小,在训练参数中,设置词向量维度为250维,窗口大小为5,通过训练最终生成word2vec词向量模型,记为Mw2v。


3.根据权利要求1所述的基于增量学习和多模型融合的中文实体关系抽取方法,其特征在于,步骤2中,获取实体识别预训练模型的外部语料库,并结合BiLSTM和CRF算法生成实体识别模型,记为Mee,具体方法为:
2.1、基于MSRA_NER训练数据集,结合使用BiLSTM算法和CRF算法进行训练,其中,BiLSTM算法也称双向LSTM算法,其输入为词嵌入层的输出,即文本分词后通过嵌入层转换得到的词向量,记为(w1,w2,…,wn),wn表示第n个词汇,正向LSTM的输出记为反向LSTM的输出记为按照式(2)计算最终隐藏层的输出:



2.2、CRF层设置在BiLSTM层后面,通过学习标签状态转移概率矩阵来约束BiLSTM的输出;
2.3、通过训练最终生成实体识别模型,记为Mee。


4.根据权利要求1所述的基于增量学习和多模型融合的中文实体关系抽取方法,其特征在于,步骤3中,获取依存句法分析预训练模型的外部语料库,并基于依存句法分析算法生成依存句法分析模型,具体方法:
训练语料库为哈工大的中文依存语料库,使用依存句法分析算法训练该语料库,学习句子中各语法成分之间的相互依赖关系,最终生成依存句法分析模型,记为Mdp。


5.根据权利要求1所述的基于增量学习和多模型融合的中文实体关系抽取方法,其特征在于,步骤4中,根据预定义的实体间基础关系类别,及每个类别下的基础关系词汇,初始化多个关系数据簇,具体方法为:
4.1、预定义实体间的基础关系类别标签C=(c1,c2,…,cm),其中m为关系类别数;
4.2、搜集整理每个类别下的基础关系词汇,每个类别下的词汇数满足不少于20个,各类别的词汇数量记为P=(p1,…,pi,…,pm),其中pi代表第i个类别的词汇数;
4.3、使用步骤1中生成的词向量模型Mw2v将每个关系类别下的基础词汇转换为词向量,记为最终构成m个关系数据簇,记为CU=(cu1,…,cui,…,cu...

【专利技术属性】
技术研发人员:金康荣胡岩峰刘洋时聪顾爽刘午凌付啟明
申请(专利权)人:中国科学院电子学研究所苏州研究院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1