企业关系提取方法、装置及存储介质制造方法及图纸

技术编号:17779766 阅读:39 留言:0更新日期:2018-04-22 08:18
本发明专利技术公开了一种企业关系提取方法、装置及存储介质,该方法包括:从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库;从样本库中抽取包含一个企业实体对的所有训练样句并分词,将每个词映射成词向量xi,映射成句子向量Si;用LSTM计算词向量xi的第一隐藏层状态向量hi和第二隐藏层状态向量hi’,拼接得到综合隐藏层状态向量,再得到特征向量Ti;将特征向量Ti代入平均向量表达式算出平均向量S;将平均向量S及企业实体对的关系类型代入softmax分类函数算出每个训练样句的权重ai;提取包含两个企业实体的句子,经过bi‑LSTM得到特征向量Ti,输入到训练好的RNN模型,预测该两个企业的关系,减少人工成本,更准确的预测该两个企业实体间的关系。

【技术实现步骤摘要】
企业关系提取方法、装置及存储介质
本专利技术涉及数据信息处理
,尤其涉及一种企业关系提取方法、装置及计算机可读存储介质。
技术介绍
识别新闻中不同企业之间的关联,如资金往来、供应链、合作等,对企业风险预警有很重大的意义。然而现在常见的实体关系抽取方法需要人工进行大量训练数据的标注,而语料标注工作一般非常耗时耗力。
技术实现思路
鉴于以上内容,本专利技术提供一种企业关系提取方法、装置及计算机可读存储介质,可以将基于卷积神经网络的关系提取模型扩展到远程监督数据上,有效地减少模型对人工标注数据的依赖,而且这种有监督的企业关系提取方法相比于半监督或无监督方法具有更好的准确率和召回率。为实现上述目的,本专利技术提供一种企业关系提取方法,该方法包括:样本库建立步骤:从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库;分词步骤:从样本库中抽取包含一个企业实体对的所有训练样句,使用预设的分词工具对每个训练样句进行分词,将分词后的每个词映射成词向量xi,并将每个训练样句映射成句子向量Si,作为循环神经网络模型第一层的输入;拼接步骤:在循环神经网络模型的第二层,用长短期记忆模块从左向右计算当本文档来自技高网...
企业关系提取方法、装置及存储介质

【技术保护点】
一种企业关系提取方法,其特征在于,所述方法包括:样本库建立步骤:从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库;分词步骤:从样本库中抽取包含一个企业实体对的所有训练样句,使用预设的分词工具对每个训练样句进行分词,将分词后的每个词映射成词向量xi,并将每个训练样句映射成句子向量Si,作为循环神经网络模型第一层的输入;拼接步骤:在循环神经网络模型的第二层,用长短期记忆模块从左向右计算当前词向量xi的第一隐藏层状态向量hi,并从右向左计算当前词向量xi的第二隐藏层状态向量hi’,通过拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量,再根据训练样句中所有词的综合隐藏层状态向...

【技术特征摘要】
1.一种企业关系提取方法,其特征在于,所述方法包括:样本库建立步骤:从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库;分词步骤:从样本库中抽取包含一个企业实体对的所有训练样句,使用预设的分词工具对每个训练样句进行分词,将分词后的每个词映射成词向量xi,并将每个训练样句映射成句子向量Si,作为循环神经网络模型第一层的输入;拼接步骤:在循环神经网络模型的第二层,用长短期记忆模块从左向右计算当前词向量xi的第一隐藏层状态向量hi,并从右向左计算当前词向量xi的第二隐藏层状态向量hi’,通过拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量,再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量Ti;计算步骤:在循环神经网络模型的第三层,根据每个训练样句的特征向量Ti,利用平均向量表达式算出每个训练样句的平均向量S;权重确定步骤:在循环神经网络模型的最后一层,将所述平均向量S及所述企业实体对的关系类型代入softmax分类函数计算得到每个训练样句的权重ai;预测步骤:从当前文本中提取包含两个企业实体的句子,经过双向长短期记忆模块得到句子的特征向量Ti,将该特征向量Ti输入上述训练好的循环神经网络模型,预测得到该两个企业实体间的关系。2.根据权利要求1所述的企业关系提取方法,其特征在于,所述分词步骤包括:对分词后的每个词以one-hot向量的形式表示,得到初始词向量,并为每个训练样句标注句子ID,将句子ID映射为对应训练样句的初始句子向量,将该初始句子向量和该训练样句中某个词的左、右邻接词的初始词向量输入所述连续词袋模型,预测得到该词的词向量xi,每次预测更新该训练样句的句子向量,直至预测得到该训练样句中每个词的词向量xi,以最后一次更新后的句子向量作为该训练样句的句子向量Si。3.根据权利要求1所述的企业关系提取方法,其特征在于,所述拼接步骤包括:从左向右根据当前词向量xi的前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据当前词向量xi的后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’。4.根据权利要求1所述的企业关系提取方法,其特征在于,所述平均向量的表达式为:S=sum(ai*Ti)/n其中ai代表训练样句的权重,Ti代表每个训练样句的特征向量,n代表训练样句的数量。5.根据权利要求4所述的企业关系提取方法,其特征在于,所述softmax分类函数的表达式为:其中K代表企业关系类型的个数,S代表需要预测企业关系类型...

【专利技术属性】
技术研发人员:徐冰汪伟罗傲雪肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1