企业关系预测方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:20680934 阅读:66 留言:0更新日期:2019-03-27 18:53
本申请涉及一种基于分类模型的企业关系预测方法、装置、计算机设备和存储介质。所述方法包括:获取关系文本,关系文本包括第一企业实体和第二企业实体,解析关系文本,得到第一企业实体和第二企业实体对应的文本特征和依赖树特征,根据文本特征得到文本向量,根据依赖树特征得到依赖树向量,将文本向量和依赖树向量进行拼接,得到关系文本的特征向量,将特征向量输入预先训练的分类模型中,得到分类模型输出各个分类标签的第一概率;分类标签对应一种关系类型,确定概率最大的分类标签对应的关系类型为第一企业实体和第二企业实体的企业关系。采用本方法能够提高企业关系预测的准确性。

【技术实现步骤摘要】
企业关系预测方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种企业关系预测方法、装置、计算机设备和存储介质。
技术介绍
企业关系是指两个企业之间的投资、合作等关系,通过分析一个企业与其他企业的企业关系,可以对该企业的经营状况进行管控。随着互联网技术的发展,可以从互联网中获取大量该企业的新闻、公开文件等数据,具体可以通过爬虫技术设置数据爬取策略,从而获得大量与该企业相关的新闻和公开文件。在利用上述数据进行企业关系分析时,传统技术是通过特征工程的方式,然而,由于自然语句的结构复杂,采用传统特征工程难以描述自然语句结构对企业关系的影响,因此造成传统特征工程无法准确分析自然语句中两个企业之间的联系。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够解决自然语句中企业关系预测不准确问题的企业关系预测方法、装置、计算机设备和存储介质。一种企业关系预测方法,所述方法包括:获取关系文本,所述关系文本包括第一企业实体和第二企业实体;解析所述关系文本,得到所述第一企业实体和所述第二企业实体对应的文本特征和依赖树特征;根据所述文本特征得到文本向量,根据所述依赖树特征,得到依赖树向量;将所述文本向量和所述依赖树向量进行拼接,得到所述关系文本的特征向量;将所述特征向量输入预先训练的分类模型中,得到所述分类模型输出各个分类标签的第一概率;所述分类标签对应一种关系类型;确定概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。在其中一个实施例中,还包括:根根据预先设置的关键词词袋,对所述关系文本进行匹配,得到所述关键词词袋输出各个所述分类标签的第二概率;根据预先设置的第一权值,对所述第一概率和所述第二概率进行加权,得到所述关系文本属于各个所述关系类型的第三概率;确定所述第三概率中概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。在其中一个实施例中,还包括:将所述关系文本输入预先设置的推断模型,得到所述推断模型输出的各个所述分类标签的第四概率;根据预先设置的第二权值,对所述第一概率、第二概率以及第四概率进行加权,得到所述关系文本属于各个所述关系类型的第五概率;确定所述第五概率中概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。在其中一个实施例中,所述文本特征包括:整体词袋特征、局部词袋特征、句中字符距离特征、并列关系特征以及实体名称特征中的任意两个以上;还包括:根据预先设置的词袋模型,对所述关系文本进行词袋匹配,得到所述关系文本的整体词袋特征;或,根据所述第一企业实体和所述第二企业实体在所述关系文本中的位置,将所述关系文本分为三个子文本,根据所述词袋模型,分别得到所述三个子文本的子文本词袋特征,将所述三个子文本的所述子文本词袋特征进行组合,得到所述局部词袋特征;或,获取所述关系文本中所述第一企业实体和所述第二企业实体的字符数量,根据所述字符数量确定所述句中字符距离特征;或,根据所述关系文本中的并列字符,得到所述并列关系特征;或,根据预先设置的实体词库,匹配所述第一企业实体和所述第二企业实体,根据匹配结果,确定所述实体名称特征。在其中一个实施例中,所述依赖树特征包括依赖距离特征、POSTAG特征、CPOSTAG特征、依赖树结构词袋特征、依赖树相邻节点关系特征、依赖树实体关系特征中的任意两个以上;还包括:对所述关系文本进行依赖树解析,得到所述关系文本的依赖树;根据所述依赖树中所述第一企业实体与所述第二企业实体的距离,得到所述依赖树距离特征;或,获取所述依赖树中所述第一企业实体和所述第二企业实体的路径中的各个词语对象对应的词性标签,根据预先设置的第一词性标签词袋匹配各个对象的所述词性标签,根据匹配结果得到所述POSTAG特征;或,获取所述依赖树中所述第一企业实体和所述第二企业实体的路径中各个词语对象对应的词性标签,根据预先设置的第二词性标签词袋匹配各个对象的所述词性标签,根据匹配结果得到所述CPOSTAG特征;或,获取所述依赖树中所述第一企业实体和所述第二企业实体的路径中各个词语对象,根据所述词袋模型匹配所述各个词语对象,得到所述依赖树结构词袋特征;或,获取所述依赖树中包含所述第一企业实体和所述第二企业实体的子路径,根据预先设置的关系词袋模型,匹配所述子路径中的各个词语对象,根据匹配结果,确定所述依赖树相邻节点关系特征;或,根据所述第一企业实体和所述第二企业实体在所述依赖树中的节点关系,确定所述依赖树实体关系特征;所述节点关系包括:子节点关系以及父节点关系。在其中一个实施例中,还包括:根据所述整体词袋特征、局部词袋特征、句中字符距离特征、并列关系特征和/或实体名称特征分别向量化后,拼接得到文本向量;根据所述依赖距离特征、POSTAG特征、CPOSTAG特征、依赖树结构词袋特征、依赖树相邻节点关系特征和/或依赖树实体关系特征分别向量化后,拼接得到依赖树向量。在其中一个实施例中,还包括:根据预先设置的汉语言处理包中句法解析程序对所述关系文本进行依赖树解析,得到所述关系文本的依赖树。一种企业关系预测装置,所述装置包括:获取模块,用于获取关系文本,所述关系文本中包括第一企业实体和第二企业实体;特征提取模块,用于解析所述关系文本,得到所述第一企业实体和所述第二企业实体对应的文本特征和依赖树特征;向量化模块,用于根据所述文本特征得到文本向量,根据所述依赖树特征,得到依赖树向量;将所述文本向量和所述依赖树向量进行拼接,得到所述关系文本的特征向量;模型输出模块,用于将将所述特征向量输入预先训练的分类模型中,得到所述分类模型输出各个分类标签的第一概率;所述分类标签对应一种关系类型;预测模块,用于确定概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取关系文本,所述关系文本包括第一企业实体和第二企业实体;解析所述关系文本,得到所述第一企业实体和所述第二企业实体对应的文本特征和依赖树特征;根据所述文本特征得到文本向量,根据所述依赖树特征,得到依赖树向量;将所述文本向量和所述依赖树向量进行拼接,得到所述关系文本的特征向量;将所述特征向量输入预先训练的分类模型中,得到所述分类模型输出各个分类标签的第一概率;所述分类标签对应一种关系类型;确定概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取关系文本,所述关系文本包括第一企业实体和第二企业实体;解析所述关系文本,得到所述第一企业实体和所述第二企业实体对应的文本特征和依赖树特征;根据所述文本特征得到文本向量,根据所述依赖树特征,得到依赖树向量;将所述文本向量和所述依赖树向量进行拼接,得到所述关系文本的特征向量;将所述特征向量输入预先训练的分类模型中,得到所述分类模型输出各个分类标签的第一概率;所述分类标签对应一种关系类型;确定概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。上述企业关系预测方法、装置、计算机设备和存储介质,通过本文档来自技高网...

【技术保护点】
1.一种企业关系预测方法,所述方法包括:获取关系文本,所述关系文本包括第一企业实体和第二企业实体;解析所述关系文本,得到所述第一企业实体和所述第二企业实体对应的文本特征和依赖树特征;根据所述文本特征得到文本向量,根据所述依赖树特征,得到依赖树向量;将所述文本向量和所述依赖树向量进行拼接,得到所述关系文本的特征向量;将所述特征向量输入预先训练的分类模型中,得到所述分类模型输出各个分类标签的第一概率;所述分类标签对应一种关系类型;确定概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。

【技术特征摘要】
1.一种企业关系预测方法,所述方法包括:获取关系文本,所述关系文本包括第一企业实体和第二企业实体;解析所述关系文本,得到所述第一企业实体和所述第二企业实体对应的文本特征和依赖树特征;根据所述文本特征得到文本向量,根据所述依赖树特征,得到依赖树向量;将所述文本向量和所述依赖树向量进行拼接,得到所述关系文本的特征向量;将所述特征向量输入预先训练的分类模型中,得到所述分类模型输出各个分类标签的第一概率;所述分类标签对应一种关系类型;确定概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据预先设置的关键词词袋,对所述关系文本进行匹配,得到所述关键词词袋输出各个所述分类标签的第二概率;所述确定概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系,包括:根据预先设置的第一权值,对所述第一概率和所述第二概率进行加权,得到所述关系文本属于各个所述关系类型的第三概率;确定所述第三概率中概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:将所述关系文本输入预先设置的推断模型,得到所述推断模型输出的各个所述分类标签的第四概率;所述确定各个所述关系类型中概率最大的为所述第一企业实体和第二企业实体的企业关系,包括:根据预先设置的第二权值,对所述第一概率、第二概率以及第四概率进行加权,得到所述关系文本属于各个所述关系类型的第五概率;确定所述第五概率中概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。4.根据权利要求1所述的方法,其特征在于,所述文本特征包括:整体词袋特征、局部词袋特征、句中字符距离特征、并列关系特征以及实体名称特征中的任意两个以上;所述解析所述关系文本,得到所述关系文本基于所述第一企业实体和所述第二企业实体在所述关系文本中位置的文本特征,包括:根据预先设置的词袋模型,对所述关系文本进行词袋匹配,得到所述关系文本的整体词袋特征;或,根据所述第一企业实体和所述第二企业实体在所述关系文本中的位置,将所述关系文本分为三个子文本,根据所述词袋模型,分别得到所述三个子文本的子文本词袋特征,将所述三个子文本的所述子文本词袋特征进行组合,得到所述局部词袋特征;或,获取所述关系文本中所述第一企业实体和所述第二企业实体的字符数量,根据所述字符数量确定所述句中字符距离特征;或,根据所述关系文本中所述第一企业实体和所述第二企业实体间存在的并列字符,得到所述并列关系特征;或,根据预先设置的实体词库,匹配所述第一企业实体和所述第二企业实体,根据匹配结果,确定所述实体名称特征。5.根据权利要求4所述的方法,其特征在于,所述依赖树特征包括依赖距离特征、POSTAG特征、CPOSTAG特征、依赖树结构词袋特征、依赖树相邻节点关系特征、依赖树实体关系特征中的任意两个以上;所述解析所述关系文本,得到所述关系文本基于所述第一企业实体...

【专利技术属性】
技术研发人员:徐冰汪伟肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1