【技术实现步骤摘要】
企业关系预测方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种企业关系预测方法、装置、计算机设备和存储介质。
技术介绍
企业关系是指两个企业之间的投资、合作等关系,通过分析一个企业与其他企业的企业关系,可以对该企业的经营状况进行管控。随着互联网技术的发展,可以从互联网中获取大量该企业的新闻、公开文件等数据,具体可以通过爬虫技术设置数据爬取策略,从而获得大量与该企业相关的新闻和公开文件。在利用上述数据进行企业关系分析时,传统技术是通过特征工程的方式,然而,由于自然语句的结构复杂,采用传统特征工程难以描述自然语句结构对企业关系的影响,因此造成传统特征工程无法准确分析自然语句中两个企业之间的联系。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够解决自然语句中企业关系预测不准确问题的企业关系预测方法、装置、计算机设备和存储介质。一种企业关系预测方法,所述方法包括:获取关系文本,所述关系文本包括第一企业实体和第二企业实体;解析所述关系文本,得到所述第一企业实体和所述第二企业实体对应的文本特征和依赖树特征;根据所述文本特征得到文本向量,根据所述依赖树特征,得到依赖树向量;将所述文本向量和所述依赖树向量进行拼接,得到所述关系文本的特征向量;将所述特征向量输入预先训练的分类模型中,得到所述分类模型输出各个分类标签的第一概率;所述分类标签对应一种关系类型;确定概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。在其中一个实施例中,还包括:根根据预先设置的关键词词袋,对所述关系文本进行匹配,得到所述关键词词袋输出各个所述 ...
【技术保护点】
1.一种企业关系预测方法,所述方法包括:获取关系文本,所述关系文本包括第一企业实体和第二企业实体;解析所述关系文本,得到所述第一企业实体和所述第二企业实体对应的文本特征和依赖树特征;根据所述文本特征得到文本向量,根据所述依赖树特征,得到依赖树向量;将所述文本向量和所述依赖树向量进行拼接,得到所述关系文本的特征向量;将所述特征向量输入预先训练的分类模型中,得到所述分类模型输出各个分类标签的第一概率;所述分类标签对应一种关系类型;确定概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。
【技术特征摘要】
1.一种企业关系预测方法,所述方法包括:获取关系文本,所述关系文本包括第一企业实体和第二企业实体;解析所述关系文本,得到所述第一企业实体和所述第二企业实体对应的文本特征和依赖树特征;根据所述文本特征得到文本向量,根据所述依赖树特征,得到依赖树向量;将所述文本向量和所述依赖树向量进行拼接,得到所述关系文本的特征向量;将所述特征向量输入预先训练的分类模型中,得到所述分类模型输出各个分类标签的第一概率;所述分类标签对应一种关系类型;确定概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据预先设置的关键词词袋,对所述关系文本进行匹配,得到所述关键词词袋输出各个所述分类标签的第二概率;所述确定概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系,包括:根据预先设置的第一权值,对所述第一概率和所述第二概率进行加权,得到所述关系文本属于各个所述关系类型的第三概率;确定所述第三概率中概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:将所述关系文本输入预先设置的推断模型,得到所述推断模型输出的各个所述分类标签的第四概率;所述确定各个所述关系类型中概率最大的为所述第一企业实体和第二企业实体的企业关系,包括:根据预先设置的第二权值,对所述第一概率、第二概率以及第四概率进行加权,得到所述关系文本属于各个所述关系类型的第五概率;确定所述第五概率中概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。4.根据权利要求1所述的方法,其特征在于,所述文本特征包括:整体词袋特征、局部词袋特征、句中字符距离特征、并列关系特征以及实体名称特征中的任意两个以上;所述解析所述关系文本,得到所述关系文本基于所述第一企业实体和所述第二企业实体在所述关系文本中位置的文本特征,包括:根据预先设置的词袋模型,对所述关系文本进行词袋匹配,得到所述关系文本的整体词袋特征;或,根据所述第一企业实体和所述第二企业实体在所述关系文本中的位置,将所述关系文本分为三个子文本,根据所述词袋模型,分别得到所述三个子文本的子文本词袋特征,将所述三个子文本的所述子文本词袋特征进行组合,得到所述局部词袋特征;或,获取所述关系文本中所述第一企业实体和所述第二企业实体的字符数量,根据所述字符数量确定所述句中字符距离特征;或,根据所述关系文本中所述第一企业实体和所述第二企业实体间存在的并列字符,得到所述并列关系特征;或,根据预先设置的实体词库,匹配所述第一企业实体和所述第二企业实体,根据匹配结果,确定所述实体名称特征。5.根据权利要求4所述的方法,其特征在于,所述依赖树特征包括依赖距离特征、POSTAG特征、CPOSTAG特征、依赖树结构词袋特征、依赖树相邻节点关系特征、依赖树实体关系特征中的任意两个以上;所述解析所述关系文本,得到所述关系文本基于所述第一企业实体...
【专利技术属性】
技术研发人员:徐冰,汪伟,肖京,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。