一种企业关联关系识别方法、装置及存储介质制造方法及图纸

技术编号:27516294 阅读:21 留言:0更新日期:2021-03-02 18:49
本发明专利技术公开了一种企业关联关系识别方法、装置、存储介质及终端,该方法包括:通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法创建的;输出待识别企业和多个企业之间的关联关系。因此,采用本申请实施例,使得训练后的模型在识别时将数据分类问题转成分布问题,能进一步提高模型的识别能力,可根据识别出的企业关联关系可以加速企业关系知识图谱构建工作,让人工智能技术更好的在企业营销活动中落地。在企业营销活动中落地。在企业营销活动中落地。

【技术实现步骤摘要】
一种企业关联关系识别方法、装置及存储介质


[0001]本专利技术涉及人工智能
,特别涉及一种企业关联关系识别方法、装置及存储介质。

技术介绍

[0002]企业关联关系,是指根据供给关系确定上游企业与下游企业之间的关系。通常,一家企业的上游企业和下游企业的健康状况,直接影响该企业的经营状态。如果能够获知与该企业具有上下游关系的企业,则可以将上下游企业的诸多因素纳入考虑范围内。因此,在很多场景下,例如,对企业进行信用评估等场景,人们希望能够准确获知企业关联关系。
[0003]现有的企业上下游供需关系识别方法采用分类的思想进行识别,具体有无监督学习和监督学习两种主流方法。其中无监督学习需要手工去构造与企业上下游供需关系相关的特征,但需要很强的行业知识,因为不同行业企业的关联特征是不同的。监督学习通常是基于深度学习的方法,但需要大量的标注数据才能取到好的效果,消耗大量的人工成本。由于现有技术中无监督学习和监督学习生成的模型识别能力低,从而降低了企业关系知识图谱构建工作,让人工智能技术无法高效的在企业营销活动中落地。

技术实现思路

[0004]本申请实施例提供了一种企业关联关系识别方法、装置及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
[0005]第一方面,本申请实施例提供了一种企业关联关系识别方法,该方法包括:
[0006]通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;
[0007]确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法创建的;
[0008]输出待识别企业和多个企业之间的关联关系。
[0009]可选的,按照下述方法生成预先训练的企业关联关系识别模型,包括:
[0010]采集并预处理每个行业中多个企业的文本信息,生成训练样本;
[0011]根据BERT神经网络、卷积神经网络以及K均值聚类算法创建企业关联关系识别模型;
[0012]将训练样本输入至企业关联关系识别模型中,输出模型的损失值;
[0013]当损失值达到最小时,生成训练后的企业关联关系识别模型。
[0014]可选的,方法还包括:
[0015]从训练样本中随机抽取某一企业的文本信息;
[0016]将某一企业的文本信息输入训练后的企业关联关系识别模型中,生成企业类别;
[0017]计算企业类别的类别相似度;
[0018]当类别相似度大于预设值且模型的训练次数到达预设次数时,生成预先训练的企业关联关系识别模型。
[0019]可选的,采集并预处理每个行业中多个企业的文本信息,生成训练样本,包括:
[0020]采集每个行业中多个企业的文本信息;
[0021]将每个行业中多个企业的文本信息进行清洗及噪声去除,生成多个企业中各企业的属性文本;
[0022]将各企业的属性文本进行拼接,并按照预设字符级标注方式标注拼接后的属性文本生成各企业标注的文本信息;
[0023]将各企业标注的文本信息确定为训练样本。
[0024]可选的,将训练样本输入至企业关联关系识别模型中,输出模型的损失值,包括:
[0025]将各企业标注的文本信息依次输入至企业关联关系识别模型中的BERT神经网络和卷积神经网络进行文本处理,生成各企业文本信息所对应的文本向量;以及
[0026]基于企业关联关系识别模型中的K均值聚类算法将各企业文本信息所对应的文本向量进行聚类,生成各企业文本信息的聚类结果;
[0027]根据聚类结果以及预设损失值计算函数计算企业关联关系识别模型的损失值;
[0028]输出企业关联关系识别模型的损失值。
[0029]可选的,当损失值达到最小时,生成训练后的企业关联关系识别模型,包括:
[0030]当损失值未达到最小时,基于损失值对企业关联关系识别模型进行调整,并执行将训练样本输入至企业关联关系识别模型中的步骤。
[0031]可选的,损失值计算函数为其中,loss为损失值,a
i
为到同一簇内其他文本的平均距离,b
i
为在相邻最近的簇中到其他样本的平均距离,N为样本总个数。
[0032]第二方面,本申请实施例提供了一种企业关联关系识别装置,该装置包括:
[0033]文本信息采集模块,用于通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;
[0034]文本信息输入模块,用于确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法创建的;
[0035]关联关系输出模块,用于输出待识别企业和多个企业之间的关联关系。
[0036]第三方面,本申请实施例提供一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。
[0037]第四方面,本申请实施例提供一种终端,可包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
[0038]本申请实施例提供的技术方案可以包括以下有益效果:
[0039]在本申请实施例中,企业关联关系识别装置首先通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息,然后确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中,最后输出待识别企
业和多个企业之间的关联关系。由于本申请通过BERT神经网络、卷积神经网络以及K均值聚类算法创建模型,使得训练后的模型在识别时将数据分类问题转成分布问题,能进一步提高模型的识别能力,可根据识别出的企业关联关系可以加速企业关系知识图谱构建工作,让人工智能技术更好的在企业营销活动中落地。
[0040]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0041]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0042]图1是本申请实施例提供的一种企业关联关系识别方法的流程示意图;
[0043]图2是本申请实施例提供的一种企业关联关系识别模型训练过程的过程示意图;
[0044]图3是本申请实施例提供的一种企业关联关系识别过程的过程示意图;
[0045]图4是本申请实施例提供的一种企业关联关系识别模型训练方法的流程示意图;
[0046]图5是本申请实施例提供的一种企业关联本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业关联关系识别方法,其特征在于,所述方法包括:通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;确定待识别企业的文本信息,将所述多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,所述企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法创建的;输出所述待识别企业和所述多个企业之间的关联关系。2.根据权利要求1所述的方法,其特征在于,按照下述方法生成预先训练的企业关联关系识别模型,包括:采集并预处理每个行业中多个企业的文本信息,生成训练样本;根据BERT神经网络、卷积神经网络以及K均值聚类算法创建企业关联关系识别模型;将所述训练样本输入至所述企业关联关系识别模型中,输出所述模型的损失值;当所述损失值达到最小时,生成训练后的企业关联关系识别模型。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:从所述训练样本中随机抽取某一企业的文本信息;将所述某一企业的文本信息输入所述训练后的企业关联关系识别模型中,生成企业类别;计算所述企业类别的类别相似度;当所述类别相似度大于预设值且所述模型的训练次数到达预设次数时,生成预先训练的企业关联关系识别模型。4.根据权利要求2所述的方法,其特征在于,所述采集并预处理每个行业中多个企业的文本信息,生成训练样本,包括:采集每个行业中多个企业的文本信息;将所述每个行业中多个企业的文本信息进行清洗及噪声去除,生成多个企业中各企业的属性文本;将所述各企业的属性文本进行拼接,并按照预设字符级标注方式标注所述拼接后的属性文本生成各企业标注的文本信息;将所述各企业标注的文本信息确定为训练样本。5.根据权利要求2或4所述的方法,其特征在于,所述将所述训练样本输入至所述企业关联关系识别模型中,输出所述模型的损失值,包括:将所述各企业标注的文本信息依次输入至所述企业关...

【专利技术属性】
技术研发人员:陈家银陈曦麻志毅
申请(专利权)人:浙江省北大信息技术高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1