一种企业关联关系识别方法、装置及存储介质制造方法及图纸

技术编号：27516294 阅读：21 留言：0更新日期：2021-03-02 18:49

本发明专利技术公开了一种企业关联关系识别方法、装置、存储介质及终端，该方法包括：通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息；确定待识别企业的文本信息，将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中；其中，企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法创建的；输出待识别企业和多个企业之间的关联关系。因此，采用本申请实施例，使得训练后的模型在识别时将数据分类问题转成分布问题，能进一步提高模型的识别能力，可根据识别出的企业关联关系可以加速企业关系知识图谱构建工作，让人工智能技术更好的在企业营销活动中落地。在企业营销活动中落地。在企业营销活动中落地。

全部详细技术资料下载

【技术实现步骤摘要】
一种企业关联关系识别方法、装置及存储介质

[0001]本专利技术涉及人工智能
，特别涉及一种企业关联关系识别方法、装置及存储介质。

技术介绍

[0002]企业关联关系，是指根据供给关系确定上游企业与下游企业之间的关系。通常，一家企业的上游企业和下游企业的健康状况，直接影响该企业的经营状态。如果能够获知与该企业具有上下游关系的企业，则可以将上下游企业的诸多因素纳入考虑范围内。因此，在很多场景下，例如，对企业进行信用评估等场景，人们希望能够准确获知企业关联关系。
[0003]现有的企业上下游供需关系识别方法采用分类的思想进行识别，具体有无监督学习和监督学习两种主流方法。其中无监督学习需要手工去构造与企业上下游供需关系相关的特征，但需要很强的行业知识，因为不同行业企业的关联特征是不同的。监督学习通常是基于深度学习的方法，但需要大量的标注数据才能取到好的效果，消耗大量的人工成本。由于现有技术中无监督学习和监督学习生成的模型识别能力低，从而降低了企业关系知识图谱构建工作，让人工智能技术无法高效的在企业营销活动中落地。

技术实现思路

[0004]本申请实施例提供了一种企业关联关系识别方法、装置及存储介质。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。
[0005]第一方面，本申请实施例提供了一种企业关联关系识别方法，该方法...

【技术保护点】

【技术特征摘要】
1.一种企业关联关系识别方法，其特征在于，所述方法包括：通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息；确定待识别企业的文本信息，将所述多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中；其中，所述企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法创建的；输出所述待识别企业和所述多个企业之间的关联关系。2.根据权利要求1所述的方法，其特征在于，按照下述方法生成预先训练的企业关联关系识别模型，包括：采集并预处理每个行业中多个企业的文本信息，生成训练样本；根据BERT神经网络、卷积神经网络以及K均值聚类算法创建企业关联关系识别模型；将所述训练样本输入至所述企业关联关系识别模型中，输出所述模型的损失值；当所述损失值达到最小时，生成训练后的企业关联关系识别模型。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：从所述训练样本中随机抽取某一企业的文本信息；将所述某一企业的文本信息输入所述训练后的企业关联关系识别模型中，生成企业类别；计算所述企业类别的类别相似度；当所述类别相似度大于预设值且所述模型的训练次数到达预设次数时，生成预先训练的企业关联关系识别模型。4.根据权利要求2所述的方法，其特征在于，所述采集并预处理每个行业中多个企业的文本信息，生成训练样本，包括：采集每个行业中多个企业的文本信息；将所述每个行业中多个企业的文本信息进行清洗及噪声去除，生成多个企业中各企业的属性文本；将所述各企业的属性文本进行拼接，并按照预设字符级标注方式标注所述拼接后的属性文本生成各企业标注的文本信息；将所述各企业标注的文本信息确定为训练样本。5.根据权利要求2或4所述的方法，其特征在于，所述将所述训练样本输入至所述企业关联关系识别模型中，输出所述模型的损失值，包括：将所述各企业标注的文本信息依次输入至所述企业关...

【专利技术属性】
技术研发人员：陈家银，陈曦，麻志毅，
申请(专利权)人：浙江省北大信息技术高等研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人