System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种Coarse-to-fine的产业链链上企业识别方法技术_技高网

一种Coarse-to-fine的产业链链上企业识别方法技术

技术编号:40486937 阅读:7 留言:0更新日期:2024-02-26 19:18
本发明专利技术公开了一种Coarse‑to‑fine的产业链链上企业识别方法,包括如下方法步骤:S1、获取专利数据并进行数据预处理;S2、专利数据伪标签的生成;S3、链上专利粗识别网络的构建;S4、链上专利粗识别网络的训练;S5、链上专利粗识别网络全量发明专利技术专利识别结果的获取;S6、链上专利细识别网络的构建;S7、链上专利细识别网络的训练;S8、待识别专利数据的获取;S9、链上专利识别结果的获取;S10、链上企业识别结果的获取。本发明专利技术解决了链上企业识别颗粒度粗、识别结果不准确等问题,大幅提升深度学习方法在产业链链上企业识别任务上的可用性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种coarse-to-fine的产业链链上企业识别方法。


技术介绍

1、挖掘产业链链上企业是产业链分析的主要难点及挑战性任务之一。现有方法利用机器学习技术和企业经营范围数据识别链上企业,主要存在以下弊端:1、传统机器学习方法准确率低、需要人工设计的特征提取方式,对于不同产业的文本数据需要特定的特征提取器,泛化能力较弱;2、企业经营范围数据质量差,不准确,经营范围中的内容可能不是企业现今业务、不精确,描述的颗粒程度较粗等问题严重影响产业链各环节链上企业的准确识别。

2、随着深度学习的发展,基于卷积神经网络的文本分类方法成为了广大学者的研究热点,在垃圾邮件分类、情感分析、新闻主题检测等领域被广泛应用,并取得了令人瞩目的成果。对于链上企业识别算法而言,由于经营范围数据的种种弊端,不得不使用更加精确的数据进行产业链链上企业识别。相较于新闻检测、情感分析任务的数据集,专利数据专业性强、专业词汇多、不得不邀请领域专家对其进行标注。此外,专利数据专有名词较多、理解难度更大,对于模型性能和训练方法提出了更高的要求。另一方面,专利数据存在严重的样本不均衡问题,例如一些薄弱环节的正样本数量仅有几十个,而负样本数量多达几十万个,严重影响产业链链上企业识别模型的准确性。因此,如何提供一种coarse-to-fine的产业链链上企业识别方法是本领域技术人员亟需解决的问题。


技术实现思路

1、本专利技术的一个目的在于提出一种coarse-to-fine的产业链链上企业识别方法,本专利技术与现有技术相比通过伪标签的方式标注海量专利数据,解决卷积神经网络需要大量标注数据且专利数据标注费时费力的问题,解决了链上企业识别颗粒度粗、识别结果不准确等问题,大幅提升深度学习方法在产业链链上企业识别任务上的可用性。

2、根据本专利技术实施例的一种coarse-to-fine的产业链链上企业识别方法,包括如下方法步骤:

3、s1、获取企业专利数据集,并对专利数据集进行数据预处理;

4、s2、通过人工设定的链上各环节关键词及非链上各环节关键词,对企业专利数据集内的数据进行自动标注;

5、s3、基于transformer技术构建专利粗识别网络;

6、s4、利用全量企业专利摘要数据对专利粗识别网络进行领域预训练,得到专利粗识别网络预训练模型,利用带标签的全量企业专利摘要数据对专利粗识别网络预训练模型进行微调训练,得到训练好的专利粗识别网络;

7、s5、利用训练好的专利粗识别网络在全量专利数据上进行检测,获取所有链上专利粗识别结果;

8、s6、基于专利粗识别网络结构构建专利细识别网络;

9、s7、利用fine-tuning方法结合专利粗识别网络模型参数以及自动标注的专利数据对专利细分类网络进行微调训练;

10、s8、获取待分类的企业专利数据并进行数据预处理;

11、s9、将待分类专利数据送入训练好的专利粗识别网络以及专利细识别网络进行计算,得出专利分类结果;

12、s10、根据专利分类结果,综合计算企业链上专利数量、企业总专利数量和企业链上专利数量占比维度识别链上企业,得出链上企业识别结果。

13、可选的,所述s2具体包括:

14、s21、设定构建产业链链上关键词集合,非产业链链上关键词,产业链链上环节以及产业链链上环节的关键词集合;

15、其中,链上环节关键词为环节的指示性关键词,非链上关键词为不属于产业链的关键词,用于区分有歧义的链上关键词;

16、s22、对于任意专利数据,若产业链链上环节的关键词集合中的任意关键词存在于专利数据的题目中,且对于任意的产业链链上关键词存在于专利数据的题目、摘要或专利所属企业的经营范围中,同时满足任意非产业链链上关键词不包括于专利的题目中,则赋以该条专利产业链链上环节的标签。

17、可选的,所述构建专利粗识别网络具体包括:

18、设定专利分类网络,所述专利分类网络包括专利粗识别网络和专利细识别网络,所述专利粗识别网络用于从众多专利数据中识别出产业链相关专利,所述专利细识别网络在专利粗识别网络基础上,细化识别颗粒度,对产业链各环节的专利进行细粒度识别;

19、利用transformer机制构建专利粗识别网络,输入为文本数据,所述文本数据包括专利摘要、题目和正文,输出为0,1标量,用于从专利数据中筛选出相关专利,调用bert-base-chinese通用大模型参数初始化专利粗识别网络的模型参数,进一步训练。

20、可选的,所述构建专利细识别网络具体包括利用transformer机制构建专利细识别网络,输入为文本数据,输出为维向量,表示产业链中的具体环节,调用专利粗识别网络学习后的参数初始化专利细识别网络模型参数。

21、可选的,所述专利粗识别网络的领域预训练具体包括:

22、设定专利粗识别网络领域预训练模型,删除专利粗识别网络最后的dropout层和全连接层,将专利摘要数据输入专利粗识别网络,按照概率选取特定的tokenizer进行mask处理,所述专利粗识别网络领域预训练模型训练loss为经过mask处理后输出值减去未经过mask处理后的输出值,对loss进行反向传播,使用adamw优化器对模型参数进行调整;

23、设定专利粗识别网络微调训练模型,将专利粗识别网络预训练模型训练后的模型参数作为专利粗识别网络微调模型的初始化参数,利用自动标注方法得到的ground truth和网络输出结果计算loss,使用adamw优化器对模型参数进行调整。

24、可选的,所述专利细分类网络的微调训练具体包括设定专利细识别网络微调模型,将专利粗识别网络模型训练后的模型参数作为专利细识别网络微调模型的初始化参数,利用自动标注方法得到的ground truth和网络输出结果计算loss,使用adamw优化器对专利细分类网络参数进行调整。

25、可选的,所述s10具体包括:

26、s101、将每一条已识别专利数据按照企业名称整理,得到每个企业的所有专利及其分类信息;

27、s102、对于任意企业,计算其链上专利数量、总专利数量、链上专利占总专利数量的比例,筛选出链上专利数量大于,总专利数量大于,链上专利占比大于的企业作为链上企业。

28、本专利技术的有益效果是:

29、(1)本专利技术与现有技术相比通过伪标签的方式标注海量专利数据,解决卷积神经网络需要大量标注数据且专利数据标注费时费力的问题,大幅提升深度学习方法在产业链链上企业识别任务上的可用性,利用深度学习网络的泛化能力,修正错误标注方式,解决伪标签标注方法带来的漏标问题;

30、(2)本专利技术利用transformer机制强大的自然语言理解能力,准确、高效地识别产业链链上专利,为链上企业识别结果提供有力支撑;

31、(3本文档来自技高网...

【技术保护点】

1.一种Coarse-to-fine的产业链链上企业识别方法,其特征在于,包括如下方法步骤:

2.根据权利要求1所述的一种Coarse-to-fine的产业链链上企业识别方法,其特征在于,所述S2具体包括:

3.根据权利要求1所述的一种Coarse-to-fine的产业链链上企业识别方法,其特征在于,所述构建专利粗识别网络具体包括:

4.根据权利要求3所述的一种Coarse-to-fine的产业链链上企业识别方法,其特征在于,所述构建专利细识别网络具体包括利用Transformer机制构建专利细识别网络,输入为文本数据,输出为维向量,表示产业链中的具体环节,调用专利粗识别网络学习后的参数初始化专利细识别网络模型参数。

5.根据权利要求1所述的一种Coarse-to-fine的产业链链上企业识别方法,其特征在于,所述专利粗识别网络的领域预训练具体包括:

6.根据权利要求1所述的一种Coarse-to-fine的产业链链上企业识别方法,其特征在于,所述专利细分类网络的微调训练具体包括设定专利细识别网络微调模型,将专利粗识别网络模型训练后的模型参数作为专利细识别网络微调模型的初始化参数,利用自动标注方法得到的Ground Truth和网络输出结果计算Loss,使用AdamW优化器对专利细分类网络参数进行调整。

7.根据权利要求1所述的一种Coarse-to-fine的产业链链上企业识别方法,其特征在于,所述S10具体包括:

...

【技术特征摘要】

1.一种coarse-to-fine的产业链链上企业识别方法,其特征在于,包括如下方法步骤:

2.根据权利要求1所述的一种coarse-to-fine的产业链链上企业识别方法,其特征在于,所述s2具体包括:

3.根据权利要求1所述的一种coarse-to-fine的产业链链上企业识别方法,其特征在于,所述构建专利粗识别网络具体包括:

4.根据权利要求3所述的一种coarse-to-fine的产业链链上企业识别方法,其特征在于,所述构建专利细识别网络具体包括利用transformer机制构建专利细识别网络,输入为文本数据,输出为维向量,表示产业链中的具体环节,调用专利粗识别网络学习后的参数初始化专利细识别网络模型...

【专利技术属性】
技术研发人员:滕越董士风林传文王佐成吴光周王逸伟
申请(专利权)人:数据空间研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1