System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于prompt的企业所属产业链环节标注方法及系统技术方案_技高网

一种基于prompt的企业所属产业链环节标注方法及系统技术方案

技术编号:40151366 阅读:6 留言:0更新日期:2024-01-26 23:05
本发明专利技术涉及人工智能技术领域,具体公开了一种基于prompt的企业所属产业链环节标注方法及系统,包括处理器以及与处理器通讯连接的数据收集模块、数据预处理模块、模型训练模块、产业链候选模块以及产业环节匹配模块;本发明专利技术通过利用自编码预训练语言模型与特定的产业链召回模板,确定出一个企业的产业链候选集合,而后使用大规模语言对话模型与特定的产业环节匹配模板,在候选集的基础上进一步进行匹配和打标,从而提高了产业知识图谱的构建效率,有助于减少对专家人工标注方式的依赖,提高企业的产业链环节标注效率。

【技术实现步骤摘要】

本专利技术涉及人工智能,更具体地说,本专利技术涉及一种基于prompt的企业所属产业链环节标注方法及系统


技术介绍

1、在构建产业知识图谱的过程中,挖掘企业实体的所属产业链环节是非常重要的,有助于进一步分析与推导产业整体的概况。通常该类企业所属关系是由专家根据企业有关信息和产业链结构知识进行标注,但依赖于人工标注的方法需要花费大量的时间精力,不仅增加了产业知识图谱构建的难度,还大大延长了知识图谱的构建周期。另外地,部分企业在其相关信息中会明确提供其产业所属关系,但数量上十分有限,且可能存在描述粒度不一致等问题,从而无法成为可靠来源,为了解决上述问题,现提供一种技术方案。


技术实现思路

1、为了克服现有技术的上述缺陷,本专利技术提供一种基于prompt的企业所属产业链环节标注方法及系统,通过利用自编码预训练语言模型与特定的产业链召回模板,确定出一个企业的产业链候选集合,而后使用大规模语言对话模型与特定的产业环节匹配模板,在候选集的基础上进一步进行匹配和打标,从而提高了产业知识图谱的构建效率,有助于减少对专家人工标注方式的依赖,提高企业的产业链环节标注效率,以解决上述
技术介绍
中提出的问题。

2、为实现上述目的,本专利技术提供如下技术方案:

3、一种基于prompt的企业所属产业链环节标注方法,包括如下步骤:

4、步骤一,通过爬虫获取目标产业链结构的介绍性文本和对应目标产业链各环节的行业命名,存储至产业链介绍表,并以产业链名称作为区分;

5、步骤二,通过爬虫获取相关企业主营业务以及经营范围属性的介绍性文本,存储至企业范围表中,以企业名称和不同属性名称作为区分;

6、步骤三,通过自编码预训练语言模型,构建prompt产业链召回模板,根据企业范围表中信息生成企业的若干候选产业链名称,构成产业链启发集合;

7、步骤四,根据产业链启发集合,遍历集合中的产业链名称以查询产业链介绍表输出对应的目标产业链结构的介绍性文本,并获取相关产业链的候选文本集合;

8、步骤五,通过大规模语言对话模型构建prompt产业环节匹配模板,进行单轮问答,对答案进行解析得到最终的企业所属产业链环节标签。

9、作为本专利技术进一步的方案,步骤三中生成产业链启发集合的步骤为:

10、步骤q1,根据企业范围表,将表中企业的相关属性名称的介绍性文本按照“相关属性名称为介绍性文本”格式填充对应槽位,构成属性顺序文本;

11、步骤q2,按该企业名称<com_name>的“<field_desc_text1>、<field_desc_text2>、…、<field_desc_textn>”格式拼接所有属性顺序文本field_desc_text,构成企业描述文本com_desc_text;

12、步骤q3,根据prompt产业链召回模板,使用企业顺序文本填充相应槽位,通过自编码预训练语言模型,在现有的各产业链中限定产业链的范围,获取各产业链名称的输出概率,根据产业链问题门槛,筛选出概率高于阈值的产业链名称,构成产业链启发集合。

13、作为本专利技术进一步的方案,企业顺序文本<com_desc_text>属于该企业的产业链。

14、作为本专利技术进一步的方案,在步骤s5中,所述的生成企业所属产业链环节标签的步骤包括:

15、步骤s1,根据industry_chain_candicate_text_set中的industry_chain_intro_text,按格式“<industry_name1>、<industry_name2>、…、<industry_namen>”将其对应产业环节拼接,生成产业范围文本industry_range_text;

16、步骤s2,根据产业提问模板,填充相应槽位内容,输入大规模语言对话模型进行单轮问答;

17、步骤s3,根据模型的回应进行解析,获得企业所属产业链环节标签。

18、作为本专利技术进一步的方案,产业提问模板的内容为:根据目标产业链结构的介绍性文本<industry_chain_intro_text>\n\n给定一个公司的相关文本\n\n<com_desc_text>\n\n,判断给定的公司主要经营范围是否与<industry_name>相关,当相关时,则从<industry_range_text>选择相关类别输出;当不相关时,则回答无。

19、一种基于prompt的企业所属产业链环节标注系统,用于实现上述一种基于prompt的企业所属产业链环节标注方法,包括处理器以及与处理器通讯连接的数据收集模块、数据预处理模块、模型训练模块、产业链候选模块以及产业环节匹配模块;

20、处理器用于处理来自企业所属产业链环节标注系统的至少一个组件的数据;

21、数据收集模块用于通过爬虫收集企业数据,包括企业基本信息、行业分类、企业主营业务、企业经营范围以及产业链环节;

22、数据预处理模块用于对收集到的数据进行清洗、去重以及缺失值处理;

23、模型训练模块用于通过自编码预训练语言模型与特定的产业链召回模板,确定出一个企业的产业链候选集合;

24、产业环节匹配模块用于使用大规模语言对话模型与特定的产业环节匹配模板,在候选集的基础上依据产业提问模板进行匹配和打标。

25、本专利技术一种基于prompt的企业所属产业链环节标注方法及系统的技术效果和优点:

26、1、本专利技术通过提供基于prompt的企业所属产业链环节标注方法及系统,通过利用自编码预训练语言模型与特定的产业链召回模板,确定出一个企业的产业链候选集合,而后使用大规模语言对话模型与特定的产业环节匹配模板,在候选集的基础上进一步进行匹配和打标,从而提高了产业知识图谱的构建效率,有助于减少对专家人工标注方式的依赖,提高企业的产业链环节标注效率;

27、2、本专利技术提供的标注方案对监督信息的依赖程度低,在资源匮乏的环境下也能取得良好的效果。

本文档来自技高网...

【技术保护点】

1.一种基于prompt的企业所属产业链环节标注方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于prompt的企业所属产业链环节标注方法,其特征在于,步骤三中生成产业链启发集合的步骤为:

3.根据权利要求2所述的一种基于prompt的企业所属产业链环节标注方法,其特征在于,企业顺序文本属于该企业的产业链。

4.根据权利要求1所述的一种基于prompt的企业所属产业链环节标注方法,其特征在于,在步骤S5中,所述的生成企业所属产业链环节标签的步骤包括:

5.根据权利要求4所述的一种基于prompt的企业所属产业链环节标注方法,其特征在于,产业提问模板的内容为:根据目标产业链结构的介绍性文本给定一个公司的相关文本,判断给定的公司主要经营范围是否与行业命名相关,当相关时,则从产业范围文本选择相关类别输出;当不相关时,则回答无。

6.一种基于prompt的企业所属产业链环节标注系统,用于实现权利要求1-5任一项所述的一种基于prompt的企业所属产业链环节标注方法,其特征在于:包括处理器以及与处理器通讯连接的数据收集模块、数据预处理模块、模型训练模块、产业链候选模块以及产业环节匹配模块;

...

【技术特征摘要】

1.一种基于prompt的企业所属产业链环节标注方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于prompt的企业所属产业链环节标注方法,其特征在于,步骤三中生成产业链启发集合的步骤为:

3.根据权利要求2所述的一种基于prompt的企业所属产业链环节标注方法,其特征在于,企业顺序文本属于该企业的产业链。

4.根据权利要求1所述的一种基于prompt的企业所属产业链环节标注方法,其特征在于,在步骤s5中,所述的生成企业所属产业链环节标签的步骤包括:

5.根据权利要求...

【专利技术属性】
技术研发人员:陈凡张钊庄福振徐勇军
申请(专利权)人:中科厦门数据智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1