预测模型的训练方法、数据分析方法、装置以及介质制造方法及图纸

技术编号:35745356 阅读:20 留言:0更新日期:2022-11-26 18:49
本公开提供了一种预测模型的训练方法、数据分析方法、装置以及存储介质,涉及计算机技术领域,其中的方法包括:基于关键词向量集生成训练样本,构建预测模型,使用主任务模块并基于关键词表征向量与主任务注意力mask,获取主任务预测结果;使用各个相关任务注意力mask模块对主任务预测结果进行mask处理,生成相关任务注意力mask;使用相关任务模块并基于关键词表征向量与相关任务注意力mask,获取相关任务预测结果;基于模型损失函数对预测模型进行调整处理。本公开可以在提高效率的同时降低训练量,可以有效地确定领域对应的关键词所对应的权重分配,能够对企业及其项目进行全面研判,有效提高了打分的可信度及可靠性。有效提高了打分的可信度及可靠性。有效提高了打分的可信度及可靠性。

【技术实现步骤摘要】
预测模型的训练方法、数据分析方法、装置以及介质


[0001]本公开涉及计算机
,尤其涉及一种预测模型的训练方法、数据分析方法、装置以及存储介质。

技术介绍

[0002]项目投资可以促进社会经济的发展,已经逐渐成为发展经济的重要手段,投资人以及有投资需求的企业需要方便快捷的渠道进行项目投资。目前,举办路演或创业比赛是一种向投资方展示企业的有效方法,但是,参与者的线下参与的时间成本、人力物力都较高。线上路演通过将项目及企业的经营信息、知识产权指标等相关评价数据上传到线上,投资人和评委可以通过线上对项目的质量进行把控和评判,大大减少了现场场地所导致的人力物力损耗。但是,在线上路演的过程中,由于市场环境复杂以及行业的行情不同,路演中对于企业的评价指标往往难以被准确量化,难以保证专家打分的准确性,使得项目投资的风险大大增加。因此,需要一种分析企业数据以及对企业进行打分的技术方案。

技术实现思路

[0003]为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种预测模型的训练方法、数据分析方法、装置以及存储介质。
[0004]根据本公开实施例的第一方面,提供一种预测模型的训练方法,包括:基于企业属性数据生成关键词向量集,基于所述关键词向量集生成训练样本;其中,所述训练样本包括:关键词表征向量以及与所述关键词表征向量相对应的领域标签;构建预测模型;其中,所述预测模型包括一个主任务模块和至少一个相关任务模块;对于所述主任务模块设有对应的主任务注意力mask模块,对于各个相关任务模块设置对应的相关任务注意力mask模块;使用所述主任务注意力mask模块对所述领域标签进行mask处理,生成主任务注意力mask;使用所述主任务模块并基于所述关键词表征向量与所述主任务注意力mask,获取主任务预测结果;使用各个相关任务注意力mask模块对所述主任务预测结果进行mask处理,生成相关任务注意力mask;使用所述相关任务模块并基于所述关键词表征向量与所述相关任务注意力mask,获取相关任务预测结果;构建所述预测模型的模型损失函数,基于所述模型损失函数对所述预测模型进行调整处理。
[0005]可选地,所述构建所述预测模型的模型损失函数包括:基于所述主任务预测结果和所述训练样本的对应标注信息,构建与所述主任务模块对应的主任务损失函数,基于所述主任务损失函数在训练中的损失值确定所述主任务损失函数的主任务权值;基于所述相关任务预测结果和所述训练样本的对应标注信息,构建与所述相关任务模块对应的相关任务损失函数,基于所述相关任务损失函数在训练中的损失值确定所述相关任务损失函数的相关任务权值;基于所述主任务权值与所述主任务损失函数、所述相关任务权值和所述相关任务损失函数进行加权计算,获得所述模型损失函数。
[0006]可选地,确定所述主任务损失函数或所述相关任务损失函数为其中,所述n
用于表征所述主任务模块或所述相关任务模块的编号,t为训练次数;确定所述主任务权值或所述相关任务权值为
[0007][0008][0009]其中,λ
i
为与编号为i的所述主任务模块或所述相关任务模块相对应的所述主任务权值或所述相关任务权值。
[0010]可选地,确定所述模型损失函数为
[0011][0012]可选地,所述基于企业属性数据生成关键词向量集,基于所述关键词向量集生成训练样本包括:基于所述企业属性数据提取文本关键词;使用预训练模型对所述文本关键词进行处理,生成关键词表征向量,并基于所述关键词表征向量生成所述关键词向量集;其中,所述企业属性数据包括:结构化数据和非结构化数据;所述结构化数据包括企业经营范围、企业路演赛道、企业产品种类数据;所述非结构化数据来源包括:企业简介信息、企业项目摘要信息数据;对所述关键词向量集中的各个关键词表征向量进行标注处理,确定与所述关键词表征向量相对应的领域标签;基于所述关键词表征向量和对应的领域标签,生成所述训练样本。
[0013]可选地,所述相关任务模块的数量为三个;所述主任务预测结果为企业总体分数;所述相关任务预测结果包括:企业创新指标分数、企业经济指标分数、企业投资分数;将所述主任务模块和三个所述相关任务模块的输出值输入最终表示模块进行softmax计算,用以输出所述企业总体分数、所述企业创新指标分数、所述企业经济指标分数和所述企业投资分数。
[0014]根据本公开实施例的第二方面,提供一种数据分析方法,包括:获取训练好的预测模型;其中,所述预测模型是通过如上所述的训练方法训练得到;基于企业属性数据生成关键词向量集,将所述关键词向量集输入所述预测模型,获得主任务预测结果和相关任务预测结果;其中,所述主任务预测结果为企业总体分数;所述相关任务预测结果包括:企业创新指标分数、企业经济指标分数、企业投资分数。
[0015]根据本公开实施例的第三方面,提供一种预测模型的训练装置,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的预测模型的训练方法。
[0016]根据本公开实施例的第四方面,提供一种数据分析装置,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的数据分析方法。
[0017]根据本公开实施例的第五方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述的方法。
[0018]基于本公开上述实施例提供的预测模型的训练方法、数据分析方法、装置以及存储介质,通过多任务模型可以在提高效率的同时降低训练量;借助注意力机制,预测模型可
以有效地确定领域对应的关键词所对应的权重分配;基于nlp技术和多任务框架,以使attention mask不为孤立静态或随机状态,使得模型的整体性更强,且由于任务相关性强,多任务模型的训练结果更好,其解释性也更高;能够使评委快速地对企业及其项目进行全面的研判,节省了人力物力和时间成本;通过对企业的数据进行分析和计算,有效提高了打分的可信度及可靠性,提高用户的使用体验。
[0019]下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
[0020]通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征以及优势将变得更加明显。附图用来提供对本公开实施例的进一步的理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
[0021]图1为本公开的预测模型的训练方法的一个实施例的流程示意图;
[0022]图2为本公开的预测模型的训练方法的一个实施例中的构建预测模型的模型损失函数的示意图;
[0023]图3为本公开的预测模型的结构示意图;
[0024]图4为本公开的数据分析方法的一个实施例的流程示意图;
[0025]图5为本公开的预测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预测模型的训练方法,包括:基于企业属性数据生成关键词向量集,基于所述关键词向量集生成训练样本;其中,所述训练样本包括:关键词表征向量以及与所述关键词表征向量相对应的领域标签;构建预测模型;其中,所述预测模型包括一个主任务模块和至少一个相关任务模块;对于所述主任务模块设有对应的主任务注意力mask模块,对于各个相关任务模块设置对应的相关任务注意力mask模块;使用所述主任务注意力mask模块对所述领域标签进行mask处理,生成主任务注意力mask;使用所述主任务模块并基于所述关键词表征向量与所述主任务注意力mask,获取主任务预测结果;使用各个相关任务注意力mask模块对所述主任务预测结果进行mask处理,生成相关任务注意力mask;使用所述相关任务模块并基于所述关键词表征向量与所述相关任务注意力mask,获取相关任务预测结果;构建所述预测模型的模型损失函数,基于所述模型损失函数对所述预测模型进行调整处理。2.如权利要求1所述的方法,所述构建所述预测模型的模型损失函数包括:基于所述主任务预测结果和所述训练样本的对应标注信息,构建与所述主任务模块对应的主任务损失函数,基于所述主任务损失函数在训练中的损失值确定所述主任务损失函数的主任务权值;基于所述相关任务预测结果和所述训练样本的对应标注信息,构建与所述相关任务模块对应的相关任务损失函数,基于所述相关任务损失函数在训练中的损失值确定所述相关任务损失函数的相关任务权值;基于所述主任务权值与所述主任务损失函数、所述相关任务权值和所述相关任务损失函数进行加权计算,获得所述模型损失函数。3.如权利要求2所述的方法,其中,确定所述主任务损失函数或所述相关任务损失函数为其中,所述n用于表征所述主任务模块或所述相关任务模块的编号,t为训练次数;确定所述主任务权值或所述相关任务权值为确定所述主任务权值或所述相关任务权值为其中,λ
i
为与编号为i的所述主任务模块或所述相关任务模块相对应的所述主任务权值或所述相关任务权值。4.如权利要求3所述的方法,其中,确定所述模型损失函数为
5.如权利要求1所述...

【专利技术属性】
技术研发人员:李程赖培源李奎廖晓东周海涛叶世兵李岱素邱珊珊吴梦圈
申请(专利权)人:广东省华南技术转移中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1