一种科研项目查询评分模型训练方法、查询方法及装置制造方法及图纸

技术编号:29705178 阅读:15 留言:0更新日期:2021-08-17 14:34
本发明专利技术提供一种科研项目查询评分模型训练方法、查询方法及装置,所述科研项目查询评分模型训练方法,应用BERT模型更精确地提取查询、项目文档和各科研成果附加信息的语义向量,对查询和各科研成果进行关联度计算并进行分布统计得到,以体现与该查询相关的科研项目成果的质量的分布统计向量,进一步连接项目文档的语义向量得到该可研项目与查询的关联度向量。通过单文档神经网络建立关联度向量与点击概率的映射关系,以获得用于评价科研项目与查询关联度的科研项目查询评分模型。所述查询方法基于该科研项目查询评分模型计算各科研项目与查询的关联评分,综合评价科研成果与查询的关联关系和成果质量,使关联评分更加精确。

【技术实现步骤摘要】
一种科研项目查询评分模型训练方法、查询方法及装置
本专利技术涉及数据处理
,尤其涉及一种科研项目查询评分模型训练方法、查询方法及装置。
技术介绍
科研大数据中有许多科研项目数据,每个科研项目都有许多科研成果。科研人员、主管人员在对某一技术进行分析评价过程中,需要对该
所包含的科研项目以及各科研项目产出的技术成果进行评价。科研项目的质量与其已经产生的技术成果质量相关,技术成果越多、质量越高则科研项目的效益越好。在具体实践工作中,通常需要采用查询检索的方式,获取某一技术相关的科研项目,并对其进行评价分析,以确定科研项目的质量,用于指导类似科研项目的建设工作决策,科研质量监督等,在科研项目申报、科研项目批示时作为参考。为此,需要一种查询方法,能够基于查询关键词对现有的科研项目进行检索评价和排序,提高查询结果的相关性、有效性、准确性和及时性。
技术实现思路
本专利技术实施例提供了一种科研项目查询评分模型训练方法、查询方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,以解决传统线性打分函数在特征数量较多时无法综合评价语义以获得最优评价结果的问题。本专利技术的技术方案如下:一方面,本专利技术提供一种科研项目查询评分模型训练方法,包括:获取多个样本,每个样本包含一个查询以及与该查询对应的一个项目文档,该项目文档对应多个项目成果,每个项目成果对应多个附加信息,所述附加信息包括文字附加信息和数字附加信息;采用BERT模型对各样本的查询进行向量化得到第一类语义向量、采用所述BERT模型对各样本的项目文档进行向量化得到第二类语义向量,采用所述BERT模型对各文字附加信息进行向量化得到相应的第三类语义向量;对于单个样本下的单个项目成果,计算该样本的第一类语义向量与该项目成果的各第三语义向量的语义相似度,并与该项目成果对应的各数字附加信息的数字特征值进行加权求和,得到该项目成果的附加信息与查询的关联度;对单个项目文档各项目成果的关联度进行分布统计,形成分类向量,将所述分类向量与该样本对应的第二类语义向量连接得到该样本对应的查询和项目文档的关联向量;采用点击模型对各样本的项目文档添加点击概率作为标签,获取各样本对应的所述关联向量和所述标签,得到训练样本集;获取初始网络模型,所述初始网络模型包括至少三个隐层,并采用elu函数作为非线性激活函数;以所述训练样本集中各样本的所述关联向量作为输入,以所述标签作为输出,对所述初始网络模型进行训练,得到科研项目评分模型。在一些实施例中,所述语义相似度的计算式为:其中,代表查询的第一类语义向量,代表文字附加信息的第三类语义向量。在一些实施例中,所述关联度的计算式为:其中,为数字附加信息的数字特征值,W为权重向量,b为偏移量。在一些实施例中,以所述训练样本集中各样本的所述关联向量作为输入,以所述标签作为输出,对所述初始网络模型进行训练,采用损失函数进行反向传播,所述损失函数的计算式如下:其中,为所述初始网络模型的输出值,为所述标签对应的真实值。在一些实施例中,采用点击模型对各样本的项目文档添加点击概率作为标签,包括:采用PBM点击模型为各样本的项目文档添加点击概率。另一方面,本专利技术还提供一种科研项目查询方法,包括:获取查询和多个待查项目文档,每个待查项目文档对应至少一个项目成果的附加信息,所述附加信息包括文字附加信息和/或数字附加信息;采用BERT模型对所述查询进行向量化得到查询向量、采用所述BERT模型对各待查项目文档进行向量化得到待查项目文档向量,采用所述BERT模型对各文字附加信息进行向量化得到相应的文字附加信息向量;对于单个待查项目文档的单个项目成果,计算所述查询向量与该项目成果的各文字附加信息向量的语义相似度,并与该项目成果对应的各数字附加信息的数字特征值进行加权求和,得到该项目成果的附加信息与查询的关联度;对各项目成果的关联度进行分布统计,形成分类向量,将所述分类向量与该待查项目文档的待查项目文档向量连接得到该待查项目文档与所述查询的关联向量;将各待查项目文档对应的关联向量输入至上述科研项目查询评分模型训练方法中的科研项目评分模型中,得到各待查项目文档的关联评分;将各待查项目文档按照关联评分从大到小的顺序排列,并输出作为查询结果。在一些实施例中,所述查询向量与该项目成果的各文字附加信息向量的语义相似度的计算式为:其中,为查询向量,为文字附加信息向量。在一些实施例中,该项目成果的附加信息与查询的关联度的计算式为:其中,为数字附加信息的数字特征值,为权重向量,为偏移量。另一方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述方法的步骤。另一方面,本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。本专利技术的有益效果至少是:所述科研项目查询评分模型训练方法、查询方法及装置中,所述科研项目查询评分模型训练方法,应用BERT模型更精确地提取查询、项目文档和各科研成果附加信息的语义向量,对查询和各科研成果进行关联度计算并进行分布统计得到,以体现与该查询相关的科研项目成果的质量的分布统计向量,进一步连接项目文档的语义向量得到该可研项目与查询的关联度向量。通过单文档神经网络建立关联度向量与点击概率的映射关系,以获得用于评价科研项目与查询关联度的科研项目查询评分模型。所述查询方法基于该科研项目查询评分模型计算各科研项目与查询的关联评分,综合评价科研成果与查询的关联关系和成果质量,使关联评分更加精确。本专利技术的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本专利技术的实践而获知。本专利技术的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。本领域技术人员将会理解的是,能够用本专利技术实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本专利技术能够实现的上述和其他目的。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,并不构成对本专利技术的限定。在附图中:图1为本专利技术一实施例所述科研项目查询评分模型训练方法的数据结构示意图;图2为本专利技术一实施例所述科研项目查询评分模型训练方法中提取语义特征逻辑示意图;图3为本专利技术一实施例所述科研项目查询评分模型训练方法中计算查询于项目成果关联度的逻辑示意图;图4为本专利技术一实施例所述科研项目查询评分模型训练方法中计算查询与项目文档关联向量的逻辑示意图;图5为本专利技术另一实施例所述科研项目查询评分模型训练方法中模型训练逻辑示意图。具体实施方式为使本专利技术的目的、技术方案和优本文档来自技高网...

【技术保护点】
1.一种科研项目查询评分模型训练方法,其特征在于,包括:/n获取多个样本,每个样本包含一个查询以及与该查询对应的一个项目文档,该项目文档对应多个项目成果,每个项目成果对应多个附加信息,所述附加信息包括文字附加信息和数字附加信息;/n采用BERT模型对各样本的查询进行向量化得到第一类语义向量、采用所述BERT模型对各样本的项目文档进行向量化得到第二类语义向量,采用所述BERT模型对各文字附加信息进行向量化得到相应的第三类语义向量;/n对于单个样本下的单个项目成果,计算该样本的第一类语义向量与该项目成果的各第三语义向量的语义相似度,并与该项目成果对应的各数字附加信息的数字特征值进行加权求和,得到该项目成果的附加信息与查询的关联度;对单个项目文档各项目成果的关联度进行分布统计,形成分类向量,将所述分类向量与该样本对应的第二类语义向量连接得到该样本对应的查询和项目文档的关联向量;/n采用点击模型对各样本的项目文档添加点击概率作为标签,获取各样本对应的所述关联向量和所述标签,得到训练样本集;/n获取初始网络模型,所述初始网络模型包括至少三个隐层,并采用elu函数作为非线性激活函数;/n以所述训练样本集中各样本的所述关联向量作为输入,以所述标签作为输出,对所述初始网络模型进行训练,得到科研项目评分模型。/n...

【技术特征摘要】
1.一种科研项目查询评分模型训练方法,其特征在于,包括:
获取多个样本,每个样本包含一个查询以及与该查询对应的一个项目文档,该项目文档对应多个项目成果,每个项目成果对应多个附加信息,所述附加信息包括文字附加信息和数字附加信息;
采用BERT模型对各样本的查询进行向量化得到第一类语义向量、采用所述BERT模型对各样本的项目文档进行向量化得到第二类语义向量,采用所述BERT模型对各文字附加信息进行向量化得到相应的第三类语义向量;
对于单个样本下的单个项目成果,计算该样本的第一类语义向量与该项目成果的各第三语义向量的语义相似度,并与该项目成果对应的各数字附加信息的数字特征值进行加权求和,得到该项目成果的附加信息与查询的关联度;对单个项目文档各项目成果的关联度进行分布统计,形成分类向量,将所述分类向量与该样本对应的第二类语义向量连接得到该样本对应的查询和项目文档的关联向量;
采用点击模型对各样本的项目文档添加点击概率作为标签,获取各样本对应的所述关联向量和所述标签,得到训练样本集;
获取初始网络模型,所述初始网络模型包括至少三个隐层,并采用elu函数作为非线性激活函数;
以所述训练样本集中各样本的所述关联向量作为输入,以所述标签作为输出,对所述初始网络模型进行训练,得到科研项目评分模型。


2.根据权利要求1所述的科研项目查询评分模型训练方法,其特征在于,所述语义相似度的计算式为:



其中,代表查询的第一类语义向量,代表文字附加信息的第三类语义向量。


3.根据权利要求2所述的科研项目查询评分模型训练方法,其特征在于,所述关联度的计算式为:



其中,为数字附加信息的数字特征值,W为权重向量,b为偏移量。


4.根据权利要求3所述的科研项目查询评分模型训练方法,其特征在于,以所述训练样本集中各样本的所述关联向量作为输入,以所述标签作为输出,对所述初始网络模型进行训练,采用损失函数进行反向传播,所述损失函数的计算式如下:



其中,为所述初始网络模型的输出值,为所述标签对应的真实值。


5.根...

【专利技术属性】
技术研发人员:杜军平王本直寇菲菲许明英
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1