一种科研项目查询评分模型训练方法、查询方法及装置制造方法及图纸

技术编号：29705178 阅读：15 留言：0更新日期：2021-08-17 14:34

本发明专利技术提供一种科研项目查询评分模型训练方法、查询方法及装置，所述科研项目查询评分模型训练方法，应用BERT模型更精确地提取查询、项目文档和各科研成果附加信息的语义向量，对查询和各科研成果进行关联度计算并进行分布统计得到，以体现与该查询相关的科研项目成果的质量的分布统计向量，进一步连接项目文档的语义向量得到该可研项目与查询的关联度向量。通过单文档神经网络建立关联度向量与点击概率的映射关系，以获得用于评价科研项目与查询关联度的科研项目查询评分模型。所述查询方法基于该科研项目查询评分模型计算各科研项目与查询的关联评分，综合评价科研成果与查询的关联关系和成果质量，使关联评分更加精确。

全部详细技术资料下载

【技术实现步骤摘要】
一种科研项目查询评分模型训练方法、查询方法及装置
本专利技术涉及数据处理
，尤其涉及一种科研项目查询评分模型训练方法、查询方法及装置。
技术介绍
科研大数据中有许多科研项目数据，每个科研项目都有许多科研成果。科研人员、主管人员在对某一技术进行分析评价过程中，需要对该
所包含的科研项目以及各科研项目产出的技术成果进行评价。科研项目的质量与其已经产生的技术成果质量相关，技术成果越多、质量越高则科研项目的效益越好。在具体实践工作中，通常需要采用查询检索的方式，获取某一技术相关的科研项目，并对其进行评价分析，以确定科研项目的质量，用于指导类似科研项目的建设工作决策，科研质量监督等，在科研项目申报、科研项目批示时作为参考。为此，需要一种查询方法，能够基于查询关键词对现有的科研项目进行检索评价和排序，提高查询结果的相关性、有效性、准确性和及时性。
技术实现思路
本专利技术实施例提供了一种科研项目查询评分模型训练方法、查询方法及装置，以消除或改善现有技术中存在的一个或更多个缺陷，以解决传统线性打分函数在特征数量较多时无法综合评价语义以获得最优评价结果的问题。本专利技术的技术方案如下：一方面，本专利技术提供一种科研项目查询评分模型训练方法，包括：获取多个样本，每个样本包含一个查询以及与该查询对应的一个项目文档，该项目文档对应多个项目成果，每个项目成果对应多个附加信息，所述附加信息包括文字附加信息和数字附加信息；采用BERT模型对各样本的查询进行向量化得到第一类语...

【技术保护点】
1.一种科研项目查询评分模型训练方法，其特征在于，包括：/n获取多个样本，每个样本包含一个查询以及与该查询对应的一个项目文档，该项目文档对应多个项目成果，每个项目成果对应多个附加信息，所述附加信息包括文字附加信息和数字附加信息；/n采用BERT模型对各样本的查询进行向量化得到第一类语义向量、采用所述BERT模型对各样本的项目文档进行向量化得到第二类语义向量，采用所述BERT模型对各文字附加信息进行向量化得到相应的第三类语义向量；/n对于单个样本下的单个项目成果，计算该样本的第一类语义向量与该项目成果的各第三语义向量的语义相似度，并与该项目成果对应的各数字附加信息的数字特征值进行加权求和，得到该项目成果的附加信息与查询的关联度；对单个项目文档各项目成果的关联度进行分布统计，形成分类向量，将所述分类向量与该样本对应的第二类语义向量连接得到该样本对应的查询和项目文档的关联向量；/n采用点击模型对各样本的项目文档添加点击概率作为标签，获取各样本对应的所述关联向量和所述标签，得到训练样本集；/n获取初始网络模型，所述初始网络模型包括至少三个隐层，并采用elu函数作为非线性激活函数；/n以所述训练...

【技术特征摘要】
1.一种科研项目查询评分模型训练方法，其特征在于，包括：
获取多个样本，每个样本包含一个查询以及与该查询对应的一个项目文档，该项目文档对应多个项目成果，每个项目成果对应多个附加信息，所述附加信息包括文字附加信息和数字附加信息；
采用BERT模型对各样本的查询进行向量化得到第一类语义向量、采用所述BERT模型对各样本的项目文档进行向量化得到第二类语义向量，采用所述BERT模型对各文字附加信息进行向量化得到相应的第三类语义向量；
对于单个样本下的单个项目成果，计算该样本的第一类语义向量与该项目成果的各第三语义向量的语义相似度，并与该项目成果对应的各数字附加信息的数字特征值进行加权求和，得到该项目成果的附加信息与查询的关联度；对单个项目文档各项目成果的关联度进行分布统计，形成分类向量，将所述分类向量与该样本对应的第二类语义向量连接得到该样本对应的查询和项目文档的关联向量；
采用点击模型对各样本的项目文档添加点击概率作为标签，获取各样本对应的所述关联向量和所述标签，得到训练样本集；
获取初始网络模型，所述初始网络模型包括至少三个隐层，并采用elu函数作为非线性激活函数；
以所述训练样本集中各样本的所述关联向量作为输入，以所述标签作为输出，对所述初始网络模型进行训练，得到科研项目评分模型。

2.根据权利要求1所述的科研项目查询评分模型训练方法，其特征在于，所述语义相似度的计算式为：

其中，代表查询的第一类语义向量，代表文字附加信息的第三类语义向量。

3.根据权利要求2所述的科研项目查询评分模型训练方法，其特征在于，所述关联度的计算式为：

其中，为数字附加信息的数字特征值，W为权重向量，b为偏移量。

4.根据权利要求3所述的科研项目查询评分模型训练方法，其特征在于，以所述训练样本集中各样本的所述关联向量作为输入，以所述标签作为输出，对所述初始网络模型进行训练，采用损失函数进行反向传播，所述损失函数的计算式如下：

其中，为所述初始网络模型的输出值，为所述标签对应的真实值。

5.根...

【专利技术属性】
技术研发人员：杜军平，王本直，寇菲菲，许明英，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人