【技术实现步骤摘要】
本申请涉及但不限于文本处理,尤其涉及一种基于深度学习的科技项目创新潜力预估方法及装置。
技术介绍
1、在当前科技创新日新月异的时代背景下,科技项目的立项与管理面临着前所未有的挑战,尤其是在确保科研资源合理分配与避免重复研究方面。传统的科技项目查重方法大多依赖于关键词匹配、标题比对等较为基础的文本比较技术,这些方法往往忽视了科技文本内容的复杂性和深度关联性,导致查重效率低下且准确性受限。随着大数据与人工智能技术的飞速发展,深度学习技术在文本分析领域的应用为科技项目查重提供了新的可能性。
2、现有的科技项目查重技术在处理海量科技文献时,主要存在的问题包括:一是缺乏有效机制来衡量文本中各要素对查重结果的实际贡献度,往往对所有信息一视同仁,未能实现精准筛选;二是处理过程中未能充分利用文本的深层语义关联,仅基于表面文字的相似度判断,容易遗漏潜在的重复或高度相似项目;三是处理流程效率较低,难以适应快速增加的科技文献量,影响科研管理和资源配置的时效性。
技术实现思路
1、有鉴于此,本申请实施
...【技术保护点】
1.一种基于深度学习的科技项目创新潜力预估方法,其特征在于,包括:对第一科技项目文本进行表征信息提取,获得第一科技项目文本表征信息,并对第二科技项目文本进行表征信息提取,获得第二科技项目文本表征信息;对所述第一科技项目文本表征信息进行表征信息处理,获得所述第一科技项目文本表征信息中每个第一表征信息的权重,并对所述第二科技项目文本表征信息进行表征信息处理,获得所述第二科技项目文本表征信息中每个第二表征信息的权重,所述权重代表对科技项目查重的影响度;依据所述每个第一表征信息的权重,对所述第一科技项目文本表征信息进行表征信息稀疏采样,获得T个第一表征信息,以及依据所述每个第
...【技术特征摘要】
1.一种基于深度学习的科技项目创新潜力预估方法,其特征在于,包括:对第一科技项目文本进行表征信息提取,获得第一科技项目文本表征信息,并对第二科技项目文本进行表征信息提取,获得第二科技项目文本表征信息;对所述第一科技项目文本表征信息进行表征信息处理,获得所述第一科技项目文本表征信息中每个第一表征信息的权重,并对所述第二科技项目文本表征信息进行表征信息处理,获得所述第二科技项目文本表征信息中每个第二表征信息的权重,所述权重代表对科技项目查重的影响度;依据所述每个第一表征信息的权重,对所述第一科技项目文本表征信息进行表征信息稀疏采样,获得t个第一表征信息,以及依据所述每个第二表征信息的权重,对所述第二科技项目文本表征信息进行表征信息稀疏采样,获得t个第二表征信息;对所述t个第一表征信息和所述t个第二表征信息进行表征信息处理,获得所述t个第一表征信息对应的第一选择矩阵和所述t个第二表征信息对应的第二选择矩阵,所述第一选择矩阵用以抽取所述t个第一表征信息中与所述t个第二表征信息具有重合信息的x个第一表征信息,所述第二选择矩阵用以抽取所述t个第二表征信息中与所述t个第一表征信息具有重合信息的y个第二表征信息;对所述x个第一表征信息和所述y个第二表征信息进行表征信息共性度量,获得所述第一科技项目文本和所述第二科技项目文本之间的第一创新潜力查重结果。
2.根据权利要求1所述的方法,其特征在于,所述依据所述每个第一表征信息的权重,对所述第一科技项目文本表征信息进行表征信息稀疏采样,获得t个第一表征信息,以及依据所述每个第二表征信息的权重,对所述第二科技项目文本表征信息进行表征信息稀疏采样,获得t个第二表征信息,包括:依据事先设定的比值确定数值t;依据所述每个第一表征信息的权重,依据权重递减的方向,将所述第一科技项目文本表征信息中的前t个第一表征信息作为所述t个第一表征信息,以及依据所述每个第二表征信息的权重,依据权重递减的方向,将所述第二科技项目文本表征信息中的前t个第二表征信息作为所述t个第二表征信息。
3.根据权利要求2所述的方法,其特征在于,所述依据事先设定的比值确定数值t,包括:依据所述比值和所述第一科技项目文本表征信息的信息容量确定数值t;或者,依据所述比值和所述第二科技项目文本表征信息的信息容量确定数值t。
4.根据权利要求1~3中任一项所述的方法,其特征在于,所述对所述t个第一表征信息和所述t个第二表征信息进行表征信息处理,获得所述t个第一表征信息对应的第一选择矩阵和所述t个第二表征信息对应的第二选择矩阵,包括:确定所述t个第一表征信息对应的第一原始选择矩阵,并确定所述t个第二表征信息对应的第二原始选择矩阵;依据所述t个第一表征信息、所述t个第二表征信息、所述第一原始选择矩阵以及所述第二原始选择矩阵,对所述t个第一表征信息进行优化,获得t个第一优化表征信息,以及依据所述t个第一表征信息、所述t个第二表征信息、所述第一原始选择矩阵以及所述第二原始选择矩阵,对所述t个第二表征信息进行优化,获得t个第二优化表征信息;依据所述t个第一优化表征信息对所述第一原始选择矩阵进行优化,获得第一优化选择矩阵,以及依据所述t个第二优化表征信息对所述第二原始选择矩阵进行优化,获得第二优化选择矩阵;依据所述第一优化选择矩阵确定所述第一选择矩阵,以及依据所述第二优化选择矩阵确定所述第二选择矩阵。
5.根据权利要求4所述的方法,其特征在于,在所述对第一科技项目文本进行表征信息提取,获得第一科技项目文本表征信息,并对第二科技项目文本进行表征信息提取,获得第二科技项目文本表征信息之前,所述方法还包括:在所述第一科技项目文本的信息容量和所述第二科技项目文本的信息容量没有匹配时,将所述第一科技项目文本和所述第二科技项目文本统一到相同的信息容量;所述确定所述t个第一表征信息对应的第一原始选择矩阵,并确定所述t个第二表征信息对应的第二原始选择矩阵,包括:依据所述第一科技项目文本的统一处理中补齐的字符,确定所述第一原始选择矩阵,所述第一原始选择矩阵中,与所述t个第一表征信息中补齐的字符的表征信息对应的字符为非核心信息;依据所述第二科技项目文本的统一处理中补齐的字符,确定所述第二原始选择矩阵,所述第二原始选择矩阵中,与所述t个第二表征信息中补齐的字符的表征信息对应的字符为非核心信息。
6.根据权利要求4所述的方法,其特征在于,所述依据所述t个第一表征信息、所述t个第二表征信息、所述第一原始选择矩阵以及所述第二原始选择矩阵,对所述t个第一表征信息进行优化,获得t个第一优化表征信息,以及依据所述t个第一表征信息、所述t个第二表征信息、所述第一原始选择矩阵以及所述第二原始选择矩阵,对所述t个第二表征信息进行优化,获得t个第二优化表征信息,包括:通过所述第一原始选择矩阵与所述t个第一表征信息进行相乘,获得t个第一加载表征信息,以及通过所述第二原始选择矩阵与所述t个第二表征信息进行相乘,获得t个第二加载表征信息;通过第一内部注意力组件对所述t个第一加载表征信息进行注意力对齐,以及通过第一互注意力组件对所述t个第二加载表征信息和所述第一内部注意力组件的输出的t个表征信息,获得所述t个第一优化表征信息,以及通过第二内部注意力组件对所述t个第二加载表征信息进行注意力对齐,以及通过第二互注意力组件对所述t个第一加载表征信息和所述第二内部注意力组件的输出的t个表征信息,获得所述t个第二优化表征信息。
7.根据权利要求4所述的方法,其特征在于,所述依据所述t个第一优化表征信息对所述第一原始选择矩阵进行优化,获得第一优化选择矩阵,以及依据所述t个第二优化表征信息对所述第二原始选择矩阵进行优化,获得第二优化选择矩阵,包括:对所述t个第一优化表征信息进行表征信息处理,获得所述t个第一优化表征信息中每个第一优化表征信息对应的两个置信度,并对所述t个第二优化表征信息进行表征信息处理,获得所述t个第二优化表征信息中每个第二优化表征信息对应的两个置信度,...
【专利技术属性】
技术研发人员:罗军,陈之瑶,莎薇,侯小星,孙晶,高燕,朱永能,李正旺,石馨月,杨尔璞,陈梦婷,
申请(专利权)人:广东省技术经济研究发展中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。