专家学者科技资源信息的文本语义检索方法及装置制造方法及图纸

技术编号:34411949 阅读:24 留言:0更新日期:2022-08-03 22:04
本申请提供一种专家学者科技资源信息的文本语义检索方法及装置,方法包括:对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量进行线性变换,得到标准正交基下的文本语义向量集和关键词语义向量;基于针对专家学者科技资源信息的多维相似度计算方式,对关键词语义向量与文本语义向量集进行余弦相似度计算,以确定文本语义检索结果。本申请能够有效提高针对专家学者科技资源信息进行文本语义检索的准确性及可靠性;并能够在提高语义检索结果的有效性及可用性的基础上,满足余弦相似度所适用场景,还能够有效提高专家学者科技资源文本语义检索结果的多样性及全面性。性及全面性。性及全面性。

【技术实现步骤摘要】
专家学者科技资源信息的文本语义检索方法及装置


[0001]本申请涉及文本语义检索
,尤其涉及专家学者科技资源信息的文本语义检索方法及装置。

技术介绍

[0002]高等院校、研究所等科研单位所拥有的专家学者科技资源是极其丰富的,这些极具科技创新能力的人才是推动产业升级的重要力量。专家学者科技资源主要由基本属性和科研成果两部分组成,基本属性包括专家学者的研究兴趣、所在单位、教育工作经历等信息,科研成果包括论文、科研项目、专利等多维信息。但是,由于信息不对称等原因,专家学者科技资源并不能够及时地与社会进行对接,社会需求与专家学者之间无法进行精准匹配,这些问题成为制约技术更新迭代、产学研深度融合的重要原因。因此,提供相关的专家学者科技资源检索服务显得十分必要。
[0003]目前,现有的文本语义检索方式之一通常采用关键词精确匹配的方式进行语义检索,但该方式无法进行相似性查找,因此使得语义检索结果的有效性较低且可用性较差。为了解决这一问题,现有的文本语义检索方式之二通常采用预训练语言模型BERT(Bidirectional Encoder Representation from Transformers)进行向量映射,并将得到的句子向量应用于文本相似度计算,以提高语义检索结果的有效性及可用性。然而,在现有的文本语义检索方式之二中,由于向量分布存在非线性和奇异性,词向量之间的距离不能很好的表示词之间的相关性,且并不适用于余弦相似度所适用的专家学者科技资源信息语义检索等场景。

技术实现思路

[0004]鉴于此,本申请实施例提供了专家学者科技资源信息的文本语义检索方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷。
[0005]本申请的一个方面提供了一种专家学者科技资源信息的文本语义检索方法,包括:对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量分别进行线性变换,得到所述目标文本对应的标准正交基下的文本语义向量集,以及所述检索关键词对应的标准正交基下的关键词语义向量;基于针对专家学者科技资源信息的多维相似度计算方式,对所述关键词语义向量与所述文本语义向量集进行余弦相似度计算,以根据对应的计算结果确定所述检索关键词在所述目标文本中的文本语义检索结果。
[0006]在本申请的一些实施例中,在所述对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和所述检索关键词对应的语义特征向量分别进行线性变换之前,还包括:
获取检索关键词和包含有专家学者科技资源信息的目标文本;将所述目标文本和检索关键词分别输入BERT,以使BERT输出所述目标文本对应的各个句子语义特征向量和所述检索关键词对应的词语义特征向量。
[0007]在本申请的一些实施例中,所述对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量分别进行线性变换,包括:基于预设的变换矩阵,对所述目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量分别进行二次向量编码线性变换。
[0008]在本申请的一些实施例中,还包括:基于主成分分析法对经所述二次向量编码线性变换得到的文本语义向量集和关键词语义向量进行降维处理,得到所述目标文本对应的标准正交基下的文本语义向量集,以及所述检索关键词对应的标准正交基下的关键词语义向量。
[0009]在本申请的一些实施例中,还包括:根据科技资源文本语料训练用数据及基于BERT

whitening的方式,训练得到用于进行二次向量编码线性变换的变换矩阵。
[0010]在本申请的一些实施例中,所述根据科技资源文本语料训练用数据及基于BERT

whitening的方式,训练得到用于进行二次向量编码线性变换的变换矩阵,包括:将科技资源文本语料训练用数据输入BERT,以根据所述BERT的输出生成对应的训练用向量集合;计算所述训练用向量集合的均值向量,并根据所述均值向量计算所述训练用向量集合的协方差矩阵;对所述协方差矩阵进行奇异值分解,以训练得到用于进行二次向量编码线性变换的变换矩阵。
[0011]在本申请的一些实施例中,所述专家学者科技资源信息对应的专家信息特征包括:专家学者的研究偏好、所承担科研项目、所拥有专利以及所发表的学术论文;相对应的,所述基于针对专家学者科技资源信息的多维相似度计算方式,对所述关键词语义向量与所述文本语义向量集进行余弦相似度计算,以根据对应的计算结果确定所述检索关键词在所述目标文本中的文本语义检索结果,包括:将所述关键词语义向量和所述文本语义向量集输入预设的搜索引擎,在该搜索引擎中计算所述关键词语义向量分别与所述文本语义向量集中对应各个所述专家信息特征各自对应的向量之间的相似度;根据预设的各个所述专家信息特征各自对应的权重,对所述关键词语义向量分别与所述文本语义向量集中对应各个所述专家信息特征各自对应的向量之间的相似度进行加权求和处理,得到所述关键词语义向量与所述文本语义向量集之间的余弦相似度计算结果;基于预设的得分函数对所述余弦相似度计算结果进行数值由大至小的排序,得到并输出所述检索关键词在所述目标文本中的文本语义检索结果。
[0012]本申请的另一个方面提供了一种专家学者科技资源信息的文本语义检索装置,包括:
向量线性变换模块,用于对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量分别进行线性变换,得到所述目标文本对应的标准正交基下的文本语义向量集,以及所述检索关键词对应的标准正交基下的关键词语义向量;余弦相似度计算模块,用于基于针对专家学者科技资源信息的多维相似度计算方式,对所述关键词语义向量与所述文本语义向量集进行余弦相似度计算,以根据对应的计算结果确定所述检索关键词在所述目标文本中的文本语义检索结果。
[0013]本申请的另一个方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的专家学者科技资源信息的文本语义检索方法。
[0014]本申请的另一个方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的专家学者科技资源信息的文本语义检索方法。
[0015]本申请提供的专家学者科技资源信息的文本语义检索方法,对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量分别进行线性变换,得到所述目标文本对应的标准正交基下的文本语义向量集,以及所述检索关键词对应的标准正交基下的关键词语义向量;基于针对专家学者科技资源信息的多维相似度计算方式,对所述关键词语义向量与所述文本语义向量集进行余弦相似度计算,以根据对应的计算结果确定所述检索关键词在所述目标文本中的文本语义检索结果;通过对BERT输出的向量进行线性变换,解决了由于向量分布本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种专家学者科技资源信息的文本语义检索方法,其特征在于,包括:对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量分别进行线性变换,得到所述目标文本对应的标准正交基下的文本语义向量集,以及所述检索关键词对应的标准正交基下的关键词语义向量;基于针对专家学者科技资源信息的多维相似度计算方式,对所述关键词语义向量与所述文本语义向量集进行余弦相似度计算,以根据对应的计算结果确定所述检索关键词在所述目标文本中的文本语义检索结果。2.根据权利要求1所述的专家学者科技资源信息的文本语义检索方法,其特征在于,在所述对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和所述检索关键词对应的语义特征向量分别进行线性变换之前,还包括:获取检索关键词和包含有专家学者科技资源信息的目标文本;将所述目标文本和检索关键词分别输入BERT,以使BERT输出所述目标文本对应的各个句子语义特征向量和所述检索关键词对应的词语义特征向量。3.根据权利要求1所述的专家学者科技资源信息的文本语义检索方法,其特征在于,所述对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量分别进行线性变换,包括:基于预设的变换矩阵,对所述目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量分别进行二次向量编码线性变换。4.根据权利要求3所述的专家学者科技资源信息的文本语义检索方法,其特征在于,还包括:基于主成分分析法对经所述二次向量编码线性变换得到的文本语义向量集和关键词语义向量进行降维处理,得到所述目标文本对应的标准正交基下的文本语义向量集,以及所述检索关键词对应的标准正交基下的关键词语义向量。5.根据权利要求3所述的专家学者科技资源信息的文本语义检索方法,其特征在于,还包括:根据科技资源文本语料训练用数据及基于BERT

whitening的方式,训练得到用于进行二次向量编码线性变换的变换矩阵。6.根据权利要求5所述的专家学者科技资源信息的文本语义检索方法,其特征在于,所述根据科技资源文本语料训练用数据及基于BERT

whitening的方式,训练得到用于进行二次向量编码线性变换的变换矩阵,包括:将科技资源文本语料训练用数据输入BERT,以根据所述BERT的输...

【专利技术属性】
技术研发人员:杜军平欧阳苏宇邵蓥侠薛哲李昂
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1