一种面向科研立项查重的句向量生成方法及查重方法技术

技术编号：34687696 阅读：21 留言：0更新日期：2022-08-27 16:21

本发明专利技术公开了一种面向科研立项查重的句向量生成方法及查重方法。本发明专利技术句向量生成方法为：1)对于一科研项目申报书的文本进行分词，计算每一分词w的词频及词频权重；2)设置每一分词w的词性权重；3)根据分词w所在句子在所述文本中的位置，确定该句子中分词w的位置权重；4)根据各句子中分词的分词w的词频权重、词性权重和位置权重计算对应句子中分词w的词权重；5)根据分词w的词权重生成文本的句向量矩阵；6)去除句向量矩阵的前m个主成分，对句向量矩阵中的每一句向量进行更新；7)将科研项目申报书的文本输入Doc2Vec模型，生成文本的句向量并将其与步骤6)更新后的句向量加权平均，得到文本中每一句子对应的句向量。到文本中每一句子对应的句向量。到文本中每一句子对应的句向量。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向科研立项查重的句向量生成方法及查重方法

[0001]本专利技术涉及自然语言处理文本表示
，是一种面向科研立项查重的由词向量生成句向量的改进方法及查重方法。

技术介绍

[0002]近年来，我国对科研经费的投入越来越大，逐年增加的科研经费和海量的申报课题给科研项目立项决策带来了极大的困难，科技项目“重复立项”、“多头申报”问题日益凸显。科研项目的重复研究将造成科研资源的浪费，阻碍国家的科技发展规划，因此建立有效的科研项目立项查重机制已成为科技计划管理部门的当务之急。
[0003]对科技项目申报文本进行查重首先需要将文本表示为计算机可以处理的形式。目前文本表示的常用方式是把字或词处理成向量，在包含语义信息的同时，以便计算机能进行处理。当前文本表示的常用方法有Word2Vec，Doc2Vec，Glove，fastText，BERT等。
[0004]通常情况下，句子由若干字、词组成，一段文本由若干个句子组成。在使用文本表示技术将字或词表示为向量后，若要获得句子或段落的向量表示，需要通过某种方式将词向量转化为句向量，句向量再转化为段落向量。使句向量能够更为准确地表征文本语义，是进行语义理解、计算语义相似度的关键。
[0005]目前常用的句向量生成方式有以下两种：有监督的句向量生成方法和无监督的句向量生成方法。有监督的句向量生成方法对标注数据有较强的依赖，在一些特定领域，标注数据获取成本较高。无监督的句向量生成方法目前常见的有词向量直接相加平均、词向量通过TF
‑
IDF、US...

【技术保护点】

【技术特征摘要】
1.一种面向科研立项查重的句向量生成方法，其步骤包括：1)对于一科研项目申报书的文本进行分词，计算所述文本中每一分词w的词频p(w)及词频权重tf(w)；2)根据汉语的语法规则以及六类实词词性在科研项目文本中的分布，设置每一分词w的词性权重tag(w)；其中六类实词词性包括名词、动词、形容词、代词、量词和数词；3)根据分词w所在句子在所述文本中的位置，确定该句子中分词w的位置权重pos(w)；4)根据各句子中分词的分词w的词频权重tf(w)、词性权重tag(w)和位置权重pos(w)计算对应句子中分词w的词权重wgh(w)；5)根据分词w的词权重wgh(w)生成所述文本的句向量矩阵A；6)去除所述句向量矩阵A的前m个主成分，对所述句向量矩阵A中的每一句向量进行更新；7)将科研项目申报书的文本输入Doc2Vec模型，生成所述文本的句向量并将其与步骤6)更新后的对应句向量加权平均，得到所述文本中每一句子对应的句向量。2.根据权利要求1所述的方法，其特征在于，确定分词w的位置权重的方法为：如果分词w所在句子为所述文本的段落首句或末句，则分词w的位置权重较高，否则分词w的位置权重较低。3.根据权利要求1或2所述的方法，其特征在于，词权重wgh(w)＝tf(w)*(1+tag(w)+pos(w))。4.根据权利要求3所述的方法，其特征在于，所述句向量矩阵其中，所述文本中句子s的句向量v
w
为分词w的词向量，n为所述文本中句子总数...

【专利技术属性】
技术研发人员：李翀，张金杰，张士波，何晓涛，刘学敏，
申请(专利权)人：中国科学院计算机网络信息中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人