【技术实现步骤摘要】
一种基于子空间嵌入的学术论文差异性分析方法
[0001]本专利技术公开一种基于子空间嵌入的学术论文差异性分析方法,属于自然语言处理的
技术介绍
[0002]文本差异性分析任务是指面向特定目标,对输入的目标文本和对照文本集合进行加工处理,自动标记目标文本相对于对照集合呈现出内容或语义差异的段落以及差异大小,在许多场景中都有广泛的应用,比如文本查重、重构编辑过程、挖掘软件历史版本中的语义变化等等。在学术论文差异性分析任务是指面向新发表论文的潜在影响力预测问题,对论文文本以及其他元数据进行加工处理,自动标注。其中,文本内容是论文摘要,目标文本和对照文本为同一研究领域的论文,在许多具体任务中都有重要的应用价值。例如针对学术期刊最新一期发表的论文,通过一个论文质量量化模型对其进行评价,而评价模型的训练一般需要大量已标注评分的论文集合,或具备被引用关系、作者特征等大量数据支撑,在实际场景中已标注得分的论文往往较少,而新发表论文缺少被引数据,难以完成评价模型的训练。通过论文差异性分析方法可以将该期刊往期发表的论文作为对照文本,依 ...
【技术保护点】
【技术特征摘要】
1.一种基于子空间嵌入的学术论文差异性分析方法,其特征在于,包括,针对论文中某一特定部分文本进行论文差异评分:1)设论文某一特定部分文本包含个句子,利用神经网络预训练文本编码器模型BERT作为编码器,得到句向量序列;2)采用条件随机场方法CRF作为预训练序列标记模型,对某一特定部分文本进行句子级别的功能子空间标记,得到句子功能标记序列,,其中为子空间数量;3)基于句向量序列和句子功能标记序列,对论文的某一特定部分文本进行子空间融合嵌入,即对相同句子功能标记的句向量进行语义融合;采用了基于全局注意力机制和池化操作的多层感知机神经网络的子空间融合嵌入方法,以获得不同子空间交互信息,计算方式如下:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)在公式(1)中,表示子空间中第个句子的句向量;其中表示编码器计算出来的第个句子的句向量;是运算符,表示点积;是指示函数,当第个句子的功能标记为子空间时,,否则;在公式(2)中,表示子空间中全部句子的句向量序列;在公式(3)、(4)中,其中;分别是多层感知机神经网络的权重参数和偏差参数,;在公式(5)中,为子空间中的文本嵌入向量,是子空间的权重矩阵,是基于全局注意力机制的权重参数,是基于全局注意力机制的偏差参数;然后采用基于全局注意力机制融合其他子空间作为上下文信息,记为;最后融合子空间中的文本嵌入向量和上下文信息为嵌入结果:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)在公式(6)中,表示对于子空间作为上下文融合到子空间中的权重,和分别表示子空间和中的文本嵌入向量;在公式(7)中,表示除子空间外的全部子空间嵌入的加权和;是子空间中的文本嵌入向量;
在公式(8)中,是融合上下文信息后的子空间的嵌入结果;4)最终子空间语义差异评分函数如下:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)在公式(9)中,表示论文的文本;为向量欧氏距离;为论文子空间的嵌入向量;为论文子空间的嵌入向量;对于论文,采用期望方式计算嵌入向量:(10)在公式(10)中,为指示函数,计算方式为子空间中全部句子的子空间嵌入平均值;对于论文,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。