当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于子空间嵌入的学术论文差异性分析方法技术

技术编号:32200212 阅读:22 留言:0更新日期:2022-02-08 16:06
本发明专利技术公开一种基于子空间嵌入的学术论文差异性分析方法,属于自然语言处理的技术领域。本发明专利技术针对论文差异性分析目标,提出了融合专家规则的论文子空间嵌入模型。引入子空间概念描述论文不同层面的学术创新,提出基于预训练模型的论文子空间语义嵌入方法。本发明专利技术将摘要等重点关注文本建模成不同子空间语义向量,相较于传统的基于文本向量的差异性分析方法,子空间嵌入更能够体现学术创新的不同特点。引入学术界的基本共识作为度量两篇比较论文差异性的规则,提出基于对比学习的规则嵌入模型,采用孪生神经网络与对比损失函数进行多规则联合嵌入学习,以分析论文差异性。以分析论文差异性。以分析论文差异性。

【技术实现步骤摘要】
一种基于子空间嵌入的学术论文差异性分析方法


[0001]本专利技术公开一种基于子空间嵌入的学术论文差异性分析方法,属于自然语言处理的


技术介绍

[0002]文本差异性分析任务是指面向特定目标,对输入的目标文本和对照文本集合进行加工处理,自动标记目标文本相对于对照集合呈现出内容或语义差异的段落以及差异大小,在许多场景中都有广泛的应用,比如文本查重、重构编辑过程、挖掘软件历史版本中的语义变化等等。在学术论文差异性分析任务是指面向新发表论文的潜在影响力预测问题,对论文文本以及其他元数据进行加工处理,自动标注。其中,文本内容是论文摘要,目标文本和对照文本为同一研究领域的论文,在许多具体任务中都有重要的应用价值。例如针对学术期刊最新一期发表的论文,通过一个论文质量量化模型对其进行评价,而评价模型的训练一般需要大量已标注评分的论文集合,或具备被引用关系、作者特征等大量数据支撑,在实际场景中已标注得分的论文往往较少,而新发表论文缺少被引数据,难以完成评价模型的训练。通过论文差异性分析方法可以将该期刊往期发表的论文作为对照文本,依据学术界评价论文质量本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于子空间嵌入的学术论文差异性分析方法,其特征在于,包括,针对论文中某一特定部分文本进行论文差异评分:1)设论文某一特定部分文本包含个句子,利用神经网络预训练文本编码器模型BERT作为编码器,得到句向量序列;2)采用条件随机场方法CRF作为预训练序列标记模型,对某一特定部分文本进行句子级别的功能子空间标记,得到句子功能标记序列,,其中为子空间数量;3)基于句向量序列和句子功能标记序列,对论文的某一特定部分文本进行子空间融合嵌入,即对相同句子功能标记的句向量进行语义融合;采用了基于全局注意力机制和池化操作的多层感知机神经网络的子空间融合嵌入方法,以获得不同子空间交互信息,计算方式如下:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)在公式(1)中,表示子空间中第个句子的句向量;其中表示编码器计算出来的第个句子的句向量;是运算符,表示点积;是指示函数,当第个句子的功能标记为子空间时,,否则;在公式(2)中,表示子空间中全部句子的句向量序列;在公式(3)、(4)中,其中;分别是多层感知机神经网络的权重参数和偏差参数,;在公式(5)中,为子空间中的文本嵌入向量,是子空间的权重矩阵,是基于全局注意力机制的权重参数,是基于全局注意力机制的偏差参数;然后采用基于全局注意力机制融合其他子空间作为上下文信息,记为;最后融合子空间中的文本嵌入向量和上下文信息为嵌入结果:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)在公式(6)中,表示对于子空间作为上下文融合到子空间中的权重,和分别表示子空间和中的文本嵌入向量;在公式(7)中,表示除子空间外的全部子空间嵌入的加权和;是子空间中的文本嵌入向量;
在公式(8)中,是融合上下文信息后的子空间的嵌入结果;4)最终子空间语义差异评分函数如下:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)在公式(9)中,表示论文的文本;为向量欧氏距离;为论文子空间的嵌入向量;为论文子空间的嵌入向量;对于论文,采用期望方式计算嵌入向量:(10)在公式(10)中,为指示函数,计算方式为子空间中全部句子的子空间嵌入平均值;对于论文,...

【专利技术属性】
技术研发人员:孙宇清谢翌
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1