基于句法结构的领域自适应方面术语抽取方法及系统技术方案

技术编号:33503401 阅读:30 留言:0更新日期:2022-05-19 01:13
本发明专利技术公开一种基于句法结构的领域自适应方面术语抽取方法及系统,包括将源领域和目标领域中词的词性和句法依赖关系作为句法结构信息;计算源领域方面术语的平均词性特征和平均句法依赖关系特征并作为方面术语的平均句法结构特征;根据句法结构信息计算源领域和目标领域中每个词和平均句法结构特征的相似度;对基于Transformer的预训练模型进行基于句法结构相似度的再预训练;基于掩码语言模型MLM构建方面术语抽取模型并进行训练,训练过程中对术语抽取模型的交叉熵损失函数进行加权。本发明专利技术能学习到词语级领域不变表征,在细粒度的文本抽取任务中能取得不错的成效。粒度的文本抽取任务中能取得不错的成效。粒度的文本抽取任务中能取得不错的成效。

【技术实现步骤摘要】
基于句法结构的领域自适应方面术语抽取方法及系统


[0001]本专利技术涉及自然语言处理
,特别是涉及一种基于句法结构的领域自适应方面术语抽取方法及系统。

技术介绍

[0002]方面术语抽取是一项细粒度的分类任务,方面术语指一个文本中最细粒度的评价对象,例如在“the waiter was rude, but the food was delicious”中,“waiter”和“food”是两个方面术语。方面术语抽取任务旨在抽取文本中出现的所有方面。
[0003]用于进行方面术语抽取的有监督模型依赖于大量有标注的数据,但是其标注的代价往往十分昂贵。同时大多数监督学习方法都服从一个共同的假设:训练数据和测试数据来自相同的分布。若违反了这个假设,由于领域之间的差异,在源领域上训练的模型作用于目标领域时性能可能会剧烈下降。为了减轻对有标注数据的依赖,迁移学习中的领域自适应是解决问题的关键。领域自适应方法在有标注的源领域数据集上训练模型以达到在无标注的目标领域良好的泛化效果。
[0004]传统的领域自适应方法大多关注粗粒度的文本分类本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于句法结构的领域自适应方面术语抽取方法,其特征在于,所述方法包括以下步骤:采用词性标注技术获取源领域和目标领域中每个词的词性,采用句法依赖关系解析技术获取所述源领域和目标领域中每个词的句法依赖关系,将所述词性和所述句法依赖关系作为句法结构信息;根据领域自适应中源领域的数据标注计算源领域所有方面术语的平均词性特征和平均句法依赖关系特征,将所述平均词性特征和所述平均句法依赖关系特征作为源领域所有方面术语的平均句法结构特征;根据所述句法结构信息计算所述源领域和目标领域中每个词和所述平均句法结构特征的句法结构相似度;对基于Transformer的预训练模型进行基于句法结构相似度的再预训练,再预训练过程中所述预训练模型中的掩码语言模型MLM掩码策略是选取包含源领域和目标领域中与所述平均句法结构特征的相似度从高到低的前10%至20%中的词进行掩码;基于所述掩码语言模型MLM构建方面术语抽取模型,利用梯度下降法对所述术语抽取模型进行训练,训练过程中使用所述源领域中每个词和所述平均句法结构特征的相似度对所述术语抽取模型的交叉熵损失函数进行加权;将待处理语句文本输入训练好的所述方面术语抽取模型中即可输出方面术语抽取结果。2.根据权利要求1所述的基于句法结构的领域自适应方面术语抽取方法,其特征在于,所述词性采取one

hot向量编码,所述句法依赖关系采取multi

hot向量编码。3.根据权利要求1所述的基于句法结构的领域自适应方面术语抽取方法,其特征在于,根据所述句法结构信息计算所述源领域和目标领域中每个词和所述平均句法结构特征的相似度,其中,每个词x
i
和所述平均句法结构特征的相似度具体表达式为:其中,c表示余弦相似度,表示词x
i
的词性,表示源领域所有方面术语的平均词性特征,,表示源领域方面术语集合A中的元素x
j
的词性,表示词x
i
的句法依赖关系,表示源领域所有方面术语的平均句法结构特征,,表示源领域方面术语集合A中的元素x
j
的句法依赖关系,A表示源领域的方面术语集合,N
A
表示源领域中方面术语的总数量。4.根据权利要求3所述的基于句法结构的领域自适应方面术语抽取方法,其特征在于,所述对所述术语抽取模型的交叉熵损失函数进行加权的具体表达式为:
其中,D表示源领域数据集...

【专利技术属性】
技术研发人员:高翠芸董安国肖京王轩王磊张加佳赵盟盟
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1