文本属性类别抽取方法、装置、设备及介质制造方法及图纸

技术编号:39060922 阅读:28 留言:0更新日期:2023-10-12 19:53
本公开提供了一种文本属性类别抽取方法、装置、设备及介质,涉及情感分析技术领域。该方法包括:获取待抽取属性类别的文本数据,文本数据中包括多个句子,每个句子包括多个词,每个句子包含的多个词构成每个句子的上下文信息;对于文本数据中的每个句子,筛选出每个句子中满足预设词性的目标词,并计算句子中每个词与目标词之间的感知距离,得到句子中每个词对应的词性感知距离;将文本数据中每个句子包含的多个词以及每个词对应的词性感知距离,输入至预先训练好的属性类别抽取模型中,输出文本数据中每个句子对应的属性类别信息。本公开能够提升属性类别抽取模型的可扩展性和泛化能力。能力。能力。

【技术实现步骤摘要】
文本属性类别抽取方法、装置、设备及介质


[0001]本公开涉及情感分析
,尤其涉及一种文本属性类别抽取方法、装置、设备及介质。

技术介绍

[0002]属性级情感分类是一种细粒度的情感分类任务,文本数据属性类别抽取是属性级情感分析的一项关键子任务,旨在识别句子中情感表述对象所对应的属性类别。
[0003]传统的统计机器学习方法已经脱离了早期利用规则和相关字典来识别句子中属性类别的方法,采用例如支持向量机、隐含狄利克雷分布LDA模型等,在小规模数据集上具有良好的表现。但传统的统计机器学习方法严重依赖于人工设计的特征的质量,耗时耗力的同时还要求标注着具有一定的领域知识,且相关技术在属性一致性方面的能力存在一定不足,其性能尚不能满足人们的需求。
[0004]深度学习自动地学习适合于具体任务的抽象、高阶的语义特征,而无需人工专门的设计特征,但相关技术方法中大量的未进行人工标注的数据以及多种词性感知距离信息未得到有效利用,相关技术模型中建模和捕捉属性类别相关句子的整体语义上的能力也较弱。
[0005]需要说明的是,在上述背景技本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本属性类别抽取方法,其特征在于,包括:获取待抽取属性类别的文本数据,所述文本数据中包括多个句子,每个句子包括多个词,每个句子包含的多个词构成每个句子的上下文信息;对于所述文本数据中的每个句子,筛选出每个句子中满足预设词性的目标词,并计算句子中每个词与目标词之间的感知距离,得到句子中每个词对应的词性感知距离;将所述文本数据中每个句子包含的多个词以及每个词对应的词性感知距离,输入至预先训练好的属性类别抽取模型中,输出所述文本数据中每个句子对应的属性类别信息。2.根据权利要求1所述的文本属性类别抽取方法,其特征在于,所述对于所述文本数据中的每个句子,筛选出每个句子中满足预设词性的目标词,并计算句子中每个词与目标词之间的感知距离,得到句子中每个词对应的词性感知距离,包括:通过依存句法分析方法,得到每个句子中每个词与目标词之间的连接关系;根据每个句子中每个词与目标词之间的连接关系,确定句子中每个词对应的词性感知距离。3.根据权利要求2所述的文本属性类别抽取方法,其特征在于,通过如下公式计算句子中每个词对应的词性感知距离:其中,d
i
表示词性感知距离,l
i
表示句子中第i个词与目标词之间的跳数,min(l
i
)表示当句子中包含多个目标词时,则取句子中第i个单词到多个目标词的跳数中的最小值,num(partofspeech)表示句子中包含的目标词的数量,[pad]表示当句子中没有目标词时的词性感知距离。4.根据权利要求1所述的文本属性类别抽取方法,其特征在于,所述属性类别抽取模型包括:嵌入层、属性类别语义建模层和属性类别计算层,所述嵌入层用于根据每个句子包含的多个词以及每个词对应的词性感知距离,生成句子中每个词对应的词向量以及每个词对应的词性感知距离向量;所述属性类别语义建模层用于根据句子中每个词对应的词向量、每个词对应的词性感知距离向量以及预设词性属性类别相关词的词向量,生成每个句子中每个词对应的属性类别信息;所述属性类别计算层用于根据每个句子中词对应的属性类别信息,生成每个句子的属性类别信息。5.根据权利要求1所述的文本属性类别抽取方法,其特征在于,将所述文本数据中每个句子包含的多个词以及每个词对应的词性感知距离,输入至预先训练好的属性类...

【专利技术属性】
技术研发人员:刘宁
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1