观点抽取方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:36544809 阅读:46 留言:0更新日期:2023-02-04 16:56
本申请实施例提供了一种观点抽取方法、装置、电子设备及计算机存储介质,其中,观点抽取方法包括:根据待抽取文本对应的编码向量,抽取所述待抽取文本的属性词;根据抽取的属性词对应的向量序列与所述待抽取文本的编码向量,得到所述属性词对应的观点词;基于所述属性词对应的向量序列和所述观点词对应的向量序列,获得所述待抽取文本对应的属性类别和观点极性。通过本申请实施例,实现了高效、快速地对有内容的待抽取文本的处理,并可获取准确、有效的观点信息。的观点信息。的观点信息。

【技术实现步骤摘要】
观点抽取方法、装置、电子设备及计算机存储介质


[0001]本申请实施例涉及计算机
,尤其涉及一种观点抽取方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]随着互联网技术的发展,人们越来越多地在网上进行生产和生活活动。在此过程中,对生产或生活活动中涉及到的事物或信息发表观点、进行评论成为不可或缺的一部分。
[0003]例如,电子商务场景中,电子商务平台可能每天会产生千万条包含用户观点的数据如评论数据等,其中有内容的该类数据可达20%以上。而在其它场景,如问答社区场景、寻医问药场景、多媒体播放场景、技术交互社区场景,等等多种场景中,有内容的该类数据占比更多。在这些场景中,包含用户观点的数据是信息消费用户做出决策的重要参考,也是信息提供用户了解信息消费用户反馈的重要渠道。
[0004]因此,如何高效、快速地对这些有内容的包含用户观点的数据进行处理,获取有效信息,成为亟待解决的问题。

技术实现思路

[0005]有鉴于此,本申请实施例提供一种观点抽取方案,以至少部分解决上述问题。
[0006]根据本申请实施例的第一方面,提供了一种观点抽取方法,包括:根据待抽取文本对应的编码向量,抽取所述待抽取文本中的属性词;根据抽取的属性词对应的向量序列与所述待抽取文本的编码向量,得到所述属性词对应的观点词;基于所述属性词对应的向量序列和所述观点词对应的向量序列,获得所述待抽取文本对应的属性类别和观点极性。
[0007]根据本申请实施例的第二方面,提供了一种观点抽取装置,包括:提取模块,用于根据待抽取文本对应的编码向量,抽取所述待抽取文本中的属性词;观点模块,用于根据抽取的属性词对应的向量序列与所述待抽取文本的编码向量,得到所述属性词对应的观点词;获取模块,用于基于所述属性词对应的向量序列和所述观点词对应的向量序列,获得所述待抽取文本对应的属性类别和观点极性。
[0008]根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的观点抽取方法对应的操作。
[0009]根据本申请实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的观点抽取方法。
[0010]根据本申请实施例提供的观点抽取方案,通过对待抽取文本进行属性词提取、观点词提取、以及获得属性类别和观点极性,可以获得有效表征待抽取文本的属性观点四元组,即(属性词,观点词,属性类别,观点极性),基于该属性观点四元组,即可确定待抽取文本所携带的有效信息。
[0011]此外,本申请实施例提供的观点抽取方案中,将获得该属性观点四元组的任务处理为级连任务,依次获得属性词、观点词、属性类别和观点极性。由此,对待抽取文本进行一次编码获得对应的编码向量即可,无需像传统的多分支任务时,每个分支处理均需对待抽取文本进行编码,大大提高了编码向量的利用率,降低了数据处理负担,提高了数据处理速度。
[0012]可见,通过本申请实施例提供的观点抽取方案,实现了高效、快速地对有内容的待抽取文本的处理,并可获取准确、有效的观点信息。
附图说明
[0013]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0014]图1为根据本申请实施例一的一种观点抽取方法的步骤流程图;
[0015]图2A为根据本申请实施例二的一种观点抽取方法的步骤流程图;
[0016]图2B为图2A所示实施例使用的一种观点抽取神经网络模型结果及其处理过程的示意图;
[0017]图3为根据本申请实施例三的一种观点抽取装置的结构框图;
[0018]图4为根据本申请实施例四的一种电子设备的结构示意图。
具体实施方式
[0019]为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0020]下面结合本申请实施例附图进一步说明本申请实施例具体实现。
[0021]实施例一
[0022]参照图1,示出了根据本申请实施例一的一种观点抽取方法的步骤流程图。
[0023]本实施例的数据处理方法包括以下步骤:
[0024]步骤S102:根据待抽取文本对应的编码向量,抽取待抽取文本的属性词。其中,待抽取文本可以是针对任意适当对象(包括但不限于:商品、多媒体、博客文章等)的、包含用户观点的数据,包括但不限于评论数据。本申请实施例中,待抽取文本的最终形式为文本数据,基于此,若原始数据为非文本数据,可将其先转换为文本数据即可。
[0025]对待抽取文本的编码可采用适当方式实现,如通过编码器对待抽取文本对应的文本向量进行编码,获得对应的编码向量等。
[0026]本申请实施例中,在获得了待抽取文本对应的编码向量后,会对其进行属性词提取。以针对商品的待抽取文本为例,“衣服料子不错,滑滑的”,其中“衣服料子”或“料子”为属性词;再例如,“米粉味道正宗”,则“米粉味道”或者“味道”为属性词。可见,所述属性词可用于表征文本中的目标对象的属性。在实际应用中,本领域技术人员可根据实际应用需求
和具体的文本中的目标对象情况,设定待抽取文本的属性词范围。基于编码向量对待抽取文本的属性词提取可采用适当方式实现,包括但不限于神经网络模型如指针网络模型或seq2seq网络模型等。基于此种情况,提取出的属性词通常为向量序列形式。
[0027]步骤S104:根据抽取的属性词对应的向量序列与所述待抽取文本的编码向量,得到所述属性词对应的观点词。
[0028]一般来说,一个待抽取文本中通常包括至少一个属性词,针对每个属性词对应有至少一个观点词。所述观点词用于表征用户对待抽取文本对应的目标对象的某种属性所持有的观点。例如,“衣服料子不错,滑滑的”,其中“衣服料子”或“料子”为属性词,“不错”为对应的观点词;再例如,“米粉味道正宗”,则“米粉味道”或者“味道”为属性词,“正宗”为对应的观点词。因此,在获得了属性词后,可基于属性词的向量序列和待抽取文本的编码向量获得属性词对应的观点词,通常也为向量序列。因综合考虑了属性词和整个待抽取文本的信息,因此,获得的属性词对应的观点词将更为准确。
[0029]在一种可行方式中,可以将抽取的属性词对应的向量序列与待抽取文本的编码向量进行融合,获得待抽取文本对应的融合特征向量;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种观点抽取方法,包括:根据待抽取文本的编码向量,抽取所述待抽取文本中的属性词;根据抽取的属性词对应的向量序列与所述待抽取文本的编码向量,得到所述属性词对应的观点词;基于所述属性词对应的向量序列和所述观点词对应的向量序列,获得所述待抽取文本对应的属性类别和观点极性。2.根据权利要求1所述的方法,其中,所述方法还包括:根据所述属性词、所述观点词、所述属性类别和所述观点极性,生成所述待抽取文本对应的属性观点信息。3.根据权利要求1所述的方法,其中,所述观点抽取方法通过观点抽取神经网络模型实现;所述观点抽取神经网络模型包括:用于生成编码向量的编码器部分、用于进行属性词提取的第一提取部分、用于进行观点词提取的第二提取部分、用于进行特征向量融合的融合层部分、和用于输出属性类别和观点极性的分类输出部分。4.根据权利要求3所述的方法,其中,所述编码器部分为BERT编码器,所述第一提取部分为第一指针网络,所述第二提取部分为第二指针网络。5.根据权利要求3所述的方法,其中,所述融合层部分为基于多头注意力机制的融合层部分。6.根据权利要求3

5任一项所述的方法,其中,所述根据待抽取文本的编码向量,抽取所述待抽取文本中的属性词之前,所述方法还包括:使用训练样本,对所述观点抽取神经网络模型进行多任务联合训练。7.根据权利要求6所述的方法,其中,所述使用训练样本,对所述观点抽取神经网络模型进行多任务联合训练,...

【专利技术属性】
技术研发人员:赵富邦林君赵露君康杨杨孙常龙
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1