情感信息提取方法、装置及设备制造方法及图纸

技术编号:36609473 阅读:18 留言:0更新日期:2023-02-08 09:56
本说明书提供一种情感信息提取方法、装置及设备。所述方法可以包括:遍历指定语句中的词,以提取所述指定语句对应的词组;其中,所述词组至少包括所述指定语句中的至少一个词,且所述词组中的各词在所述指定语句中的词位连续;基于所述词组在各词组类型下的预测值,确定所述词组所属的词组类型;所述词组类型包括主体、观点;以词组类型为主体的词组作为主体词组、词组类型为观点的词组作为观点词组,并对所述主体词组与所述观点词组进行配对,得到主体

【技术实现步骤摘要】
情感信息提取方法、装置及设备


[0001]本说明书涉及情感分析
,尤其涉及一种情感信息提取方法、装置及设备。

技术介绍

[0002]随着电商的蓬勃发展,买家能方便地在电子商务平台上购买商品或服务,并发表对商品或者服务的评论。如果能从该评论数据中抽取出用户对商品或服务评论中所表达的情感信息,则可以更加快速有效地帮助其他买家寻求优质产品、或帮助生产者分析产品的优缺点。
[0003]早期的情感信息提取工作集中于ASC,ASC研究的前提是主体词已经被提供。然而在大多数情况下这个条件不太容易满足。主体、情感词以及主体情感倾向的三元抽取(ASTE)是基于实体的情感分析(ABSA)所提出的方法之一,该方法主要是从评论句中抽取主体词、情感词和主体情感倾向来形成三元组。三元组所表达的情感信息能提供可解释的情感证据,比语句级别的情感分析更可靠,由此也可以帮助平台建立更准确的产品推荐、或帮助商家更全面的分析产品特征。

技术实现思路

[0004]本说明书实施方式提供一种情感信息提取方法、装置及设备,可以大幅提高情感信息提取的准确性及效率。
[0005]本说明书实施方式提供一种情感信息提取方法,包括:遍历指定语句中的词,以提取所述指定语句对应的词组;其中,所述词组至少包括所述指定语句中的至少一个词,且所述词组中的各词在所述指定语句中的词位连续;基于所述词组在各词组类型下的预测值,确定所述词组所属的词组类型;所述词组类型包括主体、观点;以词组类型为主体的词组作为主体词组、词组类型为观点的词组作为观点词组,并对所述主体词组与所述观点词组进行配对,得到主体

观点词组对;预测所述主体

观点词组对的情感倾向,以利用所述主体

观点词组对及对应的情感倾向表征所述指定语句的情感信息。
[0006]本说明书实施方式提供一种情感信息提取装置,包括:词组提取模块,用于遍历指定语句中的词,以提取所述指定语句对应的词组;其中,所述词组至少包括所述指定语句中的至少一个词,且所述词组中的各词在所述指定语句中的词位连续;词组类型确定模块,用于基于所述词组在各词组类型下的预测值,确定所述词组所属的词组类型;所述词组类型包括主体、观点;词组配对模块,用于以词组类型为主体的词组作为主体词组、词组类型为观点的词组作为观点词组,并对所述主体词组与所述观点词组进行配对,得到主体

观点词组对;情感倾向预测模块,用于预测所述主体

观点词组对的情感倾向,以利用所述主体

观点词组对及对应的情感倾向表征所述指定语句的情感信息。
[0007]本说明书实施方式提供一种电子设备,所述设备包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现任意一个或多个实施例所述方法的步骤。
[0008]本说明书实施方式提供一种提取用于表征情感信息的三元组的方法,在执行三元组抽取时充分考虑了表征主体或观点的完整词组在指定语句中的相互作用,以表征主体或观点的完整词组的语义作为情感信息提取的输入,可以进一步确保情感倾向预测的一致性,进而提高情感信息提取的准确性。进一步的,通过主体抽取算法、观点提取算法双通道进行词组类型预测,再结合两个通道的预测结果进行主体词组和观点词组的提取,可以更准确地区分表征主体及观点的词组,提高表征主体或观点的完整词组提取的准确性,并降低后续情感倾向预测时所基于的数据量,提高整体数据处理的效率。
附图说明
[0009]所包括的附图用来提供对本说明书实施方式的进一步的理解,其构成了说明书的一部分,用于例示本说明书的实施方式,并与文字描述一起来阐释本说明书的原理。显而易见地,下面描述中的附图仅仅是本说明书的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。在附图中:
[0010]图1为本说明书实施方式提供的一个情感信息提取流程示意图;
[0011]图2为本说明书实施方式提供的情感信息提取结果比对示意图;
[0012]图3为本说明书实施方式提供的情感信息提取结果比对示意图;
[0013]图4为本说明书实施方式提供的一种情感信息提取方法的流程示意图;
[0014]图5为本说明书实施方式提供的一种情感信息提取装置的模块结构示意图;
[0015]图6为本说明书实施方式提供的一种电子设备的模块结构示意图。
具体实施方式
[0016]为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施方式中的附图,对本说明书实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本说明书一部分实施方式,而不是全部的实施方式。基于本说明书中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都应当属于本说明书保护的范围。
[0017]如图1所示,在一个场景示例中,用户可以通过用户客户端上的浏览器访问电子商务平台的网站或者登录电子商务平台的应用程序,购买商品或服务,并发表对商品或者服务的评论。例如,评论语句为“Did not enjoy the new Windows 8and touchscreen functions”。电子商务平台的服务器可以获取该评论语句,并从该评论语句中抽取出用户对商品或服务评论中所表达的情感信息。
[0018]本场景示例中,可以从评论语句中提取主体词组、观点词组以及情感倾向,形成三元组,利用该三元组来表达评论语句中所包含的情感信息。其中,词组可以包括评论语句中的至少一个词。
[0019]主体可以是指用户具体评论的对象或特性,如商品或服务的某个属性等。主体词组可以为评论语句中描述评论的对象或特性的词组。假设评论语句“Did not enjoy the new Windows 8and touchscreen functions”所针对的商品为电脑,则“Windows 8”、“touchscreen functions”为描述电脑的系统属性、屏幕属性的主体词组。
[0020]观点可以是指用户对对象或特性的评论。观点词组可以为评论语句中用户对主体
进行评论的词组。如“not enjoy”即为对主体“Windows 8”、“touchscreen functions”进行评论的观点词组。
[0021]情感倾向可以用来描述用户对主体评论的情感极性特征。例如,可以将用户对主体的评论分为鲜明的情感倾向或中性的情感倾向;进一步的,还可以将鲜明的情感倾向细分为积极的情感倾向、消极的情感倾向。例如,评论语句“Did not enjoy the new Windows 8and touchscreen functions”中所体现出的用户对主体“Windows 8”、“touchscreen functions”的情感倾向可以认为是消极的情感倾向。当然,情感倾向的类型和划分方式可以根据需要配置,这里不做限定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种情感信息提取方法,其特征在于,包括:遍历指定语句中的词,以提取所述指定语句对应的词组;其中,所述词组至少包括所述指定语句中的至少一个词,且所述词组中的各词在所述指定语句中的词位连续;基于所述词组在各词组类型下的预测值,确定所述词组所属的词组类型;所述词组类型包括主体、观点;以词组类型为主体的词组作为主体词组、词组类型为观点的词组作为观点词组,并对所述主体词组与所述观点词组进行配对,得到主体

观点词组对;预测所述主体

观点词组对的情感倾向,以利用所述主体

观点词组对及对应的情感倾向表征所述指定语句的情感信息。2.根据权利要求1所述的方法,其特征在于,基于所述词组在各词组类型下的预测值,确定所述词组所属的词组类型,包括:利用主体抽取算法对所述词组进行处理,得到所述词组在词组类型为主体下的第一预测分数;利用观点抽取算法对所述词组进行处理,得到所述词组在词组类型为观点下的第二预测分数;基于所述第一预测分数及第二预测分数确定所述词组所属的词组类型。3.根据权利要求1所述的方法,其特征在于,所述词组的特征利用词组中的开始词的特征、结束词的特征及词组宽度特征表征。4.根据权利要求3所述的方法,其特征在于,所述词组宽度特征利用词组所包含的单词数量相对所述指定语句所包含的单词总量的占比表征。5.根据权利要求1所述的方法,其特征在于,所述主体

观点词组对的特征利用主体

观点词组对中的主体词组的特征、观点词组的特征、主体词组与观点词组之间的距离特征表征。6.根据权利要求5所述的方法,其特征在于,所述主体词组与观点词组之间的距离特征采用下述方式提取:提取所述主体词组的开始词、结束词在指定语句中的第一词位信息、第二词位信息,及所述观点词组的开始词、结束词在指定语句...

【专利技术属性】
技术研发人员:许璐谢耀赓邴立东
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1