数据驱动的汽车属性观点因果追溯方法技术

技术编号:39580560 阅读:15 留言:0更新日期:2023-12-03 19:31
本发明专利技术提供一种数据驱动的汽车属性观点因果追溯方法

【技术实现步骤摘要】
数据驱动的汽车属性观点因果追溯方法


[0001]本专利技术涉及数据处理
,具体涉及一种数据驱动的汽车属性观点因果追溯方法

系统

存储介质和电子设备


技术介绍

[0002]社交评论总文本是企业了解用户需求的重要来源,然而,由于在线产品评论数据存在价值稀疏

内容碎片

信息冗余等特点,导致消费者和企业无法快速

全面

准确地掌握用户反馈的产品信息

用户语言表达通常较为随意,导致在线产品评论文本内容维度不相同

层次不统一,通过社交评论数据挖掘产品属性观点间层次结构关系,能够帮助企业发现用户粗粒度观点下的深层次原因,实现观点的因果关系追溯,从而制定更精确的产品研发改进策略

[0003]建立产品属性层次关系结构网络是构建观点间层次关系的前提,已有研究主要依据

比如





等模式借助大量文本语料库进行实体间层次关系识别,但是用户产品描述中很少存在类似模式,难以仅依靠模式提取产品属性层次关系;观点挖掘方面,已有研究主要采取依存句法分析

动态窗口抽取等方法集中于情感提取和分类领域,而忽略了观点背后更深层次的原因

实际上属性观点间存在内在的紧密关系,如评论“外观很大气,尤其是车头较宽,很符合我的审美”,可以发现,用户评论“外观”观点为“大气”的更深层次原因为“车头”“较宽”,由此可见,观点间是具有关联性的,观点关联性的提取是情感分析领域研究的新方向,是对情感的一种追根溯源,究其背后的具体原因有助于帮助企业定位到属性具体表现从而进行产品优化设计


技术实现思路

[0004](

)
解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了一种数据驱动的汽车属性观点因果追溯方法

系统

存储介质和电子设备,解决了忽略属性观点间存在内在的紧密关系的技术问题

[0006](

)
技术方案
[0007]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0008]一种数据驱动的汽车属性观点因果追溯方法,包括:
[0009]S1、
根据针对待分析汽车的社交评论总文本,获取汽车属性以及对应的属性观点;
[0010]S2、
识别汽车属性层次关系,包括:
[0011]S21、
根据各所述汽车属性,获取可能存在潜在层次关系的属性对;
[0012]S22、
根据所述社交评论总文本,提取所述属性对的各项汽车属性层次关系特征;
[0013]S23、
将汽车属性层次关系特征作为预先训练好的决策树分类模型的输入,获取每一所述属性对中两个属性之间的层次关系;
[0014]S3、
构建汽车属性层次结构网络,包括:
[0015]根据四元组构建汽车属性层次结构网络,其中所述四元组由属性对

相应的层次
关系和关系权重构成;
[0016]S4、
追溯属性观点因果关系,包括:
[0017]基于生成的汽车属性层次结构网络建立观点间层次关系,形成初步的观点因果关系追溯路径,筛选获取其中的强连接路径;根据各强连接路径,测量观点间的因果关联强度

[0018]优选的,所述
S21
中:
[0019]对任意两个属性进行组合,计算每一组合中两个属性的共现频率:
[0020][0021]其中,
P(AB)
为任一属性对中汽车属性
A
和汽车属性
B
的共现频率;
N(S)
为社交评论总文本
S
的数据总量,
N(AB)
为汽车属性
A
和汽车属性
B
共现的评论数量;
[0022]计算每一组合中两个属性的点互信息:
[0023][0024]其中,
PMI(A,B)
为汽车属性
A
和汽车属性
B
的点互信息;
[0025]当所述共现频率和点互信息均满足相应阈值时,判断该组合为可能存在潜在层次关系的属性对

[0026]优选的,所述
S22
中各项汽车属性层次关系特征包括:
[0027](1)
频率类特征:
[0028](1.1)A、B
单独出现在社交评论总文本
S
的频率差值,表示为
f1=
P(A)


P(B)


[0029](1.2)A、B
单独出现在
S
的频率商值,表示为
[0030](1.3)A、B
条件概率差值,表示为
f3=
P(A|B)

P(B|A)

[0031]其中,
P(A)

、P(B)

分别表示
A、B
单独出现在
S
的频率;
P(A|B)
表示
B
单独出现在
S
发生的条件下
A
单独出现在
S
的条件概率,
P(B|A)
表示
A
单独出现在
S
发生的条件下
B
单独出现在
S
的条件概率;
[0032](2)
位置类特征:
[0033](2.1)A、B
在第
i
个社交评论文本段落
s
i
中出现在前的频率差值,表示为
f4=
P(A)


P(B)


[0034](2.2)A、B

s
i
中出现在前的频率商值,表示为
[0035]其中,
P(A)

、P(B)

分别表示
A、B

s
i
中出现在前的频率;
[0036](3)
语义类特征:
[0037](3.1)A&B

B&A
的频率差值,表示为
f6=
P(A&B)

P(B&A)

[0038](3.2)A&B
...

【技术保护点】

【技术特征摘要】
1.
一种数据驱动的汽车属性观点因果追溯方法,其特征在于,包括:
S1、
根据针对待分析汽车的社交评论总文本,获取汽车属性以及对应的属性观点;
S2、
识别汽车属性层次关系,包括:
S21、
根据各所述汽车属性,获取可能存在潜在层次关系的属性对;
S22、
根据所述社交评论总文本,提取所述属性对的各项汽车属性层次关系特征;
S23、
将汽车属性层次关系特征作为预先训练好的决策树分类模型的输入,获取每一所述属性对中两个属性之间的层次关系;
S3、
构建汽车属性层次结构网络,包括:根据四元组构建汽车属性层次结构网络,其中所述四元组由属性对

相应的层次关系和关系权重构成;
S4、
追溯属性观点因果关系,包括:基于生成的汽车属性层次结构网络建立观点间层次关系,形成初步的观点因果关系追溯路径,筛选获取其中的强连接路径;根据各强连接路径,测量观点间的因果关联强度
。2.
如权利要求1所述的基于社交评论数据的汽车属性观点因果关系挖掘方法,其特征在于,所述
S21
中:对任意两个属性进行组合,计算每一组合中两个属性的共现频率:其中,
P(AB)
为任一属性对中汽车属性
A
和汽车属性
B
的共现频率;
N(S)
为社交评论总文本
S
的数据总量,
N(AB)
为汽车属性
A
和汽车属性
B
共现的评论数量;计算每一组合中两个属性的点互信息:其中,
PMI(A,B)
为汽车属性
A
和汽车属性
B
的点互信息;当所述共现频率和点互信息均满足相应阈值时,判断该组合为可能存在潜在层次关系的属性对
。3.
如权利要求1所述的数据驱动的汽车属性观点因果追溯方法,其特征在于,所述
S22
中各项汽车属性层次关系特征包括:
(1)
频率类特征:
(1.1)A、B
单独出现在社交评论总文本
S
的频率差值,表示为
f1=
P(A)


P(B)


(1.2)A、B
单独出现在
S
的频率商值,表示为
(1.3)A、B
条件概率差值,表示为
f3=
P(A|B)

P(B|A)
;其中,
P(A)

、P(B)

分别表示
A、B
单独出现在
S
的频率;
P(A|B)
表示
B
单独出现在
S
发生的条件下
A
单独出现在
S
的条件概率,
P(B|A)
表示
A
单独出现在
S
发生的条件下
B
单独出现在
S
的条件概率;
(2)
位置类特征:
(2.1)A、B
在第
i
个社交评论文本段落
s
i
中出现在前的频率差值,表示为
f4=
P(A)


P
(B)


(2.2)A、B

s
i
中出现在前的频率商值,表示为其中,
P(A)

、P(B)

分别表示
A、B

s
i
中出现在前的频率;
(3)
语义类特征:
(3.1)A&B

B&A
的频率差值,表示为
f6=
P(A&B)

P(B&A)

(3.2)A&B

B&A
的频率商值,表示为
(3.3)A$B
的频率值,表示为
f8=
P(A$B)
;其中,
&
为层次语义模式
{


比如

尤其是

包括
}

P(A&B)、P(B&A)
表示
A

B、B

A
存在层次语义模式的频率;
$
为并列语义模板
{





}

P...

【专利技术属性】
技术研发人员:张强吴思雨王安宁唐莫默张伟佳赵爽耀唐孝安彭张林
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1