一种考虑种子信息及因果关系的评论有用性预测方法技术

技术编号:37388196 阅读:17 留言:0更新日期:2023-04-27 07:27
本发明专利技术公开了一种考虑种子信息及因果关系的评论有用性预测方法,包括获取评论文本及其对应的非文本数据,从而构建评论数据集D;获取用户评论偏好,从而构建种子主题词分布φ

【技术实现步骤摘要】
一种考虑种子信息及因果关系的评论有用性预测方法


[0001]本专利技术涉及评论有用性预测
,具体涉及一种考虑种子信息及因果关系的评论有用性预测方法。

技术介绍

[0002]互联网的迅猛发展使得在线交互成为一种全球性的日常现象,这为人们的生活带来了极大的便利。与此同时,随之产生的巨量评论文本数据也变得唾手可得。这些数据中蕴含着社会、市场、企业和消费者的行为特征。因此为了使数据价值得以体现,研究人员必须能够提取潜在的数据特征,以衡量、理解并解释其背后所代表的市场行为的原因结果。
[0003]为了从非结构化的评论文本数据中提取潜在的数据特征,研究者提出了主题建模技术。主题建模可以帮助我们从文本中提取隐含的语义信息。但对于营销者而言,单单得到文本的潜在语义特征是不够的,他们更希望从这些特征中获得有价值的用户反馈,并用于改进商品或服务以提升自身核心竞争力。
[0004]但是,现有融合主题模型的评论有用性预测方法存在三个问题。其一,利用传统主题模型从文本数据中提取潜在的数据特征是一个无监督的过程,其最大的局限性在于提取到的数据特征并不总是有意义的或是用户感兴趣的;其二,目前的研究大多关注数据间的相关关系来达到更好的预测结果,忽视了因果关系在干预、预测评论有用性中所起到的关键作用。其三,部分考虑因果关系的评论有用性预测研究多采用双阶段的方法来进行因果推断,但是由于文本本身作为一种估计数据,如果将文本与预测数据分开估计,那么由此产生的因果效果是有偏差的。

技术实现思路

[0005]针对现有技术的不足,本专利技术提供了一种考虑种子信息及因果关系的评论有用性预测方法,以期能解决现有基于文本的因果推断方法无法联合估计评论文本和评论长度、评论评级、整体评级相关数据信息以及无法从文本数据中获得连贯、有意义的主题特征的问题;从而能提高预测准确性,同时基于因果推断的评论有用性预测结果可以有效直接指导营销者进行决策,并能提高决策准确性。
[0006]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0007]本专利技术一种考虑种子信息及因果关系的评论有用性预测方法的特点在于,包括:
[0008]S1、获取评论文本及其对应的非文本数据,从而构建评论数据集D;
[0009]S11、获取评论数据集D中包含K个常规主题的评论文本集合W={W1,W2,

,W
d
,

,W
D
},其中,|D|表示评论文本集合W中评论文本的数量;W
d
表示第d篇评论文本,且w
d,n
表示第d篇评论文本W
d
中的第n个单词,N
d
表示第d篇评论文本W
d
中的单词总数;
[0010]构建评论文本集合W的词典V={w1,...,w
v
,...,w
|V|
},其中,w
v
表示词典V中的第v个单词,|V|表示评论文本集合W中不重复的词汇总数;
[0011]S12、获取评论数据集D中的非文本数据集合U={Y,L,C1,C2},其中,Y表示评论数据集D中的评论有用性评分,且Y={y1,y2,...,y
d
,...,y
|D|
},y
d
表示第d篇评论文本W
d
所对应的评论有用性评分;L表示评论数据集D中的评论长度,且L={l1,l2,...,l
d
,...,l
|D|
},l
d
表示第d篇评论文本W
d
所对应的评论长度;C1表示评论数据集D中的评论评级,且C1={c
1,1
,c
1,2
,...,c
1,d
,...,c
1,|D|
},c
1,d
表示第d篇评论文本W
d
所对应的评论评级;C2表示评论数据集D中的整体评级,且C2={c
2,1
,c
2,2
,...,c
2,d
,...,c
2,|D|
},c
2,d
表示第d篇评论文本W
d
所对应的整体评级;
[0012]S2、获取用户评论偏好,从而构建种子主题词分布φ
s

[0013]S21、基于用户兴趣偏好,按照式(1)生成第k个种子主题下的词分布从而得到所有种子主题下的词分布
[0014][0015]式(1)中,为第k个种子主题对应的狄利克雷分布的先验参数,~表示服从,Dir(
·
)表示狄利克雷分布;K表示主题的数量;
[0016]S3、基于评论数据集D和种子主题词分布φ
s
构建贝叶斯种子主题回归模型;
[0017]S31、定义所有常规主题下的词分布为其中,表示第k个常规主题下的词分布,且满足式(2):
[0018][0019]式(2)中,为第k个常规主题对应的狄利克雷分布的先验参数;
[0020]S32、定义所有评论文本下的主题分布为θ={θ1,...,θ
d
,...,θ
D
},其中,θ
d
表示第d篇评论文本W
d
的主题分布,且θ
d
满足式(3):
[0021]θ
d
~Dir(α
d
)(3)
[0022]式(3)中,α
d
为第d篇评论文本W
d
对应的狄利克雷分布的先验参数;
[0023]S33、按照式(4)生成第d篇评论文本W
d
的第n个词w
d,n
所对应主题z
d,n
,从而得到第d篇评论文本W
d
的主题进而得到评论数据集D的主题集合Z=[z1,

,z
d
,

,z
|D|
];
[0024]z
d,n
~Mult(θ
d
)(4)
[0025]式(6)中,Mul(
·
)表示多项式分布;
[0026]S34、计算第d篇评论文本W
d
的平均主题记为其中,表示第d篇评论文本W
d
中第k个主题的平均结果;从而得到评论数据集D的平均主题
[0027][0028]S35、按照式(5)生成第d篇评论文本text
d
的第n个词w
d,n
所对应主题z
d,n
的指示变量x
d,n

[0029][0030]式(5)中,Beta(
·
)表示贝塔分布,Bern(
·
)表示伯努利分布,表示指示变量x<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种考虑种子信息及因果关系的评论有用性预测方法,其特征在于,包括:S1、获取评论文本及其对应的非文本数据,从而构建评论数据集D;S11、获取评论数据集D中包含K个常规主题的评论文本集合W={W1,W2,

,W
d
,

,W
|D|
},其中,|D|表示评论文本集合W中评论文本的数量;W
d
表示第d篇评论文本,且w
d,n
表示第d篇评论文本W
d
中的第n个单词,N
d
表示第d篇评论文本W
d
中的单词总数;构建评论文本集合W的词典V={w1,...,w
v
,...,w
|V|
},其中,w
v
表示词典V中的第v个单词,|V|表示评论文本集合W中不重复的词汇总数;S12、获取评论数据集D中的非文本数据集合U={Y,L,C1,C2},其中,Y表示评论数据集D中的评论有用性评分,且Y={y1,y2,...,y
d
,...,y
|D|
},y
d
表示第d篇评论文本W
d
所对应的评论有用性评分;L表示评论数据集D中的评论长度,且L={l1,l2,...,l
d
,...,l
|D|
},l
d
表示第d篇评论文本W
d
所对应的评论长度;C1表示评论数据集D中的评论评级,且C1={c
1,1
,c
1,2
,...,c
1,d
,...,c
1,|D|
},c
1,d
表示第d篇评论文本W
d
所对应的评论评级;C2表示评论数据集D中的整体评级,且C2={c
2,1
,c
2,2
,...,c
2,d
,...,c
2,|D|
},c
2,d
表示第d篇评论文本W
d
所对应的整体评级;S2、获取用户评论偏好,从而构建种子主题词分布φ
s
;S21、基于用户兴趣偏好,按照式(1)生成第k个种子主题下的词分布从而得到所有种子主题下的词分布种子主题下的词分布式(1)中,为第k个种子主题对应的狄利克雷分布的先验参数,~表示服从,Dir(
·
)表示狄利克雷分布;K表示主题的数量;S3、基于评论数据集D和种子主题词分布φ
s
构建贝叶斯种子主题回归模型;S31、定义所有常规主题下的词分布为其中,表示第k个常规主题下的词分布,且满足式(2):式(2)中,为第k个常规主题对应的狄利克雷分布的先验参数;S32、定义所有评论文本下的主题分布为θ={θ1,...,θ
d
,


|D|
},其中,θ
d
表示第d篇评论文本W
d
的主题分布,且θ
d
满足式(3):θ
d
~Dir(α
d
)(3)式(3)中,α
d
为第d篇评论文本W
d
对应的狄利克雷分布的先验参数;S33、按照式(4)生成第d篇评论文本W
d
的第n个词w
d,n
所对应主题z
d,n
,从而得到第d篇评论文本W
d
的主题进而得到评论数据集D的主题集合Z=[z1,

,z
d
,

,z
|D|
];z
d,n
~Mult(θ
d
)(4)式(6)中,Mul(
·
)表示多项式分布;S34、计算第d篇评论文本W
d
的平均主题记为其中,表示第d篇评论文本W
d
中第k个主题的平均结果;从而得到评论数据集D的平均主题
S35、按照式(5)生成第d篇评论文本text
d
的第n个词w
d,n
所对应主题z
d,...

【专利技术属性】
技术研发人员:姜元春张萌钱洋刘业政
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1