基于评论有用性投票的低频短语提取方法和系统技术方案

技术编号:37963079 阅读:17 留言:0更新日期:2023-06-30 09:38
本发明专利技术涉及神经网络技术领域,公开一种基于评论有用性投票的低频短语提取方法,包括获取评论数据集,分割所述评论数据集得到候选短语,过滤所述候选短语得到低频候选短语;提取低频候选短语中与主题相关的短语,根据与主题相关的短语在评论数据集中的上下文信息对低频候选短语进行评分,根据评分判断低频候选短语与主题的相关性,实现评论有用性投票的低频短语提取。本发明专利技术可以有效利用上下文信息从大量评论中找到出现低频但有价值的短语信息。量评论中找到出现低频但有价值的短语信息。量评论中找到出现低频但有价值的短语信息。

【技术实现步骤摘要】
基于评论有用性投票的低频短语提取方法和系统


[0001]本专利技术涉及神经网络
,尤其是指一种基于评论有用性投票的低频短语提取方法和系统。

技术介绍

[0002]在互联网及电子商务平台的迅速发展过程中,在线评论的有用性成为影响消费者决策的一大重要影响因素。在线评论是用户在体验商业产品和服务后的评估和体验,并为其他用户提供有价值的信息。用户可以通过在线评论了解商家的产品和服务,这有助于他们做出更好的消费决策,并降低产品和服务的参考成本。有研究发现,75%的消费者在餐厅用餐、旅游住宿、购买商品、亲子游乐场等多项消费之前,会参考互联网上的用户体验后的评论信息,淘宝、京东、美团、去哪儿等平台的用户也是如此。
[0003]由于网络的开放性,发布在线评论的成本很低,许多垃圾邮件和虚假信息使得评论中的信息质量参差不齐,评论数量多、噪音大,导致有用信息难以区分。而且,现阶段的评论方式有很多,语言表达也不同,有些评论并不能给用户带来有用的参考价值,如何从大量评论中找到有价值的信息是现阶段的重点和难点。低频短语指出现次数少的短语,但是有用信息往往以低频短语的形式出现,低频短语的识别和提取为大众所面临的一大困难,它主要存在以下三个问题:
[0004](1)低频短语的各个部分之间的内聚性弱,无法计算它们之间的互信息。
[0005](2)由于低频短语之间的组合从概率的角度评价具有随机性,难以采用标注的方式来使用机器学习的方法。
[0006](3)低频短语也存在表示方面的问题,由于出现次数少,缺少上下文信息,难以通过现有表示方法(如:Word2Vector)来对其进行表示。
[0007]基于以上问题,目前仍没有较多关于评论有效性投票方面的方法。

技术实现思路

[0008]为此,本专利技术所要解决的技术问题在于克服现有技术中的不足,提供一种基于评论有用性投票的低频短语提取方法和系统,可以有效利用上下文信息从大量评论中找到出现低频但有价值的短语信息。
[0009]为解决上述技术问题,本专利技术提供了一种基于评论有用性投票的低频短语提取方法,包括:
[0010]获取评论数据集,分割所述评论数据集得到候选短语,过滤所述候选短语得到低频候选短语;
[0011]提取低频候选短语中与主题相关的短语,根据与主题相关的短语在评论数据集中的上下文信息对低频候选短语进行评分,根据评分判断低频候选短语与主题的相关性,实现评论有用性投票的低频短语提取。
[0012]在本专利技术的一个实施例中,分割所述评论数据集得到候选短语,具体为:
[0013]通过文本分析工具找出评论数据集中的评论里的边界词,根据边界词分割评论生成候选短语。
[0014]在本专利技术的一个实施例中,分割所述评论数据集得到候选短语,具体为:
[0015]使用神经网络模型将数据集中的评论中的词映射到带语义的向量空间,根据词义将向量空间中的词进行聚类得到候选短语。
[0016]在本专利技术的一个实施例中,过滤所述候选短语得到低频候选短语,具体为:
[0017]将每个候选短语所对应的短语的出现数量作为标签,根据标签进行排序挑选出低频候选短语。
[0018]在本专利技术的一个实施例中,所述根据与主题相关的短语在评论数据集中的上下文信息对低频候选短语进行评分,具体为:
[0019]生成低频候选短语对应的向量表示V
i
,根据向量表示V
i
和评论数据集中的上下文信息计算低频候选短语的评分Scoring。
[0020]在本专利技术的一个实施例中,所述向量表示V
i
的计算方法为:
[0021][0022]式中,P
i
表示所有的低频候选短语集合,W
i
表示构成当前的低频候选短语中的单词,表示单词W
i
在评论数据集中的上下文信息所构成的向量,|| ||1表示一次范数。
[0023]在本专利技术的一个实施例中,所述低频候选短语的评分Scoring的计算方法为:
[0024][0025]式中,V
b
为用评论数据集中的全部词频生成的背景向量,V
t
为评论数据集聚类后人工选择的评论簇所生产的词频向量,|| ||2表示二次范数。
[0026]在本专利技术的一个实施例中,所述根据评分判断低频候选短语与主题的相关性,实现评论有用性投票的低频短语提取,具体为:
[0027]根据评分Scoring的值的大小挑选出预设数量的低频候选短语作为与主题相关性强的短语,实现评论有用性投票的低频短语提取。
[0028]本专利技术还提供了一种基于评论有用性投票的低频短语提取系统,包括数据获取模块、候选短语分割模块、低频候选短语获取模块、低频候选短语评分模块、有用性投票的低频短语提取模块,
[0029]所述数据获取模块获取评论数据集,将所述评论数据集传送给所述候选短语分割模块和所述低频候选短语评分模块;
[0030]所述候选短语分割模块分割所述评论数据集得到候选短语,将所述候选短语传送给所述低频候选短语获取模块;
[0031]所述低频候选短语获取模块过滤所述候选短语得到低频候选短语,将所述低频候选短语传送给所述低频候选短语评分模块;
[0032]所述低频候选短语评分模块提取低频候选短语中与主题相关的短语,根据与主题相关的短语在评论数据集中的上下文信息对低频候选短语进行评分,将评分传送给所述有
用性投票的低频短语提取模块;
[0033]所述有用性投票的低频短语提取模块根据评分判断低频候选短语与主题的相关性,实现评论有用性投票的低频短语提取。
[0034]本专利技术还提供了一种基于评论有用性投票的低频短语提取设备,包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的基于评论有用性投票的低频短语提取方法的步骤。
[0035]本专利技术的上述技术方案相比现有技术具有以下优点:
[0036]本专利技术通过从评论中提取并识别低频候选短语,并在此基础上判断低频候选短语与主题间的相关性得到评论中具有有用性投票的短语,有效利用上下文信息从大量评论中找到出现低频但有价值的信息,可以更好地解决目前评论中信息量大、查找感兴趣的主题困难、后期信息利用率低等问题,便于用户容易且方便的查找有用性信息。
附图说明
[0037]为了使本专利技术的内容更容易被清楚的理解,下面根据本专利技术的具体实施例并结合附图,对本专利技术作进一步详细的说明,其中:
[0038]图1是本专利技术的结构示意图,
[0039]图2是本专利技术的流程图,
[0040]图3是本专利技术实施例中生成候选短语时的短语类型输出结果图,
[0041]图4是本专利技术实施例中过滤短语的结果图。
具体实施方式
[0042]下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域的技术人员可以更好地理解本专利技术并能予本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于评论有用性投票的低频短语提取方法,其特征在于,包括:获取评论数据集,分割所述评论数据集得到候选短语,过滤所述候选短语得到低频候选短语;提取低频候选短语中与主题相关的短语,根据与主题相关的短语在评论数据集中的上下文信息对低频候选短语进行评分,根据评分判断低频候选短语与主题的相关性,实现评论有用性投票的低频短语提取。2.根据权利要求1所述的基于评论有用性投票的低频短语提取方法,其特征在于:分割所述评论数据集得到候选短语,具体为:通过文本分析工具找出评论数据集中的评论里的边界词,根据边界词分割评论生成候选短语。3.根据权利要求1所述的基于评论有用性投票的低频短语提取方法,其特征在于:分割所述评论数据集得到候选短语,具体为:使用神经网络模型将数据集中的评论中的词映射到带语义的向量空间,根据词义将向量空间中的词进行聚类得到候选短语。4.根据权利要求1所述的基于评论有用性投票的低频短语提取方法,其特征在于:过滤所述候选短语得到低频候选短语,具体为:将每个候选短语所对应的短语的出现数量作为标签,根据标签进行排序挑选出低频候选短语。5.根据权利要求1所述的基于评论有用性投票的低频短语提取方法,其特征在于:所述根据与主题相关的短语在评论数据集中的上下文信息对低频候选短语进行评分,具体为:生成低频候选短语对应的向量表示V
i
,根据向量表示V
i
和评论数据集中的上下文信息计算低频候选短语的评分Scoring。6.根据权利要求5所述的基于评论有用性投票的低频短语提取方法,其特征在于:所述向量表示V
i
的计算方法为:式中,P
i
表示所有的低频候选短语集合,W
i
表示构成当前的低频候选短语中的单词,表示单词W
i
在评论数据集中的上下文信息所构成的向量,||||1表示一次范数...

【专利技术属性】
技术研发人员:刘莎
申请(专利权)人:苏州工业园区职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1