一种辅助工具的评论分析方法和装置制造方法及图纸

技术编号:38462080 阅读:7 留言:0更新日期:2023-08-11 14:39
本发明专利技术涉及一种辅助工具的评论分析方法和装置,属于计算机处理技术领域,解决了现有方法无法突出样本中的方面信息,不考虑样本的方面信息会导致模型在拟合侧重点不同的句子时加大重组误差,影响学习效果等的问题。该方法包括:利用方面提取模型对辅助工具的评价句子进行方面提取以获得辅助工具按方面分类的评价句子,其中,对辅助工具的评价句子进行方面提取以获得辅助工具按方面分类的评价句子进一步包括:根据方面相关的关键词计算评价句子属于每个方面的概率分布;利用BERT模型对按方面分类的评价句子进行情感分类和摘要提取以获得辅助工具的不同方面的方面级总结。通过方面提取既节省了人工标注成本,又能输出与关键词内容相关的方面。键词内容相关的方面。键词内容相关的方面。

【技术实现步骤摘要】
一种辅助工具的评论分析方法和装置


[0001]本专利技术涉及计算机处理
,尤其涉及一种辅助工具的评论分析方法和装置。

技术介绍

[0002]传统的开源项目开发中,代码的提交、检查、测试、集成、部署等工作均需要人工完成。近年来,越来越多的开源项目使用辅助工具来自动化地协助开发者完成这些工作。例如,Travis等持续集成类辅助工具可以帮助项目自动合并代码、自动编译、运行测试。Codacy等静态分析工具检查代码中的错误,代码是否符合编码标准规范。持续交付工具和持续部署辅助工具可以使项目在较短的循环中可靠的发布。研究和实践表明,辅助工具能够显著加快项目开发过程,协助改善开源软件质量,减少缺陷数量。然而,现有辅助工具应用商店或辅助工具官方网站,都缺少用户对于辅助工具的评价及打分。因此项目管理者和开发者无法了解各个辅助工具的优缺点和实际使用评价,在相似工具之间难以进行有效选择,从而不利于开源项目的高效开发和辅助工具的推广应用。
[0003]在软件问答社区上存在大量辅助工具相关问答,辅助工具评论分散在这些回答之中。对这些辅助工具评论进行总结,既能解决现有辅助工具缺少评论的问题,又能帮助开发者快速获取关于辅助工具的有价值且简洁的信息。同时,辅助工具评论往往涉及不同方面,如工具的易用性、性能、功能等,如果能针对各辅助工具的不同方面进行总结,可突出各工具的优缺点,帮助开发者进行工具选择。综上,需要一种方法,对软件问答社区上的辅助工具评论,并针对不同方面进行摘要总结。
[0004]在方面提取阶段,现有软件评论的方面提取方法主要有基于规则、有监督学习和无监督学习三种方式。其中基于规则和有监督学习的方面提取方法需要很高的人工成本去总结规则、关键词或标注数据集,且难以跨应用场景进行应用,具有较大的使用限制。无监督学习的方式难以对方面进行约束,往往无法获得软件质量属性等软件评论中通常考虑的内容,难以实用。因此,拟采用弱监督学习的方式,使用方面相关的关键词作为监督数据,来完成方面提取的任务。既节省了人工标注成本,又能输出与关键词内容相关的方面,方便下一步分析总结。
[0005]然而,现有弱监督方面提取方法存在如下不足之处:
[0006]1、现有方法通过标注数据提取关键词,基于人工标注方面的样本句子抽取每个方面的关键词,这仍需人工标注成本;
[0007]2、现有方法通过固定权重对关键词加权求和去拟合不同的样本。然而,描述同一方面的不同句子,侧重点也很可能不同,例如对辅助工具的性能这一方面的讨论,可能包含讨论时间效率的句子和讨论资源利用效率的句子。对于讨论时间效率的句子,时间效率相关的关键词信息(如响应时间等)更加重要;对于讨论资源利用效率的句子,资源利用效率相关的关键词信息(如内存占用等)更加重要。现有方法用同一个方面嵌入向量去拟合侧重点不同的样本,没有考虑到针对样本的方面信息,可能导致模型在拟合侧重点不同的句子
时重组误差加大,影响学习效果;
[0008]3、同样,现有方法在计算句子表示时忽略了关键词的作用,无法突出样本中的方面信息。例如,对于辅助工具讨论句子“It took almost 1hour for Travis to respond,when I ran it last night.”后半句主要描述时间背景,与评价方面无关。类似的无关信息会加大后续句子重构过程中的误差,降低模型的学习能力。
[0009]在评论总结阶段,现有软件评论的摘要总结工作往往采用情感词典、机器学习等通用方法对软件评论进行情感分析或摘要。相关研究综述同时表明,软件工程相关语境下词的语义和通用语境中词的语义相差较大,导致采用通用方法的情感分析效果不理想。这一问题在辅助工具讨论语境下同样存在,例如,辅助工具评价语境中,“Travis”指Travis CI这一持续集成工具,而通用语境中“Travis”一般指人名。直接采用通用语境的词向量或其他语言模型会导致技术术语的表示存在误差,从而影响之后的分类、聚类任务。

技术实现思路

[0010]鉴于上述的分析,本专利技术实施例旨在提供一种辅助工具的评论分析方法和装置,用以解决现有方法忽略关键词的作用,无法突出样本中的方面信息,不考虑样本的方面信息会导致模型在拟合侧重点不同的句子时加大重组误差,影响学习效果等的问题。
[0011]一方面,本专利技术实施例提供了一种辅助工具的评论分析方法,包括:利用方面提取模型对所述辅助工具的评价句子进行方面提取以获得所述辅助工具按方面分类的评价句子,其中,对所述辅助工具的评价句子进行方面提取以获得所述辅助工具按方面分类的评价句子包括:根据方面相关的关键词计算所述评价句子属于每个方面的概率分布;利用BERT模型对按方面分类的评价句子进行情感分类和摘要提取以获得所述辅助工具的不同方面的方面级总结。
[0012]上述技术方案的有益效果如下:本申请通过根据方面相关的关键词计算所述评价句子属于每个方面的概率分布,既节省了人工标注成本,又能输出与关键词内容相关的方面,便于后续的分析总结。
[0013]基于上述方法的进一步改进,根据方面相关的关键词计算所述评价句子属于每个方面的概率分布进一步包括:基于方面信息注意力利用词向量计算句子向量;基于关键词注意力对方面中每个关键词向量进行加权求和计算方面嵌入向量;以及对全部方面嵌入向量进行加权求和以得到句子重构向量,其中,通过减小所述句子向量和所述句子重构向量之间的内积训练所述方面提取模型,以及通过所述方面提取模型预测所述评价句子属于每个方面的概率分布。
[0014]基于上述方法的进一步改进,基于方面信息注意力利用词向量计算句子向量进一步包括:通过词集与词向量矩阵的乘积获取所述词向量并且通过方面的关键词集与所述词向量矩阵的乘积获取关键词向量,其中,根据所述辅助工具的评价句子生成所述词集;基于所述方面信息注意力利用所述词向量与所述关键词向量的相似度计算单词注意力权重,其中,所述词向量与关键词向量的相似度由所述词向量、注意力参数矩阵和所述关键词向量的求和平均值的乘积获得;以及通过对所述词向量与所述单词注意力权重进行加权求和来获得所述句子向量。
[0015]基于上述方法的进一步改进,基于关键词注意力对方面中每个关键词向量进行加
权求和计算方面嵌入向量进一步包括:基于TF

IDF从K个方面的评价句子中提取m个关键词集,其中,K与m均为正整数;基于所述关键词向量与所述句子向量的相似度计算关键词的注意力权重,其中,所述关键词向量与所述句子向量的相似度由所述关键词向量、关键词注意力参数矩阵和当前句子向量的乘积获得;以及基于所述关键词的注意力权重对方面中每个关键词向量进行加权求和计算方面嵌入向量。
[0016]基于上述方法的进一步改进,通过所述方面提取模型中的线性层预测所述评价句子属于每个方面的概率分布;所述方面提取模型根据所述评价句子属于每个方面的概率分布与相应的方面嵌入向量计算句子重构向量。
[0017]基于上述方法的进一步改进,所述辅助工具的评价句子的方面包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种辅助工具的评论分析方法,其特征在于,包括:利用方面提取模型对所述辅助工具的评价句子进行方面提取以获得所述辅助工具按方面分类的评价句子,其中,对所述辅助工具的评价句子进行方面提取以获得所述辅助工具按方面分类的评价句子包括:根据方面相关的关键词计算所述评价句子属于每个方面的概率分布;以及利用BERT模型对按方面分类的评价句子进行情感分类和摘要提取以获得所述辅助工具的不同方面的方面级总结。2.根据权利要求1所述的辅助工具的评论分析方法,其特征在于,根据方面相关的关键词计算所述评价句子属于每个方面的概率分布进一步包括:基于方面信息注意力利用词向量计算句子向量;基于关键词注意力对方面中每个关键词向量进行加权求和计算方面嵌入向量;对全部方面嵌入向量进行加权求和得到句子重构向量,其中,通过减小所述句子向量和所述句子重构向量之间的内积训练所述方面提取模型;以及通过所述方面提取模型预测所述评价句子属于每个方面的概率分布。3.根据权利要求2所述的辅助工具的评论分析方法,其特征在于,基于方面信息注意力利用词向量计算句子向量进一步包括:通过词集与词向量矩阵的乘积获取所述词向量并且通过方面的关键词集与所述词向量矩阵的乘积获取关键词向量,其中,根据所述辅助工具的评价句子生成所述词集;基于所述方面信息注意力利用所述词向量与所述关键词向量的相似度计算单词注意力权重,其中,所述词向量与关键词向量的相似度由所述词向量、注意力参数矩阵和所述关键词向量的求和平均值的乘积获得;以及通过对所述词向量与所述单词注意力权重进行加权求和来获得所述句子向量。4.根据权利要求2或3所述的辅助工具的评论分析方法,其特征在于,基于关键词注意力对方面中每个关键词向量进行加权求和计算方面嵌入向量进一步包括:基于TF

IDF从K个方面的评价句子中提取m个关键词集,其中,K与m均为正整数;基于所述关键词向量与所述句子向量的相似度计算关键词的注意力权重,其中,所述关键词向量与所述句子向量的相似度由所述关键词向量、关键词注意力参数矩阵和当前句子向量的乘积获得;以及基于所述关键词的注意力权重对方面中每个关键词向量进行加权求和计算方面嵌入向量。5.根据权利要求2所述的辅助工具的评论分析方法,其特征在于,通过所述方面提取模型中的线性层预测所述评价句子属于每个方面的概率分布;所述方面提取模型根据所述评价句子属于每个方面的概率分布与相应的方面嵌入向量计算句子重构向量。6.根据权利要求2所述的辅助工...

【专利技术属性】
技术研发人员:蒋竞吕江枫张莉
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1