评估文本的分析方法及其装置、计算机可读存储介质制造方法及图纸

技术编号:32825943 阅读:8 留言:0更新日期:2022-03-26 20:28
本发明专利技术公开了一种评估文本的分析方法及其装置、计算机可读存储介质,涉及自然语言处理领域,其中,该方法包括:获取待处理文本,并对待处理文本中的评估语句进行预处理,得到单词标识序列,基于预先训练的词嵌入向量矩阵和/或辅助嵌入向量矩阵,将单词标识序列映射为词向量矩阵,将词向量矩阵输入至预设的膨胀循环卷积神经网络模型中,得到卷积特征,并将预先分析得到的相关性矩阵融入卷积特征,得到融合特征,将融合特征经过线性映射得到膨胀循环卷积神经网络模型对每个单词标签的预估得分矩阵,并分析待处理文本中每段评估语句的标签信息。本发明专利技术解决了相关技术中无法对评估语句中的评估对象的倾向意见做出细粒化的分析的技术问题。的技术问题。的技术问题。

【技术实现步骤摘要】
评估文本的分析方法及其装置、计算机可读存储介质


[0001]本专利技术涉及分析
,具体而言,涉及一种评估文本的分析方法及其装置、计算机可读存储介质。

技术介绍

[0002]随着新兴社交媒体的发展,用户可以以文本、图片、视频等形式发布个人内容,进行信息交流和意见表达,对这些海量的用户生成数据进行分析,将有助于获取多方面的信息。当前分析方式主要是面向文本,通过对文本的分析,发掘评论人对于事物或事件的观点和态度。在自然语言处理领域的研究当中,情感分析是一类常见的任务,主要是对篇章级、句子级和对象级等层级任务进行分析,例如,某电商平台的用户商品评论模块,用户可针对所购买的商品进行评价,评论等级分类方式会根据用户给予的星级分为“好评、中评、差评”,如图1所示,分别有多个对购买的商品进行了评述(图1仅示意说明了用户1、用户2和用户3的评述内容,但不仅限于此),该方式只能表现出用户对所购买物品的整体倾向意见(例如,通过图1中的用户评论内容,仅能够分析得到的评估结果为:好评,无法分析得到更为细粒的情感结果),对于用户在评论文本中针对于购买物品的某一个方面(评价对象)做出评价,并对该方面表现出的倾向态度还不能做出判断。
[0003]相关技术中,基于深度学习的方法主要包括卷积神经网络(Convolutional Neural Network,CNN)、以及循环神经网络(Recurrent Neural Network,RNN)两大类,其中,RNN模型具有记忆序列信息的能力,对序列建模上具备一定的优势,但一般RNN模型的参数较多,每一步的计算都需要前一步计算的结果,因此RNN模型未能充分发挥GPU(图形处理器)的并行能力且训练时间相对较长。CNN模型的结构较为简单,主要是前置的卷积层和后置的全连接层,其卷积操作具有局部特征提取的能力并且支持并行操作,因此,在自然语言处理中对某个目标的识别具有一定的优势。但是,在句子很长的情况下,CNN只能够处理卷积窗口内的信息,因此,窗口大小的选择很重要,也突出了其建模简单但是调参难的问题。
[0004]针对用户在评论文本中的某一评价对象,以及对该评价对象表现出的情感倾向分类任务,常规技术手段为:根据不同任务的特点设计不同的深度学习模型来完成任务,但是这种方式存在设计难度大且训练效率不高的问题。
[0005]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]本专利技术实施例提供了一种评估文本的分析方法及其装置、计算机可读存储介质,以至少解决相关技术中无法对评估语句中的评估对象的倾向意见做出细粒化的分析的技术问题。
[0007]根据本专利技术实施例的一个方面,提供了一种评估文本的分析方,包括:获取待处理文本,并对所述待处理文本中的评估语句进行预处理,得到单词标识序列,其中,所述待处理文本是对某一商品对象的评估文本进行提取得到的文本,所述待处理文本包括至少一段
评估语句;基于预先训练的词嵌入向量矩阵和/或辅助嵌入向量矩阵,将所述单词标识序列映射为词向量矩阵,其中,所述辅助嵌入向量矩阵为领域嵌入向量矩阵或者词性嵌入向量矩阵;将所述词向量矩阵输入至预设的膨胀循环卷积神经网络模型中,得到卷积特征,并将预先分析得到的相关性矩阵融入所述卷积特征,得到融合特征;将所述融合特征经过线性映射得到所述膨胀循环卷积神经网络模型对每个单词标签的预估得分矩阵;基于所述预估得分矩阵,分析所述待处理文本中每段所述评估语句的标签信息,其中,所述标签信息中包含所述评估语句中所涉及评估对象的倾向标签。
[0008]可选地,对所述待处理文本中的评估语句进行预处理,得到单词标识序列的步骤,包括:对所述待处理文本中的评估语句进行分词处理以及序列化处理,得到分词序列;为所述分词序列中的每个单词分配标识,得到单词标识序列。
[0009]可选地,在获取待处理文本之前,所述分析方法还包括:对预设语料库中的文本语句进行分词处理,得到分词结果序列;对所述分词结果序列中的每个单词标注标签,其中,所述标签的类型包括:对象标签、情感标签;基于预设的联合标签规则,对每个单词的不同标签进行标签组合,得到每个所述单词的组合标签。
[0010]可选地,所述词向量矩阵包括:领域词向量矩阵和词性词向量矩阵,在将所述词向量矩阵输入至预设的膨胀循环卷积神经网络模型中,得到卷积特征之前,所述分析方法还包括:将所述领域词向量矩阵与所述词嵌入向量矩阵按照第一预设规则进行拼接,得到领域嵌入输入矩阵;将所述词性词向量矩阵与所述词嵌入向量矩阵按照第二预设规则进行拼接,得到词性嵌入输入矩阵;将所述领域嵌入输入矩阵和所述词性嵌入输入矩阵分别输入到第一卷积层,其中,所述第一卷积层通过第一预设公式分别计算相对于第一任务的第一局部特征以及相对于第二任务的第二局部特征,局部特征用于指示每个单词以及单词在文本中预设范围内的特征;将所述第一局部特征和所述第二局部特征输入至第二卷积层,其中,所述第二卷积层通过第二预设公式以及第三预设规则,分别计算相对于第一任务的第一卷积特征以及相对于第二任务的第二卷积特征。
[0011]可选地,将预先分析得到的相关性矩阵融入所述卷积特征,得到融合特征还包括:通过第三预设公式,计算第一任务与第二任务的交互向量;基于所述交互向量和第四预设公式,分别计算所述第一任务与所述第二任务的交互注意力得分标量,得到相对于第一任务的第一得分标量集合以及相对于第二任务的第二得分标量集合;将所述第一得分标量集合和所述第二得分标量集合进行组合,得到第一相关性表示矩阵和第二相关性表示矩阵;将所述第一相关性表示矩阵融入所述第一卷积特征,并将所述第二相关性表示矩阵融入所述第二卷积特征,得到所述融合特征。
[0012]可选地,在将所述融合特征经过线性映射得到所述膨胀循环卷积神经网络模型对每个单词标签的预估得分矩阵之后,所述分析方法还包括:基于所述预估得分矩阵和转移得分矩阵,采用条件随机场算法CRF计算标签转移路径得分;基于所述标签转移路径得分和除标签路径之外的其它路径得分的综合,计算与每个评估对象对应的倾向标签的标签概率;基于所述倾向标签的标签概率,计算所述标签转移路径得分的损失函数。
[0013]可选地,在将所述融合特征经过线性映射得到所述膨胀循环卷积神经网络模型对每个单词标签的预估得分矩阵之后,所述分析方法还包括:基于所述预估得分矩阵,得到标签路径得分;对所述标签路径得分进行排序,确定得分排序结果;基于得分排序结果,采用
维特比算法选择得分最高的路径对应的标签作为文本标签结果。
[0014]可选地,在分别基于第一任务和第二任务获取到两个情感标签后,所述分析方法还包括:以评估对象标签为边界,基于所述文本标签概率和所述文本标签结果,选择标签出现次数最多的标签为情感标签;若标签出现次数相同,选择排序第一的标签为情感标签。
[0015]根据本专利技术实施例的另一方面,还提供了一种评估文本的分析装置,包括:获取单元,用于获取待处理文本,并对所述待处理文本中的评估语句进行预处理,得到单词标识序列,其中,所述待处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种评估文本的分析方法,其特征在于,包括:获取待处理文本,并对所述待处理文本中的评估语句进行预处理,得到单词标识序列,其中,所述待处理文本是对某一商品对象的评估文本进行提取得到的文本,所述待处理文本包括至少一段评估语句;基于预先训练的词嵌入向量矩阵和/或辅助嵌入向量矩阵,将所述单词标识序列映射为词向量矩阵,其中,所述辅助嵌入向量矩阵为领域嵌入向量矩阵或者词性嵌入向量矩阵;将所述词向量矩阵输入至预设的膨胀循环卷积神经网络模型中,得到卷积特征,并将预先分析得到的相关性矩阵融入所述卷积特征,得到融合特征;将所述融合特征经过线性映射得到所述膨胀循环卷积神经网络模型对每个单词标签的预估得分矩阵;基于所述预估得分矩阵,分析所述待处理文本中每段所述评估语句的标签信息,其中,所述标签信息中包含所述评估语句中所涉及评估对象的倾向标签。2.根据权利要求1所述的分析方法,其特征在于,对所述待处理文本中的评估语句进行预处理,得到单词标识序列的步骤,包括:对所述待处理文本中的评估语句进行分词处理以及序列化处理,得到分词序列;为所述分词序列中的每个单词分配标识,得到单词标识序列。3.根据权利要求1所述的分析方法,其特征在于,在获取待处理文本之前,所述分析方法还包括:对预设语料库中的文本语句进行分词处理,得到分词结果序列;对所述分词结果序列中的每个单词标注标签,其中,所述标签的类型包括:对象标签、情感标签;基于预设的联合标签规则,对每个单词的不同标签进行标签组合,得到每个所述单词的组合标签。4.根据权利要求3所述的分析方法,其特征在于,所述词向量矩阵包括:领域词向量矩阵和词性词向量矩阵,在将所述词向量矩阵输入至预设的膨胀循环卷积神经网络模型中,得到卷积特征之前,所述分析方法还包括:将所述领域词向量矩阵与所述词嵌入向量矩阵按照第一预设规则进行拼接,得到领域嵌入输入矩阵;将所述词性词向量矩阵与所述词嵌入向量矩阵按照第二预设规则进行拼接,得到词性嵌入输入矩阵;将所述领域嵌入输入矩阵和所述词性嵌入输入矩阵分别输入到第一卷积层,其中,所述第一卷积层通过第一预设公式分别计算相对于第一任务的第一局部特征以及相对于第二任务的第二局部特征,局部特征用于指示每个单词以及单词在文本中预设范围内的特征;将所述第一局部特征和所述第二局部特征输入至第二卷积层,其中,所述第二卷积层通过第二预设公式以及第三预设规则,分别计算相对于第一任务的第一卷积特征以及相对于第二任务的第二卷积特征。5.根据权利要求4所述的分析方法,其特征在于,将预先分析得到的相关性矩阵融入所述卷积特征,得到融合特征还包括:
通过第三预设公式,计算第一任务与第二任务的交互向量;基于所述交互向量和第四预设公式,分别计算所述第一任务与所述第二任务的交互注意力得分标量,得到相对于第一任务的第一得分标量集合以及相对于第二任务的第二得分标量集合;将所述第一得分标量集合和所述第二得分标...

【专利技术属性】
技术研发人员:周武黄艺媛韩伟豪宋路祥黄裕文
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1