用于主体极性判断的分类方法、装置及计算机设备制造方法及图纸

技术编号:35580660 阅读:12 留言:0更新日期:2022-11-12 16:09
本发明专利技术涉及一种用于主体极性判断的分类方法、装置及计算机设备,所述方法包括获取文本数据,对文本数据进行预处理,根据预处理后的文本数据生成训练数据;将训练数据输入预构建的LSTM序列模型中进行迭代训练,获得主体极性判断模型;LSTM序列模型由两个子LSTM序列模型并列构成;将待测文本输入主体极性判断模型,获得主体极性分类结果;其中主体极性分类结果包括正面、负面和中性。本发明专利技术能够从文本数据中确定特定主体,从而对主体匹配数据获取舆情分析,从而确定文章极性,采用本申请提供的技术方案可以使得数据中涉及主体与文章极性相统一。性相统一。性相统一。

【技术实现步骤摘要】
用于主体极性判断的分类方法、装置及计算机设备


[0001]本专利技术属于人工智能领域,具体涉及一种用于主体极性判断的分类方法、装置及计算机设备。

技术介绍

[0002]现有基于方面的极性判断或情感判断主要体现在评论数据中,且由英文转换而来。市面上评论数据主体极性判断主要应用于餐饮,旅游或者电商数据,文本特征短且特征明显,通常由给定主体,判断主体及其属性的极性。举例为:某电商平台售卖某品牌的洗护用品,评论数据多为买家对该洗护品牌的产品特性,价格,产品优劣等多个属性的评论,比如买家评论

性价比高,使用方便

等,那么该条评论就是基于产品的各个属性的极性判断,通常都采用统计的方式将产品属性及对应的评价极性作为结果表示。
[0003]相关技术中,市面上单纯判断极性的模型一般都是基于LSTM等序列模型对整个文章的极性做出判断,并不能独立判断出文本中所涉主体的极性,例如一篇股评文章,股评人会对当前市场中的多支股票做预测和评价,整体文章极性为中性,但对于在评述中涉及暴跌的股票并不能判断,读者或者客户并不能从文章中获取多个主体的极性信息,导致通过文章极性获取到的数据中涉及主体与文章极性不统一的问题。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于克服现有技术的不足,提供一种用于主体极性判断的分类方法、装置及计算机设备,以解决现有技术中通过文章极性获取到的数据中涉及主体与文章极性不统一的问题。
[0005]为实现以上目的,本专利技术采用如下技术方案:一种用于主体极性判断的分类方法,包括:
[0006]获取文本数据,对所述文本数据进行预处理,根据预处理后的文本数据生成训练数据;
[0007]将所述训练数据输入预构建的LSTM序列模型中进行迭代训练,获得主体极性判断模型;所述LSTM序列模型由两个子LSTM序列模型并列构成;
[0008]将待测文本输入所述主体极性判断模型,获得主体极性分类结果;其中所述主体极性分类结果包括正面、负面和中性。
[0009]进一步的,当所述文本数据的文本特征较长时,对所述文本数据进行预处理,包括:
[0010]确定目标主体;
[0011]根据标点符号将所述文本数据中含有目标主体的句子确定为子句,对所述文本数据进行切片,得到多个子句;
[0012]根据子句的个数对所有的子句进行拼接,得到拼接段落。
[0013]进一步的,所述根据子句的个数对所有的子句进行拼接,包括:
[0014]如果所述子句的个数大于等于预设个数,则按照子句在文本数据中的排序,将排序在第一的所述目标主体所在子句、排序在中位数的所述目标主体所在子句以及排序在最后的所述目标主体所在子句进行拼接;
[0015]如果所述子句的个数小于预设个数,则将所述子句按照其在文本数据的顺序进行拼接。
[0016]进一步的,当所述文本数据的文本特征较短时,对所述文本数据进行预处理,包括:
[0017]对所述文本数据进行正则化处理,去除冗余信息。
[0018]进一步的,对所述文本数据进行预处理,还包括:
[0019]如果正则化处理后得到的文本数据中无目标主体,则将正则化处理后得到的文本数据确定为无效数据;
[0020]如果正则化处理后得到的文本数据为空字符串,则将正则化处理后得到的文本数据确定为无效数据。
[0021]进一步的,所述将所述训练数据输入预构建的LSTM序列模型中进行迭代训练,包括:
[0022]两个子LSTM序列模型分别接收训练数据;
[0023]分别提取所述训练数据中的主体向量,生成包含所述主体向量的上下文信息的隐向量;
[0024]将得到的两个隐向量进行拼接,通过分类器得出分类结果。
[0025]进一步的,还包括:
[0026]增加文本数据对所述主体极性判断模型进行训练优化。
[0027]进一步的,所述预设个数为5。
[0028]本申请实施例提供一种用于主体极性判断的分类装置,包括:
[0029]获取模块,用于获取文本数据,对所述文本数据进行预处理,根据预处理后的文本数据生成训练数据;
[0030]训练模块,用于将所述训练数据输入预构建的LSTM序列模型中进行迭代训练,获得主体极性判断模型;所述LSTM序列模型由两个子LSTM序列模型构成;
[0031]分类模块,用于将待测文本输入所述主体极性判断模型,获得主体极性分类结果;其中所述主体极性分类结果包括正面、负面和中性。
[0032]本申请实施例提供一种计算机设备,包括:存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述任一项用于主体极性判断的分类方法的步骤。
[0033]本专利技术采用以上技术方案,能够达到的有益效果包括:
[0034]本专利技术提供一种用于主体极性判断的分类方法、装置及计算机设备,本申请首先对获取的文本数据进行预处理,然后将预处理后得到训练数据输入到LSTM序列模型中进行训练,得到能够分类文本极性的主体极性判断模型,从而通过主体极性判断模型对文本中的目标主体进行极性分析;本申请能够从文本数据中确定特定主体,对主体匹配数据获取舆情分析,从而确定文章极性,因此,采用本申请提供的技术方案可以使得数据中涉及主体与文章极性相统一。
附图说明
[0035]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1为本专利技术用于主体极性判断的分类方法的步骤示意图;
[0037]图2为本专利技术用于主体极性判断模型的结构示意图;
[0038]图3为本专利技术用于主体极性判断的分类装置的结构示意图;
[0039]图4为本专利技术用于主体极性判断的分类方法的实施环境的硬件结构示意图。
具体实施方式
[0040]为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的技术方案进行详细的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本专利技术所保护的范围。
[0041]下面结合附图介绍本申请实施例中提供的一个具体的用于主体极性判断的分类方法、装置及计算机设备。
[0042]如图1所示,本申请实施例中提供的用于主体极性判断的分类方法,包括:
[0043]S101,获取文本数据,对所述文本数据进行预处理,根据预处理后的文本数据生成训练数据;
[0044]可以理解的是,本申请中的文本数据可以是新闻,微信,平媒等长文本,微博短文本等。
[0045]一些实施例中,当所述文本数据的文本特征较本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于主体极性判断的分类方法,其特征在于,包括:获取文本数据,对所述文本数据进行预处理,根据预处理后的文本数据生成训练数据;将所述训练数据输入预构建的LSTM序列模型中进行迭代训练,获得主体极性判断模型;所述LSTM序列模型由两个子LSTM序列模型并列构成;将待测文本输入所述主体极性判断模型,获得主体极性分类结果;其中所述主体极性分类结果包括正面、负面和中性。2.根据权利要求1所述的方法,其特征在于,当所述文本数据的文本特征较长时,对所述文本数据进行预处理,包括:确定目标主体;根据标点符号将所述文本数据中含有目标主体的句子确定为子句,对所述文本数据进行切片,得到多个子句;根据子句的个数对所有的子句进行拼接,得到拼接段落。3.根据权利要求2所述的方法,其特征在于,所述根据子句的个数对所有的子句进行拼接,包括:如果所述子句的个数大于等于预设个数,则按照子句在文本数据中的排序,将排序在第一的所述目标主体所在子句、排序在中位数的所述目标主体所在子句以及排序在最后的所述目标主体所在子句进行拼接;如果所述子句的个数小于预设个数,则将所述子句按照其在文本数据的顺序进行拼接。4.根据权利要求1所述的方法,其特征在于,当所述文本数据的文本特征较短时,对所述文本数据进行预处理,包括:对所述文本数据进行正则化处理,去除冗余信息。5.根据权利要求4所述的方法,其特征在于,对所述文本数据进行预处理,还包括:如果正则化处理后得...

【专利技术属性】
技术研发人员:刘瑞熙李青龙
申请(专利权)人:北京智慧星光信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1