一种文本立场检测方法技术

技术编号：28478404 阅读：31 留言：0更新日期：2021-05-15 21:47

本发明专利技术涉及一种文本立场检测方法，包括以下步骤：使用BERT预训练模型在训练集a上进行finetune训练，形成训练后的BERT预训练模型；在训练集a中的每条评论数据的结尾处分别添加正向立场的话语和反向立场的话语，从而构成训练集b；对训练集b中的评论数据输入训练好的BERT预训练模型进行编码，得到训练集b中每条评论数据所对应的向量；使用kmeans算法对训练集b所对应的向量进行聚类，将聚类簇的个数设置为2，从而判断训练集a中评论数据的立场。本发明专利技术使用无需人工标注的训练集对模型进行训练后，再结合kmeans算法即可检测出评论数据立场的方法。场的方法。场的方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本立场检测方法

[0001]本专利技术涉及自然语言
，特别涉及一种文本立场检测方法。

技术介绍

[0002]互联网上有大量的言论，往往需要对这些言论中的立场进行检测。比如电商的评论区中用户对产品的评价立场，豆瓣电影中观众对电影的评价立场，以及微博言论中评论人对某个事件的态度立场等等。因此本申请中所述文本的应用领域为以人类语言表示的各种言论、评论。
[0003]传统的立场检测方法需要对每一个特定场景的数据进行大量的人工标注，然后将人工标注的数据用来训练监督学习模型，以使用训练好的模型判断文本的立场。这种方法虽然准确率较高，但是需要标注的成本也太高，且不通用。
[0004]还有传统的基于非监督学习的立场检测，直接对言论的词向量聚类来进行立场判断，由于这种方法没有针对性，往往聚类出来的结果并不是想要的，或者使不准确的。

技术实现思路

[0005]本专利技术的目的在于无需人工标注训练集，也能对评论数据进行立场检测，提供一种文本立场检测方法。
[0006]为了实现上述专利技术目的，本专利技术实施例提供了以下技术方案：一种文本立场检测方法，包括以下步骤：使用BERT预训练模型在训练集a上进行finetune训练，形成训练后的BERT预训练模型；所述训练集a中为若干无标注的评论数据；所述评论数据为以人类语言表示的言论、评论；在训练集a中的每条评论数据的结尾处分别添加正向立场的话语和反向立场的话语，从而构成训练集b；对训练集b中的评论数据输入训练好的BERT预训练模型进行编码，得到...

【技术保护点】

【技术特征摘要】
1.一种文本立场检测方法，其特征在于：包括以下步骤：使用BERT预训练模型在训练集a上进行finetune训练，形成训练后的BERT预训练模型；所述训练集a中为若干无标注的评论数据；所述评论数据为以人类语言表示的言论、评论；在训练集a中的每条评论数据的结尾处分别添加正向立场的话语和反向立场的话语，从而构成训练集b；对训练集b中的评论数据输入训练好的BERT预训练模型进行编码，得到训练集b中每条评论数据所对应的向量；使用kmeans算法对训练集b所对应的向量进行聚类，将聚类簇的个数设置为2，聚类后得到一个簇为语义一致，另一个簇为语义不一致，从而判断训练集a中评论数据的立场。2.根据权利要求1所述的一种文本立场检测方法，其特征在于：所述聚类后得到一个簇为语义一致，另一个簇为语义不一致，从而判断训练集a中评论数据的立场的步骤，具体包括：在语义一致的簇中，若评论数据结尾处添加的是正向立场，则该条评论数据为正向立场；若评论数据结尾处添加的是反向立场，则该条评论数据为反向立场；在语义不一致的簇中，若评论数据结尾处添加的是正向立场，则该条评论数据为反向立场；若评论数据结尾处添加的是反向立场，则该条评论数据为正向立场。3.根据权...

【专利技术属性】
技术研发人员：刘世林，康青杨，黄艳，曾途，
申请(专利权)人：成都数联铭品科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人