基于事件演化的用户观点和立场获取方法技术

技术编号:37445126 阅读:8 留言:0更新日期:2023-05-06 09:17
本发明专利技术提供了一种基于事件演化的用户观点和立场获取方法,首先对输入的多个文本例如新闻进行文本聚类,然后对聚类结果进行清洗和合并以得到事件,然后针对事件的演化过程,抽取事件对应的评论者、观点和立场,最后按照事件的演化时间顺序,输出对应的评论者、观点和立场,能够根据事件的演变,推断评论者的观点、立场的变化情况。立场的变化情况。立场的变化情况。

【技术实现步骤摘要】
基于事件演化的用户观点和立场获取方法


[0001]本专利技术涉及自然语言处理领域,特别是涉及一种基于事件演化的用户观点和立场获取方法。

技术介绍

[0002]近年来,互联网生态经历了高速发展,数字信息呈爆炸式增长。与此同时,互联网上的海量内容中存在着大量的重复、无效内容和垃圾内容。繁杂、海量的信息给人们对知识的学习和使用带来了难整合、难查找、难理解等问题。在信息检索领域,面向事件的检索已经成为用户从网络中获取感兴趣事件的一种主要途径,而且人们越来越倾向于使用微博、论坛等社交媒体平台来表达自己的观点。使用观点、立场检测技术可以实现人们对特定事件的观点、立场检测。这能够帮助人们了解更多的信息,实时获取社会热点资讯。
[0003]目前的观点抽取方法主要是从新闻文章的各个语句中抽取评论者、评论对象,对评论对象的观点等,抽取出的人名默认为评论者,很少有对多个人名的情况下是否是评论者进行分析,也无法判断评论者、评论对象、观点三元组的正确性,导致出现多个评论对象时会抽取错误。此外,目前的立场检测方法主要是对评论者的观点进行分类,以判断其对应的立场,但是很少考虑评论者本身对立场的影响。也就是说,目前的观点、立场抽取方法,通常只针对单一的新闻或文本,只能根据该新闻推断目前某个评论者的观点或立场,无法根据事件的演变,推断该评论者的观点、立场的变化情况。

技术实现思路

[0004]针对上述技术问题,本专利技术采用的技术方案为:本专利技术实施例提供一种基于事件演化的用户观点和立场获取方法,所述方法包括如下步骤:S100,基于待聚类文本中的每个文本的标题或者第一段内容获取每个文本的特征向量;S200,基于所有文本的特征向量,利用设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个事件,每个事件包括至少一个文本;S300,基于文本的特征向量和事件的事件描述特征向量之间的相似度对得到的多个事件进行清洗处理,得到清洗后的H个事件;其中,事件的事件描述特征向量基于设定的事件描述特征向量生成模型得到;S400,基于事件的事件描述特征向量之间的相似度对清洗后的H个事件进行合并处理,得到合并后的G个事件;S500,获取合并后的G个事件中的每个事件的评论者以及评论者对应的观点和立场;S600,获取针对G个事件中同一个事件或者在同一个事件下的每个评论者的按照发布时间排序的观点和立场并进行输出。
[0005]本专利技术至少具有以下有益效果:本专利技术实施例提供的基于事件演化的用户观点和立场获取方法,首先对输入的多个文本例如新闻进行文本聚类,然后对聚类结果进行清洗和合并以得到事件,然后针对事件的演化过程,抽取事件对应的评论者、观点和立场,最后按照事件的演化时间顺序,输出对应的评论者、观点和立场,能够根据事件的演变,推断评论者的观点、立场的变化情况。
附图说明
[0006]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0007]图1为本专利技术实施例提供的基于事件演化的用户观点和立场获取方法的流程图。
具体实施方式
[0008]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0009]本专利技术实施例提供一种基于事件演化的用户观点和立场获取方法,如图1所示,所述方法可包括如下步骤:S100,基于待聚类文本中的每个文本的标题或者第一段内容获取每个文本的特征向量;在本专利技术实施例中,待聚类文本可为新闻文本,也可为其它类型的文本。文本可通过用户输入获取。
[0010]在本专利技术实施例中,可通过现有的特征提取方法获取每个文本的特性向量。在一个示意性实施例中,可通过CoSENT提取文本的特征向量。如果文本没有标题,可采用文本的第一段内容作为文本的表示,输入CoSENT模型,得到对应的特征向量。
[0011]S200,基于所有文本的特征向量,利用设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个事件即得到多个事件,每个事件包括至少一个文本。
[0012]在本专利技术实施例中,可以采用多种聚类算法进行聚类,本专利技术选择DBSCAN算法。DBSCAN算法不需要指定聚类个数,只需要指定邻域半径和邻域半径内最少的数据点数。
[0013]本领域技术人员知晓,基于所有文本的特征向量,利用DBSCAN算法进行聚类,得到对应的聚类结果可为现有技术。
[0014]S300,基于文本的特征向量和事件的事件描述特征向量之间的相似度对得到的多个事件进行清洗处理,得到清洗后的H个事件;其中,事件的事件描述特征向量基于设定的事件描述特征向量生成模型得到。
[0015]经过聚类之后的文本,每个类别可以认为是一个事件,但是聚类准确率不高,有的被错误聚类,所以有必要对聚类结果进行清洗与合并。本专利技术实施例采用基于事件描述与文本的文本相似度的方法对聚类结果进行清洗与合并。
[0016]在本专利技术实施例中,所述事件的事件描述特征向量基于如下步骤得到:S301,基于设定的事件描述生成模型生成事件中的每个文本的事件描述。
[0017]在本专利技术实施例中,所述设定的事件描述生成模型为训练后的T5或者BART预训练生成模型,该模型可通过如下步骤获取得到:(数据集构建)对于输入的多篇新闻,随机选择若干新闻,进行标注。对于选择的每篇新闻,人工生成它的事件描述。将每篇新闻的标题作为生成模型的输入,人工生成的事件描述作为模型的真实值构建训练数据集。如果新闻没有标题,使用新闻的第一段作为模型的输入。
[0018]在本专利技术实施例中,事件描述是指文本对应的事件的描述信息。
[0019](模型训练)模型的输入为:Q=[CLS,t]。
[0020]CLS是特殊标识符, t是选择的新闻的标题或第一段,Q为模型输入。模型训练为:y
Q
=GEN(Q)。
[0021]其中,GEN为T5或BART等预训练生成模型, y
Q
为模型预测的结果,与人工标注的真实值计算loss来训练模型参数,得到训练好的事件描述生成模型。
[0022]在得到训练好的事件描述生成模型后,依次将待聚类的每个文本的标题或第一段输入训练好的事件描述生成模型中,得到每个文本的事件描述。
[0023]S302,将获取的事件描述中生成频次最大的事件描述作为对应事件的事件描述。
[0024]统计当前事件中所有新闻生成的事件描述,将生成频次最大的一个事件描述,作为当前事件的事件描述。如果3个文本生成了某个事件描述,则该事件描述的生成频次为3。
[0025]S303,将事件的事件描述输入所述设定的事件描述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于事件演化的用户观点和立场获取方法,其特征在于,所述方法包括如下步骤:S100,基于待聚类文本中的每个文本的标题或者第一段内容获取每个文本的特征向量;S200,基于所有文本的特征向量,利用设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个事件,每个事件包括至少一个文本;S300,基于文本的特征向量和事件的事件描述特征向量之间的相似度对得到的多个事件进行清洗处理,得到清洗后的H个事件;其中,事件的事件描述特征向量基于设定的事件描述特征向量生成模型得到;S400,基于事件的事件描述特征向量之间的相似度对清洗后的H个事件进行合并处理,得到合并后的G个事件;S500,获取合并后的G个事件中的每个事件的评论者以及评论者对应的观点和立场;S600,获取针对G个事件中同一个事件或者在同一个事件下的每个评论者的按照发布时间排序的观点和立场并进行输出。2.根据权利要求1所述的基于事件演化的用户观点和立场获取方法,其特征在于,所述事件的事件描述特征向量基于如下步骤得到:S301,基于设定的事件描述生成模型生成事件中的每个文本的事件描述;S302,将获取的事件描述中生成频次最大的事件描述作为对应事件的事件描述;S303,将事件的事件描述输入所述设定的事件描述特征向量生成模型中,得到对应的事件描述特征向量。3.根据权利要求2所述的基于事件演化的用户观点和立场获取方法,其特征在于,所述设定的事件描述生成模型为训练后的T5或者BART预训练生成模型,所述设定的事件描述特征向量生成模型为CoSENT模型。4.根据权利要求1所述的基于事件演化的用户观点和立场获取方法,其特征在于,S300具体包括:S311,获取第p次清洗处理对应的当前待清洗事件中的任一事件中的任一文本的特征向量以及任一事件的事件描述和事件描述特征向量;p的取值为1到C0,C0为预设清洗次数;S312,对于当前待清洗事件中的事件i中的第j个文本T
ij
,获取S1
pij
,如果S1
pij
≥D1
p
,则将T
ij
保留在事件i中,执行S316;否则,执行S313;其中,S1
pij
为第p次清洗处理时T
ij
的特征向量和事件i的事件描述特征向量之间的相似度,i的取值为1到k,k为当前待清洗事件中的事件数量;j的取值为1到f(i),f(i)为事件i中的文本数量;D1
p
为第p次清洗处理对应的第一设定阈值;S313,获取相似度集ST
ij
={ST
1ij
,ST
2ij


,ST
sij


,ST
k

1ij
},ST
sij
为T
ij
的特征向量和当前待清洗事件中除事件i之外的(k

1)个事件中的第s个事件对应的事件描述特征向量之间的相似度,s的取值为1到(k

1);执行S314;S314,如果maxA≥D1
p
,则将T
ij
合并到maxA对应的事件中并从原事件中删除,否则,执行S315;maxA=max{ ST
1ij
,ST
2ij


,ST
sij


,ST
k

1ij };S315,为T
ij
创建一个新事件,并将T
ij
加入到对应的新事件中并从原事件中删除,设置k=k+1,执行S316;
S316,设置j=j+1,如果j≤f(i),执行S312,否则,设置i=i+1,如果i≤k,执行S312,如果i>k,执行S317;S317,设置p=p+1,如果p≤C0,执行S311;否则,得到清洗处理后的H个事件,并执行S400。5.根据权利要求1所述的基于事件演化的用户观点和立场获取方法,其特征在于,S400具体包括:S410,基于H个事件获取按照文本数量递减的方式进行排序得到的事件列表S,并获取S中的任一事件u对应的事件描述和事件描述特征向量,u的取值为1到H;S420,基于事件的事件描述特征向量之间的相似度对S进行合并处理,得到合并处理后的G个事件;其中,S420具体包括:S421,获取S2
uv
...

【专利技术属性】
技术研发人员:罗引郭鸿飞王俊艳蔡昌艳蒋永余徐才王宇琪王璋盛曹家王磊
申请(专利权)人:新华融合媒体科技发展北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1