【技术实现步骤摘要】
基于事件演化的用户观点和立场获取方法
[0001]本专利技术涉及自然语言处理领域,特别是涉及一种基于事件演化的用户观点和立场获取方法。
技术介绍
[0002]近年来,互联网生态经历了高速发展,数字信息呈爆炸式增长。与此同时,互联网上的海量内容中存在着大量的重复、无效内容和垃圾内容。繁杂、海量的信息给人们对知识的学习和使用带来了难整合、难查找、难理解等问题。在信息检索领域,面向事件的检索已经成为用户从网络中获取感兴趣事件的一种主要途径,而且人们越来越倾向于使用微博、论坛等社交媒体平台来表达自己的观点。使用观点、立场检测技术可以实现人们对特定事件的观点、立场检测。这能够帮助人们了解更多的信息,实时获取社会热点资讯。
[0003]目前的观点抽取方法主要是从新闻文章的各个语句中抽取评论者、评论对象,对评论对象的观点等,抽取出的人名默认为评论者,很少有对多个人名的情况下是否是评论者进行分析,也无法判断评论者、评论对象、观点三元组的正确性,导致出现多个评论对象时会抽取错误。此外,目前的立场检测方法主要是对评论者的观点进行分类,以判断其对应的立场,但是很少考虑评论者本身对立场的影响。也就是说,目前的观点、立场抽取方法,通常只针对单一的新闻或文本,只能根据该新闻推断目前某个评论者的观点或立场,无法根据事件的演变,推断该评论者的观点、立场的变化情况。
技术实现思路
[0004]针对上述技术问题,本专利技术采用的技术方案为:本专利技术实施例提供一种基于事件演化的用户观点和立场获取方法,所述方法包括如下步骤:S10 ...
【技术保护点】
【技术特征摘要】
1.一种基于事件演化的用户观点和立场获取方法,其特征在于,所述方法包括如下步骤:S100,基于待聚类文本中的每个文本的标题或者第一段内容获取每个文本的特征向量;S200,基于所有文本的特征向量,利用设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个事件,每个事件包括至少一个文本;S300,基于文本的特征向量和事件的事件描述特征向量之间的相似度对得到的多个事件进行清洗处理,得到清洗后的H个事件;其中,事件的事件描述特征向量基于设定的事件描述特征向量生成模型得到;S400,基于事件的事件描述特征向量之间的相似度对清洗后的H个事件进行合并处理,得到合并后的G个事件;S500,获取合并后的G个事件中的每个事件的评论者以及评论者对应的观点和立场;S600,获取针对G个事件中同一个事件或者在同一个事件下的每个评论者的按照发布时间排序的观点和立场并进行输出。2.根据权利要求1所述的基于事件演化的用户观点和立场获取方法,其特征在于,所述事件的事件描述特征向量基于如下步骤得到:S301,基于设定的事件描述生成模型生成事件中的每个文本的事件描述;S302,将获取的事件描述中生成频次最大的事件描述作为对应事件的事件描述;S303,将事件的事件描述输入所述设定的事件描述特征向量生成模型中,得到对应的事件描述特征向量。3.根据权利要求2所述的基于事件演化的用户观点和立场获取方法,其特征在于,所述设定的事件描述生成模型为训练后的T5或者BART预训练生成模型,所述设定的事件描述特征向量生成模型为CoSENT模型。4.根据权利要求1所述的基于事件演化的用户观点和立场获取方法,其特征在于,S300具体包括:S311,获取第p次清洗处理对应的当前待清洗事件中的任一事件中的任一文本的特征向量以及任一事件的事件描述和事件描述特征向量;p的取值为1到C0,C0为预设清洗次数;S312,对于当前待清洗事件中的事件i中的第j个文本T
ij
,获取S1
pij
,如果S1
pij
≥D1
p
,则将T
ij
保留在事件i中,执行S316;否则,执行S313;其中,S1
pij
为第p次清洗处理时T
ij
的特征向量和事件i的事件描述特征向量之间的相似度,i的取值为1到k,k为当前待清洗事件中的事件数量;j的取值为1到f(i),f(i)为事件i中的文本数量;D1
p
为第p次清洗处理对应的第一设定阈值;S313,获取相似度集ST
ij
={ST
1ij
,ST
2ij
,
…
,ST
sij
,
…
,ST
k
‑
1ij
},ST
sij
为T
ij
的特征向量和当前待清洗事件中除事件i之外的(k
‑
1)个事件中的第s个事件对应的事件描述特征向量之间的相似度,s的取值为1到(k
‑
1);执行S314;S314,如果maxA≥D1
p
,则将T
ij
合并到maxA对应的事件中并从原事件中删除,否则,执行S315;maxA=max{ ST
1ij
,ST
2ij
,
…
,ST
sij
,
…
,ST
k
‑
1ij };S315,为T
ij
创建一个新事件,并将T
ij
加入到对应的新事件中并从原事件中删除,设置k=k+1,执行S316;
S316,设置j=j+1,如果j≤f(i),执行S312,否则,设置i=i+1,如果i≤k,执行S312,如果i>k,执行S317;S317,设置p=p+1,如果p≤C0,执行S311;否则,得到清洗处理后的H个事件,并执行S400。5.根据权利要求1所述的基于事件演化的用户观点和立场获取方法,其特征在于,S400具体包括:S410,基于H个事件获取按照文本数量递减的方式进行排序得到的事件列表S,并获取S中的任一事件u对应的事件描述和事件描述特征向量,u的取值为1到H;S420,基于事件的事件描述特征向量之间的相似度对S进行合并处理,得到合并处理后的G个事件;其中,S420具体包括:S421,获取S2
uv
...
【专利技术属性】
技术研发人员:罗引,郭鸿飞,王俊艳,蔡昌艳,蒋永余,徐才,王宇琪,王璋盛,曹家,王磊,
申请(专利权)人:新华融合媒体科技发展北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。