文章数据处理方法、装置、计算机可读介质及电子设备制造方法及图纸

技术编号:21952401 阅读:28 留言:0更新日期:2019-08-24 17:42
本申请的实施例提供了一种文章数据处理方法、装置、计算机可读介质及电子设备。该文章数据处理方法包括:识别待处理文章中所包含的对象实体;从所述待处理文章中提取出情感词特征和针对所述情感词特征的修饰词特征;根据所述情感词特征和所述修饰词特征确定所述待处理文章针对所述对象实体的情感倾向。本申请实施例的技术方案可以通过修饰词特征来调整情感词特征对文章情感倾向的影响,提高了对文章情感倾向的识别准确率。

Data Processing Method, Device, Computer Readable Media and Electronic Equipment

【技术实现步骤摘要】
文章数据处理方法、装置、计算机可读介质及电子设备
本申请涉及计算机及通信
,具体而言,涉及一种文章数据处理方法、装置、计算机可读介质及电子设备。
技术介绍
舆情分析是根据需要对某个关注点的舆情进行深层次的加工和分析得到相关结论的过程,舆情分析中的重点是识别出相关资讯文章的情感倾向,但是专利技术人发现,相关技术中提出的方案通常存在情感倾向识别不准确的问题。
技术实现思路
本申请的实施例提供了一种文章数据处理方法、装置、计算机可读介质及电子设备,进而至少在一定程度上可以通过修饰词特征来调整情感词特征对文章情感倾向的影响,提高了对文章情感倾向的识别准确率。本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。根据本申请实施例的一个方面,提供了一种文章数据处理方法,包括:识别待处理文章中所包含的对象实体;从所述待处理文章中提取出情感词特征和针对所述情感词特征的修饰词特征;根据所述情感词特征和所述修饰词特征确定所述待处理文章针对所述对象实体的情感倾向。根据本申请实施例的一个方面,提供了一种文章数据处理装置,包括:识别单元,用于识别待处理文章中所包含的对象实体;第一处理单元,用于从所述待处理文章中提取出情感词特征和针对所述情感词特征的修饰词特征;第二处理单元,用于根据所述情感词特征和所述修饰词特征确定所述待处理文章针对所述对象实体的情感倾向。在本申请的一些实施例中,基于前述方案,所述识别单元配置为:根据预设的对象名称库,从所述待处理文章中提取出所述对象名称库中所包含的目标对象名称;基于对象名称与对象实体之间的对应关系,将与所述目标对象名称相对应的对象实体确定为所述待处理文章中所包含的对象实体。在本申请的一些实施例中,基于前述方案,所述识别单元还用于:在将与所述目标对象名称相对应的对象实体确定为所述待处理文章中所包含的对象实体之前,统计所述待处理文章中所包含的出现次数大于或等于预定次数的目标词语;根据所述目标词语与所述目标对象名称之间的相关性,对所述目标对象名称进行过滤处理。在本申请的一些实施例中,基于前述方案,所述第一处理单元配置为:根据预设的情感词库,从所述待处理文章中提取出所述情感词库中所包含的情感词,以作为所述情感词特征;根据从所述待处理文章中提取出的情感词,识别所述待处理文章中与所述情感词存在预定句法关系的词语;从与所述情感词存在预定句法关系的词语中提取修饰词,以作为所述修饰词特征。在本申请的一些实施例中,基于前述方案,所述第二处理单元包括:调整单元,用于根据所述待处理文章中所包含的修饰词特征,调整所述修饰词特征所修饰的情感词特征的权重,得到所述情感词特征的修正权重;情感得分计算单元,用于根据所述情感词特征的修正权重计算所述待处理文章的情感得分;确定单元,用于基于所述待处理文章的情感得分确定所述待处理文章针对所述对象实体的情感倾向。在本申请的一些实施例中,基于前述方案,所述调整单元配置为:若所述修饰词特征的修饰属性为否定修饰或反转修饰,则将所述修饰词特征所修饰的情感词特征的权重调整为目标词特征的权重,所述目标词特征的情感倾向与所述情感词特征的情感倾向相反;若所述修饰词特征的修饰属性为疑问修饰,则将所述修饰词特征所修饰的情感词特征的权重置为设定值;若所述修饰词特征的修饰属性为程度修饰,则根据所述修饰词特征对所述情感词特征的修饰程度对所述情感词特征的权重进行调整。在本申请的一些实施例中,基于前述方案,所述情感得分计算单元配置为:确定所述待处理文章的各个段落所包含的各个情感词特征,根据所述各个情感词特征的修正权重计算所述各个段落的情感得分;根据所述各个段落的情感得分确定所述各个段落的情感倾向;根据所述各个段落的情感倾向计算所述待处理文章的情感得分。在本申请的一些实施例中,基于前述方案,所述确定单元配置为:若所述待处理文章的情感得分处于正向情感所对应的得分区间,则确定所述待处理文章针对所述对象实体的情感倾向为正向;若所述待处理文章的情感得分处于负向情感所对应的得分区间,则确定所述待处理文章针对所述对象实体的情感倾向为负向;若所述待处理文章的情感得分处于中性情感所对应的得分区间,则确定所述待处理文章针对所述对象实体的情感倾向为中性。在本申请的一些实施例中,基于前述方案,所述第二处理单元还用于:若基于所述待处理文章的情感得分未确定出所述待处理文章针对所述对象实体的情感倾向是正向还是负向,则通过情感倾向识别模型识别所述待处理文章针对所述对象实体的情感倾向;若根据所述情感倾向识别模型的识别结果不能确定所述待处理文章针对所述对象实体的情感倾向为正向还是负向,则确定所述待处理文章针对所述对象实体的情感倾向为中性。在本申请的一些实施例中,基于前述方案,在所述情感倾向识别模型包括多个识别模型的情况下,所述第二处理单元配置为:若所述多个识别模型中的一个识别模型识别出所述待处理文章针对所述对象实体的情感倾向为正向或负向,则确定通过所述情感倾向识别模型识别出了所述待处理文章针对所述对象实体的情感倾向;若所述多个识别模型中的一个识别模型未识别出所述待处理文章针对所述对象实体的情感倾向为正向还是负向,则通过所述多个识别模型中的下一个识别模型继续进行识别。在本申请的一些实施例中,基于前述方案,所述的文章数据处理装置还包括:第三处理单元,用于根据与各个对象实体相关联的文章数量及情感倾向,确定待推荐的目标对象实体,根据所述目标对象实体执行如下任一或多个操作:将所述待推荐的目标对象实体推荐给用户;从所述目标对象实体相关联的指定情感倾向的文章中抽取出关键语句,将所述关键语句推荐给用户;从所述目标对象实体相关联的指定情感倾向的文章中抽取出关键词,将所述关键词推荐给用户。在本申请的一些实施例中,基于前述方案,所述第三处理单元配置为:将存在于以下任一个对象实体集合或同时存在于多个对象实体集合中的对象实体作为所述目标对象实体:热度排名前n1位的第一对象实体集合、舆情指数排名前n2位的第二对象实体集合、正向情感指数排名前n3位的第三对象实体集合;或获取热度排名前n1位的第一对象实体集合,从所述第一对象实体集合中获取舆情指数排名前n2位的第二对象实体集合,从所述第二对象实体集合中获取正向情感指数排名前n3位的对象实体作为所述目标对象实体;或获取热度排名前n1位的第一对象实体集合,从所述第一对象实体集合中获取正向情感指数排名前n2位的第二对象实体集合,从所述第二对象实体集合中获取舆情指数排名前n3位的对象实体作为所述目标对象实体;或获取热度排名前n1位的第一对象实体集合,从所述第一对象实体集合中获取舆情指数或正向情感指数排名前n2位的对象实体作为所述目标对象实体;其中,所述热度表示在预定时间段内出现的相关文章的数量,所述舆情指数表示情感倾向为正向的文章占比与情感倾向为负向的文章占比之间的差值,所述正向情感指数表示情感倾向为正向的文章占比。在本申请的一些实施例中,基于前述方案,所述第三处理单元配置为:从所述指定情感倾向的文章中抽取出包含有情感词特征的目标语句;基于所述目标语句所包含的情感词特征之间的相似度,对所述目标语句进行聚类,得到多个第一类簇;根据所述多个第一类簇中所包含的目标语句的相似度,对所述多个第一类簇进行合并处本文档来自技高网...

【技术保护点】
1.一种文章数据处理方法,其特征在于,包括:识别待处理文章中所包含的对象实体;从所述待处理文章中提取出情感词特征和针对所述情感词特征的修饰词特征;根据所述情感词特征和所述修饰词特征确定所述待处理文章针对所述对象实体的情感倾向。

【技术特征摘要】
1.一种文章数据处理方法,其特征在于,包括:识别待处理文章中所包含的对象实体;从所述待处理文章中提取出情感词特征和针对所述情感词特征的修饰词特征;根据所述情感词特征和所述修饰词特征确定所述待处理文章针对所述对象实体的情感倾向。2.根据权利要求1所述的文章数据处理方法,其特征在于,识别待处理文章中所包含的对象实体,包括:根据预设的对象名称库,从所述待处理文章中提取出所述对象名称库中所包含的目标对象名称;基于对象名称与对象实体之间的对应关系,将与所述目标对象名称相对应的对象实体确定为所述待处理文章中所包含的对象实体。3.根据权利要求2所述的文章数据处理方法,其特征在于,在将与所述目标对象名称相对应的对象实体确定为所述待处理文章中所包含的对象实体之前,还包括:统计所述待处理文章中所包含的出现次数大于或等于预定次数的目标词语;根据所述目标词语与所述目标对象名称之间的相关性,对所述目标对象名称进行过滤处理。4.根据权利要求1所述的文章数据处理方法,其特征在于,从所述待处理文章中提取出情感词特征和针对所述情感词特征的修饰词特征,包括:根据预设的情感词库,从所述待处理文章中提取出所述情感词库中所包含的情感词,以作为所述情感词特征;根据从所述待处理文章中提取出的情感词,识别所述待处理文章中与所述情感词存在预定句法关系的词语;从与所述情感词存在预定句法关系的词语中提取修饰词,以作为所述修饰词特征。5.根据权利要求1所述的文章数据处理方法,其特征在于,根据所述情感词特征和所述修饰词特征确定所述待处理文章针对所述对象实体的情感倾向,包括:根据所述待处理文章中所包含的修饰词特征,调整所述修饰词特征所修饰的情感词特征的权重,得到所述情感词特征的修正权重;根据所述情感词特征的修正权重计算所述待处理文章的情感得分;基于所述待处理文章的情感得分确定所述待处理文章针对所述对象实体的情感倾向。6.根据权利要求5所述的文章数据处理方法,其特征在于,根据所述待处理文章中所包含的修饰词特征,调整所述修饰词特征所修饰的情感词特征的权重,包括:若所述修饰词特征的修饰属性为否定修饰或反转修饰,则将所述修饰词特征所修饰的情感词特征的权重调整为目标词特征的权重,所述目标词特征的情感倾向与所述情感词特征的情感倾向相反;若所述修饰词特征的修饰属性为疑问修饰,则将所述修饰词特征所修饰的情感词特征的权重置为设定值;若所述修饰词特征的修饰属性为程度修饰,则根据所述修饰词特征对所述情感词特征的修饰程度对所述情感词特征的权重进行调整。7.根据权利要求5所述的文章数据处理方法,其特征在于,根据所述情感词特征的修正权重计算所述待处理文章的情感得分,包括:确定所述待处理文章的各个段落所包含的各个情感词特征,根据所述各个情感词特征的修正权重计算所述各个段落的情感得分;根据所述各个段落的情感得分确定所述各个段落的情感倾向;根据所述各个段落的情感倾向计算所述待处理文章的情感得分。8.根据权利要求5所述的文章数据处理方法,其特征在于,还包括:若基于所述待处理文章的情感得分未确定出所述待处理文章针对所述对象实体的情感倾向是正向还是负向,则通过情感倾向识别模型识别所述待处理文章针对所述对象实体的情感倾向;若根据所述情感倾向识别模型的识别结果不能确定所述待处理文章针对所述对象实体的情感倾向为正向还是负向,则确定所述待处理文章针对所述对象实体的情感倾向为中性。9.根据权利要求1至8中任一项所述的文章数据处理方法,其特征在于,还包括:根据与...

【专利技术属性】
技术研发人员:梁军李典杰韩可心陈诚尹方亮李肇阳王军伟康明秦佳党祥杰
申请(专利权)人:财付通支付科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1