互联网用户关注点的抽取方法及装置制造方法及图纸

技术编号:36781786 阅读:20 留言:0更新日期:2023-03-08 22:17
本公开提供了一种互联网用户关注点的抽取方法及装置,涉及人工智能领域,具体涉及自然语言处理、深度学习技术,可应用在智慧城市、智慧政务和舆情分析场景下。具体实现方案为:获取目标舆情事件和/或目标舆情新闻的标识信息;根据标识信息,获取互联网用户对目标舆情事件和/或目标舆情新闻的评论信息;对评论信息进行预处理,获得子评论信息;基于依存句法分析,将满足目标句法结构的子评论信息确定为候选关注点;对候选关注点进行聚合处理,获取互联网用户关注点。本公开可以有效在第一时间及时且准确地获取在舆情事件或舆情新闻中互联网用户的主要关注点。联网用户的主要关注点。联网用户的主要关注点。

【技术实现步骤摘要】
互联网用户关注点的抽取方法及装置


[0001]本公开涉及人工智能领域,具体涉及自然语言处理、深度学习技术,尤其涉及一种互联网用户关注点的抽取方法及装置,可应用在智慧城市、智慧政务和舆情分析场景下。

技术介绍

[0002]相关技术中,对舆情事件或舆情新闻的分析处理,通常是从舆情事件或舆情新闻中进行信息抽取。信息抽取主要分为新闻摘要和新闻标题抽取。其中,新闻摘要抽取通常是从新闻事件文本中抽取出能够体现新闻来龙去脉的简要介绍。新闻标题抽取通常是从新闻事件文本中抽取出能够概括或评价该新闻的简短文字。不管是新闻摘要还是新闻标题抽取都是对新闻事件本身进行文本处理,抽取到的信息是直接体现新闻事件本身。
[0003]随着互联网以及多媒体的快速发展,用户可以更快速且更便捷的获得舆情事件或舆情新闻。但是,相关技术中尚且缺乏用于抽取互联网用户关注点的有效手段。

技术实现思路

[0004]本公开提供了一种互联网用户关注点的抽取方法、装置、电子设备以及存储介质。
[0005]根据本公开的第一方面,提供了一种互联网用户关注点的抽取方法,包括:
[0006]获取目标舆情事件和/或目标舆情新闻的标识信息;
[0007]根据所述标识信息,获取互联网用户对所述目标舆情事件和/或所述目标舆情新闻的评论信息;
[0008]对所述评论信息进行预处理,获得子评论信息;
[0009]基于依存句法分析,将满足目标句法结构的子评论信息确定为候选关注点;
[0010]对所述候选关注点进行聚合处理,获取所述互联网用户关注点。
[0011]根据本公开的第二方面,提供了一种互联网用户关注点的抽取装置,包括:
[0012]第一获取模块,用于获取目标舆情事件和/或目标舆情新闻的标识信息;
[0013]第二获取模块,用于根据所述标识信息,获取互联网用户对所述目标舆情事件和/或所述目标舆情新闻的评论信息;
[0014]预处理模块,用于对所述评论信息进行预处理,获得子评论信息;
[0015]句法解析模块,用于基于依存句法分析,将满足目标句法结构的子评论信息确定为候选关注点;
[0016]聚合模块,用于对所述候选关注点进行聚合处理,获取所述互联网用户关注点。
[0017]根据本公开的第三方面,提供了一种电子设备,包括:
[0018]至少一个处理器;以及
[0019]与所述至少一个处理器通信连接的存储器;其中,
[0020]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面所述的方法。
[0021]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储
介质,其中,所述计算机指令用于使所述计算机执行前述第一方面所述的方法。
[0022]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现前述第一方面所述方法的步骤。
[0023]根据本公开的技术方案,可以有效在第一时间及时且准确地获取在舆情事件或舆情新闻中互联网用户的主要关注点,以用于有针对性的处理互联网用户关系问题的重要依据,进而可以有针对性的做出反应动作,实现快速响应。
[0024]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0025]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0026]图1为本公开实施例提供的一种互联网用户关注点的抽取方法的流程图;
[0027]图2为本公开实施例提供的另一种互联网用户关注点的抽取方法的流程图;
[0028]图3为本公开实施例提供的一种评论信息的预处理方法的流程图;
[0029]图4为本公开实施例提供的另一种互联网用户关注点的抽取方法的流程图;
[0030]图5为本公开实施例提供的又一种互联网用户关注点的抽取方法的流程图;
[0031]图6为本公开实施例提供的一种互联网用户关注点的抽取装置的结构框图;
[0032]图7是用来实现本公开实施例的互联网用户关注点的抽取方法的电子设备的框图。
具体实施方式
[0033]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0034]在本公开的描述中,除非另有说明,“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
[0035]在本公开实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开实施例。在本公开实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
[0036]应当理解,尽管在本公开实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”及“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0037]需要说明的是,在本公开的实施例中,术语“互联网用户关注点”是指互联网用户通过评论表达,对舆情事件或舆情新闻各方面要素中最关注的某个侧面。例如,在舆情事件或舆情新闻的各个要素中,互联网用户对其中要素的某个侧面发表自己的疑问、建议、不
满、赞成等态度,这个侧面即可理解为互联网用户对于舆情事件或舆情新闻的关注点,也可理解为互联网对于舆情事件发表评论或舆情新闻发表评论的详细评论对象。
[0038]值得注意的是,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0039]下面参考附图描述本公开实施例的互联网用户关注点的抽取方法、装置、电子设备和存储介质。
[0040]图1为本公开实施例提供的一种互联网用户关注点的抽取方法的流程图。如图1所示,该方法可包括不限于如下步骤。
[0041]在步骤101中,获取目标舆情事件和/或目标舆情新闻的标识信息。
[0042]其中,在本公开的实施例中,该标识信息可以是名称信息(也可称为标题名称信息)和/或ID(Identification,标识)。作为一种示例,该标识可以是名称信息,或者也可以是ID本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种互联网用户关注点的抽取方法,包括:获取目标舆情事件和/或目标舆情新闻的标识信息;根据所述标识信息,获取互联网用户对所述目标舆情事件和/或所述目标舆情新闻的评论信息;对所述评论信息进行预处理,获得子评论信息;基于依存句法分析,将满足目标句法结构的子评论信息确定为候选关注点;对所述候选关注点进行聚合处理,获取所述互联网用户关注点。2.如权利要求1所述的方法,其中,所述标识信息包括名称信息;所述根据所述标识信息,获取互联网用户对所述目标舆情事件和/或所述目标舆情新闻的评论信息,包括:对所述名称信息进行分词处理,获得多个分词和每个所述分词的位置信息;基于所述多个分词和每个所述分词的位置信息,在新闻数据库中匹配新闻标题,并获取包括所述多个分词且每个所述分词出现顺序正确的目标新闻标题;从所述新闻数据库中召回与所述目标新闻标题对应的评论信息,以获得互联网用户对所述目标舆情事件和/或所述目标舆情新闻的评论信息。3.如权利要求2所述的方法,其中,所述从所述新闻数据库中召回与所述目标新闻标题对应的评论信息,以获得互联网用户对所述目标舆情事件和/或所述目标舆情新闻的评论信息,包括:获取时间信息;在所述新闻数据库中检索与所述目标新闻标题对应的第一评论信息,并从所述新闻数据库中召回评论时间包含于所述时间信息的所述第一评论信息;将所述召回的第一评论信息确定为互联网用户对所述目标舆情事件和/或所述目标舆情新闻的评论信息。4.如权利要求1所述的方法,其中,所述对所述评论信息进行预处理,获得子评论信息,包括:基于第一关键词对所述评论信息进行文本过滤,以剔除包含所述第一关键词的评论信息,其中,所述第一关键词为不属于所述互联网用户关注点的字词;对经过所述文本过滤后保留的评论信息进行文本清洗;对经过所述文本清洗的评论信息进行文本切句,获取所述子评论信息。5.如权利要求4所述的方法,其中,所述对所述经过文本过滤后保留的评论信息进行文本清洗,包括:将所述经过文本过滤后保留的评论信息中的文本格式转换成目标文本格式;对经过所述文本格式转换的评论信息进行文本清洗。6.如权利要求4或5所述的方法,其中,所述对经过所述文本清洗的评论信息进行文本切句,获取所述子评论信息,包括:对经过所述文本清洗的评论信息进行文本切句,获取第一子评论信息;基于第二关键词对所述第一子评论信息进行短句过滤,以剔除包含所述第二关键词的第一子评论信息;将经过所述短句过滤后保留的第一子评论信息,确定为所述子评论信息。7.如权利要求6所述的方法,其中,所述将经过所述短句过滤后保留的第一子评论信
息,确定为所述子评论信息,包括:根据所述互联网用户关注点的定义及应用场景,确定第三关键词;基于所述第三关键词对经过所述短句过滤后保留的第一子评论信息进行关键词过滤,以保留包含所述第三关键词的第一子评论信息;根据经过所述关键词过滤后保留的第一子评论信息,获取所述子评论信息。8.如权利要求7所述的方法,其中,所述根据经过所述关键词过滤后保留的第一子评论信息,获取所述子评论信息,包括:对经过所述关键词过滤后保留的第一子评论信息进行去重处理,并将经过所述去重处理后得到的第一子评论信息确定为所述子评论信息。9.如权利要求1所述的方法,其中,所述基于依存句法分析,将满足目标句法结构的子评论信息确定为候选关注点,包括:对所述子评论信息进行依存句法分析,获得所述子评论信息的依存句法分析结果;基于所述依存句法分析结果,分析所述子评论信息的句子语法结构;将包含主谓宾结构的子评论信息确定为所述候选关注点。10.如权利要求1所述的方法,其中,所述对所述候选关注点进行聚合处理,获取所述互联网用户关注点,包括:确定DBSCAN聚类参数半径值和形成高密度区域所需的最少样本数;采用距离度量,基于DBSCAN聚类算法将所述候选关注点聚类为关注点簇;基于所述关注点簇,获取所述互联网用户关注点。11.一种互联网用户关注点的抽取装置,包括:第一获取模块,用...

【专利技术属性】
技术研发人员:张策陈程齐晓辉龚建李树军
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1