【技术实现步骤摘要】
互联网用户关注点的抽取方法及装置
[0001]本公开涉及人工智能领域,具体涉及自然语言处理、深度学习技术,尤其涉及一种互联网用户关注点的抽取方法及装置,可应用在智慧城市、智慧政务和舆情分析场景下。
技术介绍
[0002]相关技术中,对舆情事件或舆情新闻的分析处理,通常是从舆情事件或舆情新闻中进行信息抽取。信息抽取主要分为新闻摘要和新闻标题抽取。其中,新闻摘要抽取通常是从新闻事件文本中抽取出能够体现新闻来龙去脉的简要介绍。新闻标题抽取通常是从新闻事件文本中抽取出能够概括或评价该新闻的简短文字。不管是新闻摘要还是新闻标题抽取都是对新闻事件本身进行文本处理,抽取到的信息是直接体现新闻事件本身。
[0003]随着互联网以及多媒体的快速发展,用户可以更快速且更便捷的获得舆情事件或舆情新闻。但是,相关技术中尚且缺乏用于抽取互联网用户关注点的有效手段。
技术实现思路
[0004]本公开提供了一种互联网用户关注点的抽取方法、装置、电子设备以及存储介质。
[0005]根据本公开的第一方面,提供了一种互联网用户关注点的抽取方法,包括:
[0006]获取目标舆情事件和/或目标舆情新闻的标识信息;
[0007]根据所述标识信息,获取互联网用户对所述目标舆情事件和/或所述目标舆情新闻的评论信息;
[0008]对所述评论信息进行预处理,获得子评论信息;
[0009]基于依存句法分析,将满足目标句法结构的子评论信息确定为候选关注点;
[0010]对所述候选关注点进行聚合处理, ...
【技术保护点】
【技术特征摘要】
1.一种互联网用户关注点的抽取方法,包括:获取目标舆情事件和/或目标舆情新闻的标识信息;根据所述标识信息,获取互联网用户对所述目标舆情事件和/或所述目标舆情新闻的评论信息;对所述评论信息进行预处理,获得子评论信息;基于依存句法分析,将满足目标句法结构的子评论信息确定为候选关注点;对所述候选关注点进行聚合处理,获取所述互联网用户关注点。2.如权利要求1所述的方法,其中,所述标识信息包括名称信息;所述根据所述标识信息,获取互联网用户对所述目标舆情事件和/或所述目标舆情新闻的评论信息,包括:对所述名称信息进行分词处理,获得多个分词和每个所述分词的位置信息;基于所述多个分词和每个所述分词的位置信息,在新闻数据库中匹配新闻标题,并获取包括所述多个分词且每个所述分词出现顺序正确的目标新闻标题;从所述新闻数据库中召回与所述目标新闻标题对应的评论信息,以获得互联网用户对所述目标舆情事件和/或所述目标舆情新闻的评论信息。3.如权利要求2所述的方法,其中,所述从所述新闻数据库中召回与所述目标新闻标题对应的评论信息,以获得互联网用户对所述目标舆情事件和/或所述目标舆情新闻的评论信息,包括:获取时间信息;在所述新闻数据库中检索与所述目标新闻标题对应的第一评论信息,并从所述新闻数据库中召回评论时间包含于所述时间信息的所述第一评论信息;将所述召回的第一评论信息确定为互联网用户对所述目标舆情事件和/或所述目标舆情新闻的评论信息。4.如权利要求1所述的方法,其中,所述对所述评论信息进行预处理,获得子评论信息,包括:基于第一关键词对所述评论信息进行文本过滤,以剔除包含所述第一关键词的评论信息,其中,所述第一关键词为不属于所述互联网用户关注点的字词;对经过所述文本过滤后保留的评论信息进行文本清洗;对经过所述文本清洗的评论信息进行文本切句,获取所述子评论信息。5.如权利要求4所述的方法,其中,所述对所述经过文本过滤后保留的评论信息进行文本清洗,包括:将所述经过文本过滤后保留的评论信息中的文本格式转换成目标文本格式;对经过所述文本格式转换的评论信息进行文本清洗。6.如权利要求4或5所述的方法,其中,所述对经过所述文本清洗的评论信息进行文本切句,获取所述子评论信息,包括:对经过所述文本清洗的评论信息进行文本切句,获取第一子评论信息;基于第二关键词对所述第一子评论信息进行短句过滤,以剔除包含所述第二关键词的第一子评论信息;将经过所述短句过滤后保留的第一子评论信息,确定为所述子评论信息。7.如权利要求6所述的方法,其中,所述将经过所述短句过滤后保留的第一子评论信
息,确定为所述子评论信息,包括:根据所述互联网用户关注点的定义及应用场景,确定第三关键词;基于所述第三关键词对经过所述短句过滤后保留的第一子评论信息进行关键词过滤,以保留包含所述第三关键词的第一子评论信息;根据经过所述关键词过滤后保留的第一子评论信息,获取所述子评论信息。8.如权利要求7所述的方法,其中,所述根据经过所述关键词过滤后保留的第一子评论信息,获取所述子评论信息,包括:对经过所述关键词过滤后保留的第一子评论信息进行去重处理,并将经过所述去重处理后得到的第一子评论信息确定为所述子评论信息。9.如权利要求1所述的方法,其中,所述基于依存句法分析,将满足目标句法结构的子评论信息确定为候选关注点,包括:对所述子评论信息进行依存句法分析,获得所述子评论信息的依存句法分析结果;基于所述依存句法分析结果,分析所述子评论信息的句子语法结构;将包含主谓宾结构的子评论信息确定为所述候选关注点。10.如权利要求1所述的方法,其中,所述对所述候选关注点进行聚合处理,获取所述互联网用户关注点,包括:确定DBSCAN聚类参数半径值和形成高密度区域所需的最少样本数;采用距离度量,基于DBSCAN聚类算法将所述候选关注点聚类为关注点簇;基于所述关注点簇,获取所述互联网用户关注点。11.一种互联网用户关注点的抽取装置,包括:第一获取模块,用...
【专利技术属性】
技术研发人员:张策,陈程,齐晓辉,龚建,李树军,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。