【技术实现步骤摘要】
一种主题热点提取方法及系统
[0001]本专利技术涉及互联网大数据领域,更具体地说,涉及一种主题热点提取方法及系统。
技术介绍
[0002]互联网产生的文本数据越来越多,文本信息过载问题也日益严重,自动化提取主题热点便是让用户在当今世界海量的互联网数据中找到有效的信息的一个重要手段。但当前的自动化提取效率较低、投入较高且不易于人工阅读。
技术实现思路
[0003]本专利技术要解决的技术问题是提供一种主题热点提取方法及系统,以解决
技术介绍
中提到的问题。
[0004]为了达到上述目的,本专利技术采取以下技术方案:
[0005]一种主题热点提取方法,包括步骤:
[0006]S1:输入多个资讯,根据每个资讯的标题匹配每个资讯所对应的主题,并将表示该资讯的json文件放置于表示相应主题的csv文件下;所述json文件包含资讯的id、标题以及内容;
[0007]S2:在每一主题下抽取n条对应的若干资讯,并利用Textrank法抽取每条资讯的前k个关键句组合每条资讯的关键句,将n条资讯所得到 ...
【技术保护点】
【技术特征摘要】
1.一种主题热点提取方法,其特征在于,包括步骤:S1:输入多个资讯,根据每个资讯的标题匹配每个资讯所对应的主题,并将表示该资讯的json文件放置于表示相应主题的csv文件下;所述json文件包含资讯的id、标题以及内容;S2:在每一主题下抽取n条对应的若干资讯,并利用Textrank法抽取每条资讯的前k个关键句组合每条资讯的关键句,将n条资讯所得到的所有关键句组成该主题下的关键句列表;S3:利用Textrank法对每个主题下的关键句列表进行关键句排序,再将排序后的关键句列表输入MMR模型中进行兼顾重要性和多样性的重排,并从中抽取前p个句子作为该主题的摘要句。2.根据权利要求1所述主题热点提取方法,其特征在于,所述方法还包括:S4:将每个主题的关键信息提炼并整理到json文件输出;所述关键信息包括:每个主题的时间、关键词、主题标题、摘要列表;其中摘要列表包括每篇资讯的id、来源、时间、资讯标题、S3所提取的摘要句、url。3.根据权利要求1所述主题热点提取方法,其特征在于,所述方法还包括:S4:利用Bert算法对资讯标题进行压缩形成短语级标题;S5:将每个主题的关键信息提炼并整理到json文件输出;所述关键信息包括:每个主题的时间、关键词、主题标题、摘要列表;其中摘要列表包括每篇资讯的id、来源、时间、资讯的短语级标题、S3所提取的摘要句、url。4.根据权利要求3所述...
【专利技术属性】
技术研发人员:林铮宇,沈志岗,唐中柱,周子玙,崔俊交,
申请(专利权)人:苏州新建元数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。