信息处理方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:32908513 阅读:21 留言:0更新日期:2022-04-07 11:59
本发明专利技术公开了一种信息处理方法、装置、设备及计算机可读存储介质,其中方法包括:获取待处理信息的标题对应的关键词集合;基于所述关键词集合中不同关键词在所述待处理信息的正文的相对位置关系,确定所述标题与所述正文之间的关联度;其中,当所述相对位置关系对应的关联度大于预设阈值时,所述标题与所述正文之间的关联度高。本发明专利技术实现了根据标题中各个关键词在正文中的位置确定标题与正文之间的关联度,通过兼顾标题信息中各个关键词在正文中的相对位置关系,提高标题与正文之间关联度的准确性。的准确性。的准确性。

【技术实现步骤摘要】
信息处理方法、装置、设备及计算机可读存储介质


[0001]本专利技术涉及信息处理
,尤其涉及一种信息处理方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着计算机的普及和网络的飞速发展,互联网上各种新闻的数量快速积累,但爆炸式增长的新闻中往往包含大量的标题党新闻,即新闻标题与新闻正文不相关的新闻。
[0003]目前,针对标题党新闻的识别通常是提取新闻正文和标题中的关键词,然后基于关键词是否匹配的方式进行新闻标题与新闻正文是否相关的识别。但是,在相关性识别过程中并未考虑标题中的关键词在新闻正文中的位置,导致识别结果不准确。
[0004]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0005]本专利技术的主要目的在于提供一种信息处理方法、装置、设备及计算机可读存储介质,旨在解决现有新闻标题与新闻正文的相关性识别不准确的技术问题。
[0006]为实现上述目的,本专利技术提供一种信息处理方法,所述信息处理方法包括:
[0007]获取待处理信息的标题对应的关键词集合;
[0008]基于所述关键词集合中不同关键词在所述待处理信息的正文的相对位置关系,确定所述标题与所述正文之间的关联度;其中,当所述相对位置关系对应的关联度大于预设阈值时,所述标题与所述正文之间的关联度高。
[0009]进一步地,所述基于所述关键词集合中不同关键词在所述待处理信息的正文的相对位置关系,确定所述标题与所述正文之间的关联度的步骤包括:
[0010]基于所述正文中的换行符,确定所述正文对应的段落信息,其中,所述段落信息包括首段、中间段以及尾段;
[0011]确定关键词集合中的各个关键词中,与所述段落信息中一个段落匹配的第一关键词,与所述段落信息中两个段落匹配的第二关键词,以及与所述段落信息中三个段落匹配的第三关键词;
[0012]基于所述第一关键词、第二关键词以及第三关键词,确定所述标题与所述正文之间的关联度。
[0013]进一步地,所述基于所述第一关键词、第二关键词以及第三关键词,确定所述标题与所述正文之间的关联度的步骤包括:
[0014]获取第一关键词对应的第一权重、第二关键词对应的第二权重以及第三关键词对应的第三权重;
[0015]基于所述第一权重、第二权重、第三权重、所述第一关键词的数量、第二关键词的数量以及第三关键词的数量,确定所述标题与所述正文之间的关联度。
[0016]进一步地,所述基于所述第一关键词、第二关键词以及第三关键词,确定所述标题与所述正文之间的关联度的步骤包括:
[0017]基于所述第一关键词、第二关键词以及第三关键词,确定所述标题与所述正文之间的第一相关度;
[0018]基于所述正文对应的句子信息以及所述关键词集合,确定所述标题与所述正文之间的第二相关度,并基于所述正文对应的正文关键词以及所述关键词集合,确定所述标题与所述正文之间的第三相关度;
[0019]基于所述第一相关度、第二相关度以及第三相关度,确定所述标题与所述正文之间的关联度。
[0020]进一步地,所述基于所述正文对应的句子信息以及所述关键词集合,确定所述标题与所述正文之间的第二相关度的步骤包括:
[0021]在句子信息的各个句子中,确定与关键词集合的关键词匹配的目标句子;
[0022]确定目标句子中与关键词集合的多个关键词匹配的第一目标句子,并确定所述第一目标句子中同一句子存在相邻关键词的句子的第一句子数量;
[0023]基于句子信息中各个句子的顺序,确定目标句子中的相邻的第二目标句子,并确定相邻的第二目标句子中存在相邻关键词的第二句子数量;
[0024]基于第一句子数量以及第二句子数量,确定所述第二相关度。
[0025]进一步地,所述基于所述正文对应的正文关键词以及所述关键词集合,确定所述标题与所述正文之间的第三相关度的步骤包括:
[0026]获取所述关键词集合的各个关键词对应的同义词,确定包括所述同义词以及所述关键词集合的各个关键词的待匹配词集合;
[0027]确定所述待匹配词集合的各个待匹配词属于正文关键词的目标待匹配词的匹配关键词数量;
[0028]基于所述匹配关键词数量,确定所述第三相关度。
[0029]进一步地,所述基于所述第一相关度、第二相关度以及第三相关度,确定所述标题与所述正文之间的关联度的步骤包括:
[0030]获取所述第一相关度、第二相关度以及第三相关度的相关度和;
[0031]基于关键词集合中关键词的数量,确定相关度阈值;
[0032]基于所述相关度和以及相关度阈值,确定所述关联度。
[0033]此外,为实现上述目的,本专利技术还提供一种信息处理装置,所述信息处理装置包括:
[0034]获取模块,用于获取待处理信息的标题对应的关键词集合;
[0035]确定模块,用于基于所述关键词集合中不同关键词在所述待处理信息的正文的相对位置关系,确定所述标题与所述正文之间的关联度;其中,当所述相对位置关系对应的关联度大于预设阈值时,所述标题与所述正文之间的关联度高。
[0036]此外,为实现上述目的,本专利技术还提供一种信息处理设备,所述信息处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息处理程序,所述信息处理程序被所述处理器执行时实现前述的信息处理方法的步骤。
[0037]此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读
存储介质上存储有信息处理程序,所述信息处理程序被处理器执行时实现前述的信息处理方法的步骤。
[0038]本专利技术通过获取待处理信息的标题对应的关键词集合;接着基于所述关键词集合中不同关键词在所述待处理信息的正文的相对位置关系,确定所述标题与所述正文之间的关联度;其中,当所述相对位置关系对应的关联度大于预设阈值时,所述标题与所述正文之间的关联度高,实现了根据标题中各个关键词在正文中的位置确定标题与正文之间的关联度,通过兼顾标题信息中各个关键词在正文中的相对位置关系,提高标题与正文之间关联度的准确性。
附图说明
[0039]图1是本专利技术实施例方案涉及的硬件运行环境中信息处理设备的结构示意图;
[0040]图2为本专利技术信息处理方法第一实施例的流程示意图;
[0041]图3为本专利技术信息处理装置一实施例的功能模块示意图。
[0042]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0043]应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0044]如图1所示,图1是本专利技术实施例方案涉及的硬件运行环境中信息处理设备的结构示意图。
[0045]本专利技术实施例信息处理设备可以是PC。如图1所示,该信息处理设备可以包括:处理器1001,例如CPU,网络接口10本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法,其特征在于,所述方法包括:获取待处理信息的标题对应的关键词集合;基于所述关键词集合中不同关键词在所述待处理信息的正文的相对位置关系,确定所述标题与所述正文之间的关联度;其中,当所述相对位置关系对应的关联度大于预设阈值时,所述标题与所述正文之间的关联度高。2.如权利要求1所述的信息处理方法,其特征在于,所述基于所述关键词集合中不同关键词在所述待处理信息的正文的相对位置关系,确定所述标题与所述正文之间的关联度的步骤包括:基于所述正文中的换行符,确定所述正文对应的段落信息,其中,所述段落信息包括首段、中间段以及尾段;确定关键词集合中的各个关键词中,与所述段落信息中一个段落匹配的第一关键词,与所述段落信息中两个段落匹配的第二关键词,以及与所述段落信息中三个段落匹配的第三关键词;基于所述第一关键词、第二关键词以及第三关键词,确定所述标题与所述正文之间的关联度。3.如权利要求2所述的信息处理方法,其特征在于,所述基于所述第一关键词、第二关键词以及第三关键词,确定所述标题与所述正文之间的关联度的步骤包括:获取第一关键词对应的第一权重、第二关键词对应的第二权重以及第三关键词对应的第三权重;基于所述第一权重、第二权重、第三权重、所述第一关键词的数量、第二关键词的数量以及第三关键词的数量,确定所述标题与所述正文之间的关联度。4.如权利要求2所述的信息处理方法,其特征在于,所述基于所述第一关键词、第二关键词以及第三关键词,确定所述标题与所述正文之间的关联度的步骤包括:基于所述第一关键词、第二关键词以及第三关键词,确定所述标题与所述正文之间的第一相关度;基于所述正文对应的句子信息以及所述关键词集合,确定所述标题与所述正文之间的第二相关度,并基于所述正文对应的正文关键词以及所述关键词集合,确定所述标题与所述正文之间的第三相关度;基于所述第一相关度、第二相关度以及第三相关度,确定所述标题与所述正文之间的关联度。5.如权利要求4所述的信息处理方法,其特征在于,所述基于所述正文对应的句子信息以及所述关键词集合,确定所述标题与所述正文之间的第二相关度的步骤包括...

【专利技术属性】
技术研发人员:郭金坤
申请(专利权)人:咪咕文化科技有限公司中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1