筛选信息的方法、装置、设备和介质制造方法及图纸

技术编号:23558185 阅读:21 留言:0更新日期:2020-03-25 03:48
本发明专利技术公开了筛选信息的方法、装置、设备和介质。该方法包括:预处理文本信息的标题得到内容信息;将内容信息进行分词和过滤停用词处理,得到文本词条,并计算文本词条的总体权重;将文本词条依照总体权重从大到小的顺序排序,并抽取前a个文本词条作为文本关键词,其中,a是小于文本词条的数目的正整数;根据文本关键词的相对权值,计算文本关键词所在的文本信息与初始关键词词库的匹配程度值;确定匹配程度值大于预设阈值的文本关键词所在的文本信息属于筛选信息。

Methods, devices, equipment and media for screening information

【技术实现步骤摘要】
筛选信息的方法、装置、设备和介质
本专利技术涉及计算机
,尤其涉及一种筛选信息的方法、装置、设备和介质。
技术介绍
面对大量的信息,可以从中快速和准确地筛选出所需要的信息就显得越来越重要。目前,多数采用人工处理的方法对大量的信息进行采集、过滤和筛选。这种通过制定爬虫模型,从网页中爬取需要的信息,然后根据特定关键词进行简单的过滤和筛选,进而对爬取的信息进行分类和筛选的人工处理方法,容易导致关键词词库更新不及时和容易操作失误,从而导致信息筛选的准确率不高。因此对于信息的筛选存在准确率不高的技术问题。
技术实现思路
本专利技术实施例提供了一种筛选信息的方法、装置、设备和介质,可以更加精准的筛选信息。根据本专利技术实施例的一方面,提供了一种筛选信息的方法,该方法包括:预处理文本信息的标题,得到内容信息;将内容信息进行分词和过滤停用词处理,得到文本词条,并计算文本词条的总体权重;将文本词条依照总体权重从大到小的顺序排序,并抽取前a个文本词条作为文本关键词,其中,a是小于文本词条的数目的正整数;根据文本关键词的相对权值,计算文本关键词所在的文本信息与初始关键词词库的匹配程度值;确定匹配程度值大于预设阈值的文本关键词所在的文本信息属于筛选信息。根据本专利技术实施例的另一方面,提供了一种筛选信息的装置,该装置包括:预处理模块,用于预处理文本信息的标题,得到内容信息;权重计算模块,用于将内容信息进行分词和过滤停用词处理,得到文本词条,并计算文本词条的总体权重;文本词条处理模块,用于将文本词条依照总体权重从大到小的顺序排序,并抽取前a个文本词条作为文本关键词,其中,a是小于文本词条的数目的正整数;匹配程度值计算模块,用于根据文本关键词的相对权值,计算文本关键词所在的文本信息与初始关键词词库的匹配程度值;信息分类模块,用于确定匹配程度值大于预设阈值的文本关键词所在的文本信息属于筛选信息。根据本专利技术实施例的另一方面,提供一种筛选信息的设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现如上述本专利技术实施例的任意一方面提供的筛选信息的方法。根据本专利技术实施例的另一方面,提供一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如上述本专利技术实施例的任意一方面提供的筛选信息的方法。本专利技术实施例提供的筛选信息的方法、装置、设备和介质。通过预处理文本信息的标题,缩小了文本信息的筛选范围;通过计算关键词在文本信息中的总体权重、计算文本关键词的相对权值以及根据相对权值计算文本关键词所在的文本信息与初始关键词词库的匹配程度值,可以使筛选结果更加精准。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出本专利技术一实施例的筛选信息的方法的流程图;图2示出本专利技术另一实施例的筛选信息的方法的流程图;图3示出本专利技术一实施例的筛选信息的装置的结构示意图;图4示出本专利技术另一实施例的筛选信息的装置的结构示意图;图5示出了能够实现根据本专利技术实施例的筛选信息的方法和装置的计算设备的示例性硬件架构的结构图。具体实施方式下面将详细描述本专利技术的各个方面的特征和示例性实施例,为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细描述。应当理解的是,此处所描述的具体实施例仅被配置为解释本专利技术,并不被配置为限定本专利技术。对于本领域技术人员来说,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术更好的理解。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。下面结合附图,详细描述根据本专利技术实施例的筛选信息的方法、装置、设备和介质。应当注意的是,这些实施例并不是用来限制本专利技术公开的范围。下面通过图1和图2详细介绍根据本专利技术实施例的筛选信息的方法。为了更好的理解本专利技术,下面结合图1对本专利技术一实施例的筛选信息的方法进行详细说明,图1示出本专利技术一实施例的筛选信息的方法的流程图。如图1所示,本专利技术实施例中的筛选信息的方法100包括以下步骤:S110,预处理文本信息的标题,得到内容信息。具体的,文本信息可以是农业新闻。作为一个示例,筛选信息时,首先,按照区域关键词搜索文本信息,并采集符合区域关键词的文本信息的标题。其中,区域关键词可以是:国家第三级和第四级行政单位名称。其次,在经过采集得到的符合区域关键词的文本信息的标题中,确定包括初始关键词词库中关键词的标题。采集确定的标题所在文本信息的关键信息,并将关键信息存入数据库当中。其中,关键信息可以是文本信息的标题、发布时间、信息来源和文本信息链接。接下来,通过数据库内的文本信息链接,得到文本信息,通过制定爬虫模型,爬取上述文本信息的内容信息,并将内容信息存入数据库内。其中,内容信息可以是标题、摘要、导读、正文和结论。下面以筛选信息是涉农信息为例,举例说明S110的详细过程。确定筛选信息是涉农信息时,首先,选择“万州分水镇”作为区域关键词,对文本信息进行筛选,得到200条符合“万州分水镇”区域关键词的文本信息。采集上述符合“万州分水镇”区域关键词的200条文本信息的标题。其次,从上述200条文本信息的标题中筛选出包括初始关键词词库中关键词的标题,得到50条文本信息的标题。采集上述50条文本信息的标题所在文本信息的关键信息。例如:标题、发布时间、信息来源和文本信息链接,并将上述采集到的标题、发布时间、信息来源和文本信息链接存入数据库内。接下来,通过数据库内的文本信息链接,确定对应的50条文本信息。通过爬虫模型,爬取上述50条文本信息的标题、摘要、导读、正文和结论。在本专利技术实施例中,通过区域关键词对文本信息的标题进行预处理,缩小了文本信息的筛选范围,排除掉无效信息;通过确定包括有初始关键词词库中关键词的标题,排除不符合筛选要求的文本信息,使筛选结果更加精准。S120,将内容信息进行分词和过滤停用词处理,得到文本词条,并计算文本词条的总体权重。本文档来自技高网...

【技术保护点】
1.一种筛选信息的方法,其特征在于,包括:/n预处理文本信息的标题,得到内容信息;/n将所述内容信息进行分词和过滤停用词处理,得到文本词条,并计算所述文本词条的总体权重;/n将所述文本词条依照所述总体权重从大到小的顺序排序,并抽取前a个文本词条作为文本关键词,其中,a是小于所述文本词条的数目的正整数;/n根据所述文本关键词的相对权值,计算所述文本关键词所在的文本信息与初始关键词词库的匹配程度值;/n确定所述匹配程度值大于预设阈值的所述文本关键词所在的文本信息属于筛选信息。/n

【技术特征摘要】
1.一种筛选信息的方法,其特征在于,包括:
预处理文本信息的标题,得到内容信息;
将所述内容信息进行分词和过滤停用词处理,得到文本词条,并计算所述文本词条的总体权重;
将所述文本词条依照所述总体权重从大到小的顺序排序,并抽取前a个文本词条作为文本关键词,其中,a是小于所述文本词条的数目的正整数;
根据所述文本关键词的相对权值,计算所述文本关键词所在的文本信息与初始关键词词库的匹配程度值;
确定所述匹配程度值大于预设阈值的所述文本关键词所在的文本信息属于筛选信息。


2.根据权利要求1所述筛选信息的方法,其特征在于,所述预处理文本信息的标题,得到内容信息之前,还包括:
确定所述初始关键词词库。


3.根据权利要求1所述筛选信息的方法,其特征在于,所述预处理文本信息的标题,得到内容信息,包括:
按照区域关键词搜索文本信息,采集所述文本信息的标题,所述区域关键词包括:国家第三级和第四级行政单位名称;
在所述文本信息的标题中,确定包括所述初始关键词词库中关键词的所述标题;
采集确定的标题所在文本信息的关键信息,其中,所述关键信息包括:标题、发布时间、信息来源和文本信息链接;
通过所述文本信息链接,得到所述关键信息所在的文本信息的内容信息,其中,所述内容信息包括:标题、摘要、导读、正文和结论。


4.根据权利要求1所述筛选信息的方法,其特征在于,所述计算所述文本词条的总体权重,包括:
设定预设位置的位置权重,统计所述文本词条在每个所述预设位置的词频,所述预设位置包括:标题、摘要、导读、正文和结论;
所述文本词条的总体权重等于所述文本词条在所有预设位置的总体位置权重之和,所述总体位置权重等于所述文本词条所在的一个预设位置对应的位置权重与所述文本词条在所述一个预设位置的词频的乘积。


5.根据权利要求1所述筛选信息的方法,其特征在于,所述文本关键词的相对权值等于所述文本关键词的总体权重与所有文本关键词的总体权重之和的比值。


6.根据权利要求1所述筛选信息的方法,其特征在于,...

【专利技术属性】
技术研发人员:马安君
申请(专利权)人:中国移动通信集团重庆有限公司中国移动通信集团有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1