一种信息归类的方法、装置及电子设备制造方法及图纸

技术编号:22166942 阅读:27 留言:0更新日期:2019-09-21 10:35
本发明专利技术的实施例公开一种信息归类的方法、装置及电子设备,涉及计算机技术领域,能够提高信息归类的准确率和归类效率。所述方法包括:通过关键词白名单对待归类信息中所包含的词语进行筛选,得到符合所述关键词白名单的第一词语集以及不符合所述关键词白名单的第二词语集;按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语,得到第三词语集;从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似的词语,形成第四词语集;根据所述关键词白名单中与所述第一词语集中的词语相同的关键词和与所述第四词语集中的词语相似的关键词,确定所述待归类信息的类别。本发明专利技术适用于对信息进行归类。

A Method, Device and Electronic Equipment for Information Classification

【技术实现步骤摘要】
一种信息归类的方法、装置及电子设备
本专利技术涉及计算机
,尤其涉及一种信息归类的方法、装置及电子设备。
技术介绍
随着信息行业和互联网的发展,网络媒体信息的数量日益增长,人们每天接收到的媒体报道成千上万。目前,各大新闻网站通常采用人工分类的方法对媒体报道信息进行分类。由于人工对信息分类的方法耗时耗力,并且效率较低,因此常常只能将信息分为固定的几大类。然而,每一用户所关心的事件各不相同,用户很难根据简单固定的分类,查找到与其所关心的事件相关的信息。
技术实现思路
有鉴于此,本专利技术实施例提供一种信息归类的方法、装置及电子设备,能够提高信息归类的准确率和归类效率。第一方面,本专利技术实施例一提供一种信息归类的方法,所述方法包括:通过关键词白名单对待归类信息中所包含的词语进行筛选,得到符合所述关键词白名单的第一词语集以及不符合所述关键词白名单的第二词语集,所述第二词语集中互不相同的词语的个数为M,M为正整数;按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语,得到第三词语集,其中N<M,N为正整数;从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集;根据所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词,确定所述待归类信息的类别。可选的,所述方法还包括:在通过关键词白名单对待归类信息中所包含的词语进行筛选之前,从所述待归类信息所包含的词语中过滤掉被列入预设关键词黑名单的词语;或者在按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语之前,从所述第二词语集中过滤掉被列入预设关键词黑名单的词语;或者从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集之前,从所述第三词语集中过滤掉被列入预设关键词黑名单的词语。可选的,所述根据所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词,确定所述待归类信息的类别包括:确定所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型;统计每种事件类型的出现次数;将各种事件类型的出现次数按照由高到低的顺序排序,筛选出排在前K位的事件类型作为所述待归类信息的类别,其中K为正整数。可选的,所述确定所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型包括:按照所述关键词白名单中预先设定的映射关系,确定与所述第一词语集中的词语相同的关键词和与所述第四词语集中的词语相似的关键词所指示的事件类型;或者根据预设模型,计算出所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型。可选的,所述确定所述待归类信息的类别之后,所述方法还包括:根据所述待归类信息的分类准确性,调整所述关键词白名单和/或所述预设相似阈值。可选的,所述通过关键词白名单对待归类信息中所包含的词语进行筛选之前,所述方法还包括:获取待归类信息;利用分词技术对所述待归类信息中包含的文字内容进行分词处理,得到所述待归类信息中所包含的词语。可选的,所述从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集包括:利用语义分析技术对所述第三词语集中的词语以及关键词白名单中的关键词进行语义分析;根据预设相似阈值,筛选出第三词语集中与所述关键词白名单中的关键词语义相近的词语,形成第四词语集。第二方面,本专利技术实施例二提供一种信息归类的装置,所述装置包括:第一筛选模块,用于通过关键词白名单对待归类信息中所包含的词语进行筛选,得到符合所述关键词白名单的第一词语集以及不符合所述关键词白名单的第二词语集,所述第二词语集中互不相同的词语的个数为M,M为正整数;第二筛选模块,用于按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语,得到第三词语集,其中N<M,N为正整数;第三筛选模块,用于从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集;类别确定模块,用于根据所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词,确定所述待归类信息的类别。可选的,所述装置还包括:第四筛选模块,用于在通过关键词白名单对待归类信息中所包含的词语进行筛选之前,从所述待归类信息所包含的词语中过滤掉被列入预设关键词黑名单的词语;或者在按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语之前,从所述第二词语集中过滤掉被列入预设关键词黑名单的词语;或者从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集之前,从所述第三词语集中过滤掉被列入预设关键词黑名单的词语。可选的,所述类别确定模块具体用于:确定所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型;统计每种事件类型的出现次数;将各种事件类型的出现次数按照由高到低的顺序排序,筛选出排在前K位的事件类型作为所述待归类信息的类别,其中K为正整数。可选的,所述确定所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型包括:按照所述关键词白名单中预先设定的映射关系,确定与所述第一词语集中的词语相同的关键词和与所述第四词语集中的词语相似的关键词所指示的事件类型;或者根据预设模型,计算出所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型。可选的,所述装置还包括:调整模块,用于根据所述待归类信息的分类准确性,调整所述关键词白名单和/或所述预设相似阈值。可选的,所述装置还包括:信息获取模块,用于获取待归类信息;分词模块,用于利用分词技术对所述待归类信息中包含的文字内容进行分词处理,得到所述待归类信息中所包含的词语。可选的,所述第三筛选模块包括:语义分析单元,用于利用语义分析技术对所述第三词语集中的词语以及关键词白名单中的关键词进行语义分析;词语筛选单元,用于根据预设相似阈值,筛选出第三词语集中与所述关键词白名单中的关键词语义相近的词语,形成第四词语集。第三方面,本专利技术实施例三提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可进行程序代码;处理器通过读取存储器中存储的可进行程序代码来运行与可进行程序代码对应的程序,用于进行前述任一实施方式所述的信息分类的方法。第四方面,本专利技术实施例四提供一种计算机可读存储介质本文档来自技高网...

【技术保护点】
1.一种信息归类的方法,其特征在于,包括:通过关键词白名单对待归类信息中所包含的词语进行筛选,得到符合所述关键词白名单的第一词语集以及不符合所述关键词白名单的第二词语集,所述第二词语集中互不相同的词语的个数为M,M为正整数;按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语,得到第三词语集,其中N<M,N为正整数;从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集;根据所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词,确定所述待归类信息的类别。

【技术特征摘要】
1.一种信息归类的方法,其特征在于,包括:通过关键词白名单对待归类信息中所包含的词语进行筛选,得到符合所述关键词白名单的第一词语集以及不符合所述关键词白名单的第二词语集,所述第二词语集中互不相同的词语的个数为M,M为正整数;按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语,得到第三词语集,其中N<M,N为正整数;从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集;根据所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词,确定所述待归类信息的类别。2.根据权利要求1所述的信息归类的方法,其特征在于,所述方法还包括:在通过关键词白名单对待归类信息中所包含的词语进行筛选之前,从所述待归类信息所包含的词语中过滤掉被列入预设关键词黑名单的词语;或者在按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语之前,从所述第二词语集中过滤掉被列入预设关键词黑名单的词语;或者从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集之前,从所述第三词语集中过滤掉被列入预设关键词黑名单的词语。3.根据权利要求1所述的信息归类的方法,其特征在于,所述根据所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词,确定所述待归类信息的类别包括:确定所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型;统计每种事件类型的出现次数;将各种事件类型的出现次数按照由高到低的顺序排序,筛选出排在前K位的事件类型作为所述待归类信息的类别,其中K为正整数。4.根据权利要求3所述的信息归类的方法,其特征在于,所述确定所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型包括:按照所述关键词白名单中预先设定的映射关系,确定与所述第一词语集中的词语相同的关键词和与所述第四词语集中的词语相似的关键词所指示的事件类型;或者根据预设模型,计算出所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型。5.根据权利要求1至4中任一项所述的信息归类的方法,其特征在于,所述确定所述待归类信息的类别之后,所述方法还包括:根据所述待...

【专利技术属性】
技术研发人员:蔡雅兰
申请(专利权)人:北京金山安全软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1