一种相同新闻信息的归类方法及系统技术方案

技术编号:18426598 阅读:21 留言:0更新日期:2018-07-12 02:03
本发明专利技术公开了一种相同新闻信息的归类方法及系统,该方法包括:对获取到的新闻标题进行中文分词,并获取词列表;对词列表进行数据过滤,得到数据过滤的新闻标题;对数据过滤的标题进行标题补全,得到补全标题;通过标题指纹算法,对每个补全标题进行标题指纹计算,得到每个补全标题对应的标题指纹;将具有相同标题指纹的新闻标题归为一类。通过该方法可以很好识别出近似的新闻标题,然后计算每个标题的信息指纹,并将信息指纹相同的新闻归类,更好地识别相同新闻。

A classification method and system for the same news information

The invention discloses a classification method and system for the same news information. The method includes: the Chinese word segmentation to the news headlines obtained and the list of words, the data filtering of the list of words, the news headlines of the data filtering, the title complemented and the complete title of the data filtering; The title fingerprint algorithm is used to calculate the Title Fingerprint for each complementing title, and the Title Fingerprint corresponding to each full title is obtained; the news headlines with the same title fingerprint are classified as a class. This method can well identify the approximate news headlines, then calculate the information fingerprints of each title, and classify the same news with the same information, so as to better identify the same news.

【技术实现步骤摘要】
一种相同新闻信息的归类方法及系统
本申请涉及信息处理
,尤其涉及一种相同新闻信息的归类方法及系统。
技术介绍
随着信息技术的发展,特别是互联网技术的发展和普及,网络已经成为人们发布、交流和信息获取的主要途径。然而,网络上的信息正在爆炸性地增长。以网络新闻为例,它以更新速度快、内容丰富、形式多样的特点逐渐替代报纸、广播或者电视成为很多人获取新闻的主要来源。然而网络新闻更新快、内容多的优点同时也成为不利于人们阅读的缺点,人们为了找到自己关心的新闻往往要费一番功夫。此外,网络上还充斥着大量相同的新闻内容。这是由于同一篇新闻报道会被很多媒体网站转载。对于一些新闻聚合类的网站而言,同一篇新闻报道只需展示一次给用户即可,过多的展示会造成用户的信息过载,从而对网站产生厌恶感。因此,发觉相同的新闻并对其进行归类去重成了新闻聚合类网站需要重点攻克的问题。目前,常用的相同新闻归类技术是simhash指纹。该方法是直接计算标题的哈希值。相同内容的标题将会得到相同的哈希值,以此实现将相同的新闻归类。这种方法主要是计算标题之间的simhash距离,如果距离小于一定阈值的两个标题会分配到同一个simhash值。然而,在实际情况下,即使是相同的新闻内容,其标题也可能有所不同。具体表现为标题的英文字母大小写差异,标题符号差异和标题残缺等问题。因此,在实际的业务应用中,并不能合理地设置距离阈值,导致新闻归类的准确率下降。
技术实现思路
本专利技术提供了一种相同新闻信息的归类方法及系统,用以解决现有技术中新闻归类的准确率较低的问题。其具体的技术方案如下:一种相同新闻信息的归类方法,所述方法包括:对获取到的新闻标题进行中文分词,并获取词列表;对所述词列表进行数据过滤,得到数据过滤的新闻标题;对数据过滤的标题进行标题补全,得到补全标题;通过标题指纹算法,对每个补全标题进行标题指纹计算,得到每个补全标题对应的标题指纹;将具有相同标题指纹的新闻标题归为一类。可选的,对所述词列表进行数据过滤,得到数据过滤的新闻标题,包括:将所述词列表中在设定符号之前的词过滤,得到第一词列表;对所述第一词列表进行标题符号过滤,得到第二词列表;对所述第二词列表进行指定数字过滤,得到第三词列表;对所述第三词列表进行媒体名过滤,得到第四词列表;将所述第四词列表作为数据过滤的新闻标题。可选的,将所述第四词列表作为数据过滤的新闻标题,包括:遍历所述第四词列表中的每个单词,并检测每个单词在省略词词典中是否存在省略词;若是存在省略词,则使用省略词替换原词,得到第五词列表;将所述第五词列表作为过滤的新闻标题。可选的,对数据过滤的标题进行标题补全,得到补全标题,包括:对过滤的每个新闻标题按照字符切分成字符列表;使用后缀树算法对标题组进行训练,获取公共前缀列表;保存每个公共前缀所包含的文档列表,并且记录最长的文档下标;遍历被标记为省略句的文档,确定标记为省略句的文档的最长公共前缀,并使用所述公共前缀文档列表中最长的文档替换所述标记为省略句的文档。一种相同新闻信息的归类系统,所述系统包括:分词单元,用于对获取到的新闻标题进行中文分词,并获取词列表;过滤单元,用于对获取到的词列表进行词过滤,并获取新的词列表;补全单元,用于对数据过滤的标题进行标题补全,得到补全标题;标题指纹计算单元,用于通过标题指纹算法,对每个补全标题进行标题指纹计算,得到每个补全标题对应的标题指纹;归类单元,用于将具有相同标题指纹的新闻标题归为一类。可选的,所述过滤单元,具体用于将所述词列表中在设定符号之前的词过滤,得到第一词列表;对所述第一词列表进行标题符号过滤,得到第二词列表;对所述第二词列表进行指定数字过滤,得到第三词列表;对所述第三词列表进行媒体名过滤,得到第四词列表;将所述第四词列表作为数据过滤的新闻标题。可选的,所述过滤单元,具体用于遍历所述第四词列表中的每个单词,并检测每个单词在省略词词典中是否存在省略词;若是存在省略词,则使用省略词替换原词,得到第五词列表;将所述第五词列表作为过滤的新闻标题。可选的,所述补全单元,具体用于对过滤的每个新闻标题按照字符切分成字符列表;使用后缀树算法对标题组进行训练,获取公共前缀列表;保存每个公共前缀所包含的文档列表,并且记录最长的文档下标;遍历被标记为省略句的文档,确定标记为省略句的文档的最长公共前缀,并使用所述公共前缀文档列表中最长的文档替换所述标记为省略句的文档。通过本专利技术所以提供的方法至少具备如下技术效果:1、对新闻标题进行一系列预处理,可以很好识别出近似的新闻标题,然后计算每个标题的信息指纹,并将信息指纹相同的新闻归类,效果比一般计算simhash的算法显著,更好地识别相同新闻。2、对于残缺标题的处理上,可以准确补全缺失部分的标题内容,并将其归类到信息之纹相同的标题类别中。附图说明图1为本专利技术实施例中一种相同新闻信息的归类方法的流程图;图2为本专利技术实施例中词列表进行数据过滤的方法流程图;图3为本专利技术实施例中一种相同新闻信息的归类系统的结构示意图。具体实施方式下面通过附图以及具体实施例对本专利技术技术方案做详细的说明,应当理解,本专利技术实施例以及实施例中的具体技术特征只是对本专利技术技术方案的说明,而不是限定,在不冲突的情况下,本专利技术实施例以及实施例中的具体技术特征可以相互组合。如图1所示为本专利技术实施例中一种相同新闻信息的归类方法的流程图,该方法包括:S101,对获取到的新闻标题进行中文分词,并获取词列表;在得到新闻标题之后,首先对新闻标题进行中文分词,该中文分词的方式具体为将每次词语进行划分,比如说,该新闻的新闻标题为“回应业绩质疑:格力(000651)详解“新经营模式”手机腾讯网”,分词后的结果为:[‘回应’,‘业绩’,‘质疑’,‘:’,‘格力’,‘(’,‘000651’,‘)’,‘详解’,‘“’,‘新’,‘经营’,‘模式’,‘手机腾讯网’]。通过对新闻标题进行分词,就可以得到该新闻标题对应的词列表。S102,对词列表进行数据过滤,得到数据过滤的新闻标题;在得到词列表之后,需要对词列表进行数据过滤,具体的过滤方法流程如图2所示,该方法包括:S201,对词列表中的设定符号之前的词过滤,得到第一词列表;在本专利技术实施例中,将冒号之前的文字过滤,从而得到第一词列表,比如说,在结果分词之后的词列表为:[‘回应’,‘业绩’,‘质疑’,‘:’,‘格力’,‘(’,‘000651’,‘)’,‘详解’,‘“’,‘新’,‘经营’,‘模式’,‘手机腾讯网’]。在该词列表中存在冒号,并且在冒号之前的文字为“回应业绩质疑”,此时就将确定出的文字删除,从而得到的第一词列表为:[‘格力’,‘(’,‘000651’,‘)’,‘详解’,‘“’,‘新’,‘经营’,‘模式’,‘手机腾讯网’]。S202,对第一词列表进行标题符号过滤,得到第二词列表;在得到第一词列表之后,在第一词列表中进行遍历,检测出该第一词列表中的标题符号,并过滤掉该标题符号。第一词列表为:[‘格力’,‘(’,‘000651’,‘)’,‘详解’,‘“’,‘新’,‘经营’,‘模式’,‘手机腾讯网’],过滤掉其中的括号,从而得到第二词列表:[‘格力’,‘000651’,‘详解’,‘新’,‘经营’,‘模式’,‘手机腾讯网’]。S203,对本文档来自技高网...

【技术保护点】
1.一种相同新闻信息的归类方法,其特征在于,所述方法包括:对获取到的新闻标题进行中文分词,并获取词列表;对所述词列表进行数据过滤,得到数据过滤的新闻标题;对数据过滤的标题进行标题补全,得到补全标题;通过标题指纹算法,对每个补全标题进行标题指纹计算,得到每个补全标题对应的标题指纹;将具有相同标题指纹的新闻标题归为一类。

【技术特征摘要】
1.一种相同新闻信息的归类方法,其特征在于,所述方法包括:对获取到的新闻标题进行中文分词,并获取词列表;对所述词列表进行数据过滤,得到数据过滤的新闻标题;对数据过滤的标题进行标题补全,得到补全标题;通过标题指纹算法,对每个补全标题进行标题指纹计算,得到每个补全标题对应的标题指纹;将具有相同标题指纹的新闻标题归为一类。2.如权利要求1所述的方法,其特征在于,对所述词列表进行数据过滤,得到数据过滤的新闻标题,包括:将所述词列表中在设定符号之前的词过滤,得到第一词列表;对所述第一词列表进行标题符号过滤,得到第二词列表;对所述第二词列表进行指定数字过滤,得到第三词列表;对所述第三词列表进行媒体名过滤,得到第四词列表;将所述第四词列表作为数据过滤的新闻标题。3.如权利要求2所述的方法,其特征在于,将所述第四词列表作为数据过滤的新闻标题,包括:遍历所述第四词列表中的每个单词,并检测每个单词在省略词词典中是否存在省略词;若是存在省略词,则使用省略词替换原词,得到第五词列表;将所述第五词列表作为过滤的新闻标题。4.如权利要求1所述的方法,其特征在于,对数据过滤的标题进行标题补全,得到补全标题,包括:对过滤的每个新闻标题按照字符切分成字符列表;使用后缀树算法对标题组进行训练,获取公共前缀列表;保存每个公共前缀所包含的文档列表,并且记录最长的文档下标;遍历被标记为省略句的文档,确定标记为省略句的文档的最长公共前缀,并使用所述公共前缀文档列表中最长的文档替换所述标记为省略句的...

【专利技术属性】
技术研发人员:万里黄娜周宇顺
申请(专利权)人:深圳市比量科技传媒有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1