The invention discloses a classification method and system for the same news information. The method includes: the Chinese word segmentation to the news headlines obtained and the list of words, the data filtering of the list of words, the news headlines of the data filtering, the title complemented and the complete title of the data filtering; The title fingerprint algorithm is used to calculate the Title Fingerprint for each complementing title, and the Title Fingerprint corresponding to each full title is obtained; the news headlines with the same title fingerprint are classified as a class. This method can well identify the approximate news headlines, then calculate the information fingerprints of each title, and classify the same news with the same information, so as to better identify the same news.
【技术实现步骤摘要】
一种相同新闻信息的归类方法及系统
本申请涉及信息处理
,尤其涉及一种相同新闻信息的归类方法及系统。
技术介绍
随着信息技术的发展,特别是互联网技术的发展和普及,网络已经成为人们发布、交流和信息获取的主要途径。然而,网络上的信息正在爆炸性地增长。以网络新闻为例,它以更新速度快、内容丰富、形式多样的特点逐渐替代报纸、广播或者电视成为很多人获取新闻的主要来源。然而网络新闻更新快、内容多的优点同时也成为不利于人们阅读的缺点,人们为了找到自己关心的新闻往往要费一番功夫。此外,网络上还充斥着大量相同的新闻内容。这是由于同一篇新闻报道会被很多媒体网站转载。对于一些新闻聚合类的网站而言,同一篇新闻报道只需展示一次给用户即可,过多的展示会造成用户的信息过载,从而对网站产生厌恶感。因此,发觉相同的新闻并对其进行归类去重成了新闻聚合类网站需要重点攻克的问题。目前,常用的相同新闻归类技术是simhash指纹。该方法是直接计算标题的哈希值。相同内容的标题将会得到相同的哈希值,以此实现将相同的新闻归类。这种方法主要是计算标题之间的simhash距离,如果距离小于一定阈值的两个标题会分配到同一个simhash值。然而,在实际情况下,即使是相同的新闻内容,其标题也可能有所不同。具体表现为标题的英文字母大小写差异,标题符号差异和标题残缺等问题。因此,在实际的业务应用中,并不能合理地设置距离阈值,导致新闻归类的准确率下降。
技术实现思路
本专利技术提供了一种相同新闻信息的归类方法及系统,用以解决现有技术中新闻归类的准确率较低的问题。其具体的技术方案如下:一种相同新闻信息的归类方法,所述方法 ...
【技术保护点】
1.一种相同新闻信息的归类方法,其特征在于,所述方法包括:对获取到的新闻标题进行中文分词,并获取词列表;对所述词列表进行数据过滤,得到数据过滤的新闻标题;对数据过滤的标题进行标题补全,得到补全标题;通过标题指纹算法,对每个补全标题进行标题指纹计算,得到每个补全标题对应的标题指纹;将具有相同标题指纹的新闻标题归为一类。
【技术特征摘要】
1.一种相同新闻信息的归类方法,其特征在于,所述方法包括:对获取到的新闻标题进行中文分词,并获取词列表;对所述词列表进行数据过滤,得到数据过滤的新闻标题;对数据过滤的标题进行标题补全,得到补全标题;通过标题指纹算法,对每个补全标题进行标题指纹计算,得到每个补全标题对应的标题指纹;将具有相同标题指纹的新闻标题归为一类。2.如权利要求1所述的方法,其特征在于,对所述词列表进行数据过滤,得到数据过滤的新闻标题,包括:将所述词列表中在设定符号之前的词过滤,得到第一词列表;对所述第一词列表进行标题符号过滤,得到第二词列表;对所述第二词列表进行指定数字过滤,得到第三词列表;对所述第三词列表进行媒体名过滤,得到第四词列表;将所述第四词列表作为数据过滤的新闻标题。3.如权利要求2所述的方法,其特征在于,将所述第四词列表作为数据过滤的新闻标题,包括:遍历所述第四词列表中的每个单词,并检测每个单词在省略词词典中是否存在省略词;若是存在省略词,则使用省略词替换原词,得到第五词列表;将所述第五词列表作为过滤的新闻标题。4.如权利要求1所述的方法,其特征在于,对数据过滤的标题进行标题补全,得到补全标题,包括:对过滤的每个新闻标题按照字符切分成字符列表;使用后缀树算法对标题组进行训练,获取公共前缀列表;保存每个公共前缀所包含的文档列表,并且记录最长的文档下标;遍历被标记为省略句的文档,确定标记为省略句的文档的最长公共前缀,并使用所述公共前缀文档列表中最长的文档替换所述标记为省略句的...
【专利技术属性】
技术研发人员:万里,黄娜,周宇顺,
申请(专利权)人:深圳市比量科技传媒有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。