一种文本指纹信息的生成方法与装置制造方法及图纸

技术编号:13269026 阅读:69 留言:0更新日期:2016-05-18 19:13
本发明专利技术公开了一种文本指纹信息的生成方法与装置,其中,方法,包括:提取文本的初始特征向量;初始特征向量中至少一个元素的权重值被赋予最小权重值的倍数值,其他元素的权重值被赋予最小权重值;根据倍数在初始特征向量中增加相应元素形成新的特征向量;对新的特征向量进行最小哈希运算后生成文本的指纹信息。本发明专利技术提供的指纹信息的生成方法以及装置,能够提高指纹信息的准确度,使得信息聚类具有更优的效果。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种指纹信息的生成方法和装置。
技术介绍
随着互联网技术的不断发展和日益普及,新闻等文本信息用户所面对的信息量正在以惊人的速度增长,对能够方便地获取自己感兴趣的文本信息的需求越来越迫切。由于文本信息量急速增加,文本类别越发细化,并具有很强的实时性,往往更新迅速,时效极短,因此对文本进行有效的聚类,以提供给不同的用户或者提供给不同的应用是十分重要的。聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。现有技术中,一种快速、有效地检测向量是否相似的技术是最小哈希算法(MinHash)。假设存在向量A和B,这两个向量的群落系数J定义为:J(A1B)= |AnB|/|AUB在最小哈希算法中,假设向量六=(31,32...a1...aN)是一个N维向量,对于向量中每一个元素BuHU1)为将&1映射成一个整数的哈希函数,hmin(A)是向量A中的元素经过哈希函数处理后所得的最小哈希值。对于向量A和B,hmin(A)=hmin(B)成立的条件是AUB中具有最小哈希值的元素也在ΑΠΒ。上式成立的前提是这个H是一个良好的哈希函数,具有很好的均匀性,能够把不同元素映射成不同整数。因此有:Pr(hmin(A)=hmin(B))=J(A,B)。其中Pr表示概率。即向量A最小哈希值与向量B最小哈希值相等的概率等于向量A,B的群落系数。因此,可以将最小哈希值相同的向量聚为一类。但是,现有的最小哈希算法用于对文本信息进行聚类时,并不考虑文本中每一个字词元素的重要性,因此,可能会将在实际上大众不会同时感兴趣的两个文本信息聚类到一起。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的一种文本指纹信息生成方法和装置。根据本专利技术的一个方面,提供了一种文本指纹信息的生成方法,包括:提取文本的初始特征向量;初始特征向量中至少一个元素的权重值被赋予最小权重值的倍数值,其他元素的权重值被赋予最小权重值;根据所述倍数在初始特征向量中增加相应元素形成新的特征向量;对新的特征向量进行最小哈希运算后生成所述文本的指纹信息。可选地,在根据本专利技术的实施例的文本指纹信息的生成方法中,初始特征向量的构成具体为选择具有代表性的字词构成新闻的特征向量。可选地,在根据本专利技术的实施例的文本指纹信息的生成方法中,将文本进行分词处理,进一步进行去无用信息处理构成文本的特征向量。可选地,在根据本专利技术的实施例的文本指纹信息的生成方法中,初始特征向量的构成具体为根据文本的字词序列中字词出现频率由高到低的顺序排列字词,由前至后取出预设数量的字词作为文本的初始特征向量。可选地,在根据本专利技术的实施例的文本指纹信息的生成方法中,计算初始特征向量中每一个元素的字词频率,字词频率为元素在文本中出现的次数,根据字词频率确定初始特征向量的最小权重值及其对应的元素,最小权重值的倍数权重值及其对应的元素。可选地,在根据本专利技术的实施例的文本指纹信息的生成方法中,计算初始特征向量中每一个元素的文档频率,文档频率为包括了元素的文本数量,逆文档频率为与文档频率呈反比的函数值,根据逆文档频率确定初始特征向量的最小权重值及其对应的元素,最小权重值的倍数权重值及其对应的元素。可选地,在根据本专利技术的实施例的文本指纹信息的生成方法中,计算初始特征向量中每一个元素的字词频率以及逆文档频率,根据计算得到的字词频率以及逆文档频率确定特征向量的最小权重值及其对应的元素,最小权重值的倍数权重值及其对应的元素。可选地,在根据本专利技术的实施例的文本指纹信息的生成方法中,根据初始特征向量中每一个元素在文本中所处的位置确定元素的权重值。可选地,在根据本专利技术的实施例的文本指纹信息的生成方法中,位置包括文本标题,文本摘要,文本正文。根据本专利技术的另一个方面,提供了一种文本指纹信息的生成装置,包括:提取装置,用于提取文本的初始特征向量;赋值装置,用于将最小权重值的倍数值作为权重值赋予初始特征向量中至少一个元素,其他元素的权重值被赋予最小权重值;特征向量变换装置,用于根据倍数在初始特征向量中增加相应元素形成新的特征向量;指纹信息生成装置,用于对新的特征向量进行最小哈希运算后生成所述文本的指纹信息。可选地,在根据本专利技术的实施例的文本指纹信息的生成装置中,提取装置,用于选择具有代表性的字词构成新闻的初始特征向量。可选地,在根据本专利技术的实施例的文本指纹信息的生成装置中,提取装置,用于将文本进行分词处理,进一步进行去无用信息处理构成文本的初始特征向量。可选地,在根据本专利技术的实施例的文本指纹信息的生成装置中,提取装置,用于根据文本的字词序列中字词出现频率由高到低的顺序排列字词,由前至后取出预设数量的字词作为文本的初始特征向量。可选地,在根据本专利技术的实施例的文本指纹信息的生成装置中,赋值装置,用于计算初始特征向量中每一个元素的字词频率,字词频率为元素在所述文本中出现的次数,根据字词频率确定初始特征向量的最小权重值及其对应的元素,最小权重值的倍数权重值及其对应的元素。可选地,在根据本专利技术的实施例的文本指纹信息的生成装置中,赋值装置,用于计算初始特征向量中每一个元素的文档频率,文档频率为包括了元素的文本数量,逆文档频率为与文档频率呈反比的函数值,根据逆文档频率确定初始特征向量的最小权重值及其对应的元素,最小权重值的倍数权重值及其对应的元素。可选地,在根据本专利技术的实施例的文本指纹信息的生成装置中,赋值装置,用于计算初始特征向量中每一个元素的字词频率以及逆文档频率,根据计算得到的字词频率以及逆文档频率确定特征向量的最小权重值及其对应的元素,最小权重值的倍数权重值及其对应的元素。可选地,在根据本专利技术的实施例的文本指纹信息的生成装置中,赋值装置,用于根据初始特征向量中每一个元素在文本中所处的位置确定元素的权重值。可选地,在根据本专利技术的实施例的文本指纹信息的生成装置中,位置包括文本标题,文本摘要,文本正文。本专利技术的有益效果为:当文本信息生成指纹信息时,提高了指纹信息的准确度,使得信息聚类具有更优的效果。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的【具体实施方式】。【附图说明】通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示意性示出了根据本专利技术一个实施例的文本指纹信息的生成方法的流程图;图2示意性示出了根据本专利技术一个实施例的提取文本信息的特征向量的流程图;图3示意性示出了根据本专利技术一个实施例的文本指纹信息的生成装置的框图;图4示意性示出了根据本专利技术一个实施例的提取装置的框图。具体实施例下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这本文档来自技高网
...

【技术保护点】
一种文本指纹信息的生成方法,包括:提取文本的初始特征向量;所述初始特征向量中至少一个元素的权重值被赋予最小权重值的倍数值,其他元素的权重值被赋予最小权重值;根据所述倍数在初始特征向量中增加相应元素形成新的特征向量;对新的特征向量进行最小哈希运算后生成所述文本的指纹信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:张伸正魏少俊陈培军
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1