基于词性分类统计的重复网页和近似网页的识别方法技术

技术编号:7837832 阅读:349 留言:0更新日期:2012-10-12 02:40
本发明专利技术公开了一种基于词性分类统计的重复网页和近似网页的识别方法,包括以下步骤:从网页文本中提取正文;切词;分类;统计词频;提取高频词;将高频词在词级倒排索引中查询,直到查询成功,记录下查询出来的对应文本编号,若查询不成功,则表示当前词性类别的集合为空;统计出现次数最多的文本编号及其次数;统计集合中不为空的集合个数;判断频率最高的文本次数是否大于或等于1,如果不是,则将高频词添加至词级倒排索引,结束;如果是,则将出现次数最多的文本编号添加至类型倒排索引中,结束。本发明专利技术的算法步骤简单、实用性强,和现有传统算法相比,本发明专利技术算法在准确率和召回率方面有明显的提升,其中召回率能够提升10-20个百分点。

【技术实现步骤摘要】

本专利技术涉及一种重复网页和近似网页的识别方法,尤其涉及ー种。
技术介绍
随着互联网的深入发展,网页的数量显著增加,搜索引擎也越来越重要。在对网页的捜索、分类、分析过程中,对重复网页和近似网页的识别也显得越来越重要。对重复网页和近似网页的识别,能够为互联网信息有序化过程中的信息去重和整合提供必要依据,提高搜索引擎的检全率和检准率,提升搜索结果中有效信息含量,提升用户体验。 目前,重复网页和近似网页的识别方法有很多,举例如下I、以句法为基准的聚类算法即DSC算法在DSC算法中,文档由若干个shingle(shingle表示若干词组成的ー个词段)组成,通过比较文本中含有相同shingle的个数判定网页是否重复。与全文比较而言,此算法降低了比较次数,但是效率依然较低,因此该方法创始人又提出了一个改进的算法=DSC-SS算法。DSC-SS算法为了提高效率,将若干个shingle合并成ー个大的shingle,并且把这些大的shingle转换为ー个散列值。但是,DSC-SS的效率对当前大規模网页而言依然较低。2、在 SCAM (Stanford Copy Analysis Mechanism,斯坦福副本分析机制)系统近似镜像检测算法的基础上提出了后来用于Google系统的分块签名算法该算法将文本以词、词序列、句子、段落或者全文为单位分块,把每ー个块作为単独的输入对应地生成ー个32比特位的散列值,一篇文档就由若干个32位的散列值表示。本算法的优点在于分块灵活,查询速度快,缺点是需要频繁的更新索引。3、针对中文网页的大規模网页去重算法在此算法中,提取以句号为中心的前5个汉字和后5个汉字组成特征码,并且通过B-Tree (多路搜索树)来索引所用的特征码,减少比较次数,加快对比效率。该算法效率极高,但是网页页面结构布局的繁复导致该算法无法推广。4、I-Match算法对shingle米取了过滤,并且把shingle作为输入生成一个MD5(MD表示信息摘要算法)值。shingle在全部文档频率中具有不确定性,导致签名结果不稳定。5、基于特征串的大規模网页去重算法本算法在网页内容上引入了网页文本的结构信息。但是,文本段落顺序的差异或段落的丢失对算法的结果影响较大。6、基于网页文本结构的网页去重算法通过网页结构生成目录结构树。本算法在镜像网页识别的正确率和召回率极高,但是算法复杂,效率较低,需要较大的空间维护所有的目录结构树。7、基于正文结构和长句提取的网页去重算法本算法动态地、分层地对正文进行特征抽取和层次指纹计算,保证了去重算法的效率;通过长句提取算法得到节点指纹,保证了算法的鲁棒性。但是,该算法复杂,开销大,需要为每ー篇网页维护ー棵树,对内存资源消耗大。8、将布隆过滤器算法引入到网页消重技术中,提出了基于布隆过滤器算法的网页消重技术,此方法时空效率高,但是不足在于,并未能把元素间的全排列顺序考虑在内,最后生成的ニ进制数组里内容的顺序不确定。9、合并特征码、特征 句和K-CC (一种改进的基于关键词和特征码的网页去重算法)算法的基于关键词和特征码的页面去重算法,此算法复杂度较高,关键词选取采用了贝叶斯模型,需要不断的升级训练样本。10、基于概念和语义网络的近似网页检测算法本算法具有良好的时空复杂度,且不依赖于语料库。但是,此算法在短小网页的处理中由于关键概念识别困难,而导致算法识别率降低。综上,过去传统的经典算法较为简单、实用性强,但是互联网发展迅速,目前网页结构布局复杂,噪声量增多,导致算法失效;而当前现用的算法,能够应对当前网页结构布局的繁复,降低了噪声的影响,但是算法较为复杂,实用性较低。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供ー种算法步骤简单、实用性强的。为了达到上述目的,本专利技术采用了以下技术方案本专利技术包括以下步骤(I)从网页文本中提取正文;(2)对正文进行切词操作;(3)将切词得到的词语以词性进行分类;(4)分别对每一类词语进行词频统计;(5)分别提取每ー类词语中词频最高的词语;(6)将步骤(5)中提取的词语在词级倒排索引中查询,直到查询成功,结束当前词性类别词语的查询,记录下查询出来的对应文本编号;当查询完所有当前词性类别词语仍未成功时,则表示当前词性类别的集合为空;所述词级倒排索引结构如下<T, ducument IDi, ducument IDj, . . . , ducument IDn>上式中,T表示索引项,即某个词语;document IDi (i=l, 2,. . .,η)表示含有T的网页文本编号,所述词级倒排索引用于以词语为分类标准,将文档编号按其文档所包含的词语分为若干类,类和类之中的文档编号存在交集,表明了文档中所有包含的词语;(7)统计步骤(6)中查找出来的所有文本编号中出现次数最多的文本编号及其次数;统计所有词性类别的集合中不为空的集合个数;(8)判断步骤(7)中频率最高的文本次数是否大于或等于1,如果不是,则转至步骤(9),如果是,则转至步骤(10),所述文本次数=不为空的集合个数X阈值,其值取下整数,所述阈值的取值范围为大于O且小于等于I ;(9)将步骤(5)中所有的词频最高的词语添加至所述词级倒排索引,结束;(10)将步骤(7)中出现次数最多的文本编号添加至类型倒排索引中,所述类型倒排索引的结构如下<ducoment IDtj ducoment IDij ducoment IDj, . . . , ducoment IDn>上式中,ducomentIDt 表不索引项,document IDi (i=l,2,· . ·,η)表不同 ducomentIDt属于重复网页和近似网页的文本编号,所述类型倒排索引用干将所有的文档编号以是否为重复网页或近似网页为标准分类,每一条记录表示一种分类,即ー个重复网页或近似网页集合;结束。具体地,所述步骤(3)中,所述词性的类别包括时间词、人名词、地名词、机构团体名词、专有名词、其它名词和动词共七类,所述动词为去掉“是”和“有”后的动词。作为优选,所述步骤(8)中,所述阈值取0. 8。 本专利技术的有益效果在于本专利技术的算法步骤简单、实用性强,能借助于现有搜索引擎系统已有的模块完成重复网页和近似网页的识别,和现有传统算法相比,本专利技术算法在准确率和召回率方面有明显的提升,其中召回率能够提升10-20个百分点,效果显著。附图说明图I是本专利技术所述识别方法的流程图;图2是本专利技术算法与传统算法在准确率和召回率方面的对比示意图。具体实施例方式下面结合附图对本专利技术作进ー步具体描述如图I所示,本专利技术包括以下步骤(I)从网页文本中提取正文;(2)对正文进行切词操作,对应图I中的“切词”;(3)将切词得到的词语以词性进行分类,所述词性的类别包括时间词、人名词、地名词、机构团体名词、专有名词、其它名词和动词共七类,所述动词为去掉“是”和“有”后的动词;步骤(3)对应图I中的“以词性分类”;(4)分别对每一类词语进行词频统计,对应图I中的“分类统计词频”;(5)分别提取每ー类词语中词频最高的词语,对应图I中的“分类高频词提取”;(6)将步骤(5)中提取的词语在词级倒排索引中查询,直到查询成功,结束当前词性类别词语的查询,记录下查询出来的对应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.ー种基于词性分类统计的重复网页和近似网页的识别方法,其特征在于 包括以下步骤 (1)从网页文本中提取正文; (2)对正文进行切词操作; (3)将切词得到的词语以词性进行分类; (4)分别对每一类词语进行词频统计; (5)分别提取每ー类词语中词频最高的词语; (6)将步骤(5)中提取的词语在词级倒排索引中查询,直到查询成功,结束当前词性类别词语的查询,记录下查询出来的对应文本编号;当查询完所有当前词性类别词语仍未成功时,则表示当前词性类别的集合为空;所述词级倒排索引结构如下<T, aucument IDi, aucument IDj, , ducument IDn> 上式中,T表示索引项,即某个词语;document IDi (i=l, 2,. . . , η) 表示含有T的网页文本编号,所述词级倒排索引用于以词语为分类标准,将文档编号按其文档所包含的词语分为若干类,类和类之中的文档编号存在交集,表明了文档中所有包含的词语; (7)统计步骤(6)中查找出来的所有文本编号中出现次数最多的文本编号及其次数;统计所有词性类别的集合中不为空的集合个数; (8)判断步骤(7)中频率最高的文本次数是否大于或等于1,如果不是,则转至步骤(...

【专利技术属性】
技术研发人员:安俊秀程芃森王鹏
申请(专利权)人:成都信息工程学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1