基于词性分类统计的重复网页和近似网页的识别方法技术

技术编号：7837832 阅读：349 留言：0更新日期：2012-10-12 02:40

本发明专利技术公开了一种基于词性分类统计的重复网页和近似网页的识别方法，包括以下步骤：从网页文本中提取正文；切词；分类；统计词频；提取高频词；将高频词在词级倒排索引中查询，直到查询成功，记录下查询出来的对应文本编号，若查询不成功，则表示当前词性类别的集合为空；统计出现次数最多的文本编号及其次数；统计集合中不为空的集合个数；判断频率最高的文本次数是否大于或等于1，如果不是，则将高频词添加至词级倒排索引，结束；如果是，则将出现次数最多的文本编号添加至类型倒排索引中，结束。本发明专利技术的算法步骤简单、实用性强，和现有传统算法相比，本发明专利技术算法在准确率和召回率方面有明显的提升，其中召回率能够提升10-20个百分点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种重复网页和近似网页的识别方法，尤其涉及ー种。
技术介绍
随着互联网的深入发展，网页的数量显著增加，搜索引擎也越来越重要。在对网页的捜索、分类、分析过程中，对重复网页和近似网页的识别也显得越来越重要。对重复网页和近似网页的识别，能够为互联网信息有序化过程中的信息去重和整合提供必要依据，提高搜索引擎的检全率和检准率，提升搜索结果中有效信息含量，提升用户体验。目前，重复网页和近似网页的识别方法有很多，举例如下I、以句法为基准的聚类算法即DSC算法在DSC算法中，文档由若干个shingle(shingle表示若干词组成的ー个词段)组成，通过比较文本中含有相同shingle的个数判定网页是否重复。与全文比较而言，此算法降低了比较次数，但是效率依然较低，因此该方法创始人又提出了一个改进的算法=DSC-SS算法。DSC-SS算法为了提高效率，将若干个shingle合并成ー个大的shingle,并且把这些大的shingle转换为ー个散列值。但是，DSC-SS的效率对当前大規模网页而言依然较低。2、在 SCAM (Stanford Copy Analysis Mechanism,斯坦福副本分析机制)系统近似镜像检测算法的基础上提出了后来用于Google系统的分块签名算法该算法将文本以词、词序列、句子、段落或者全文为单位分块，把每ー个块作为単独的输入对应地生成ー个32比特位的散列值，一篇文档就由若干个32位的散列值表示。本算法的优点在于分块灵活，查询速度快，缺点是需要频繁的更新索引。3、针对中文网页的大規模网页去重算法在此算法中，提取以句号为中心的前5个...

【技术保护点】

【技术特征摘要】
1.ー种基于词性分类统计的重复网页和近似网页的识别方法，其特征在于包括以下步骤 (1)从网页文本中提取正文； (2)对正文进行切词操作； (3)将切词得到的词语以词性进行分类； (4)分别对每一类词语进行词频统计； (5)分别提取每ー类词语中词频最高的词语； (6)将步骤(5)中提取的词语在词级倒排索引中查询，直到查询成功，结束当前词性类别词语的查询，记录下查询出来的对应文本编号；当查询完所有当前词性类别词语仍未成功时，则表示当前词性类别的集合为空；所述词级倒排索引结构如下<T, aucument IDi, aucument IDj, , ducument IDn> 上式中，T表示索引项，即某个词语；document IDi (i=l, 2,. . . , η) 表示含有T的网页文本编号，所述词级倒排索引用于以词语为分类标准，将文档编号按其文档所包含的词语分为若干类，类和类之中的文档编号存在交集，表明了文档中所有包含的词语； (7)统计步骤(6)中查找出来的所有文本编号中出现次数最多的文本编号及其次数；统计所有词性类别的集合中不为空的集合个数； (8)判断步骤(7)中频率最高的文本次数是否大于或等于1，如果不是，则转至步骤(...

【专利技术属性】
技术研发人员：安俊秀，程芃森，王鹏，
申请(专利权)人：成都信息工程学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人