文档检测方法及装置制造方法及图纸

技术编号：8300801 阅读：149 留言：0更新日期：2013-02-07 04:14

本发明专利技术提供一种文档检测方法，包括：获取与文档相应地段落特征信息；将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对；根据所述比对结果判断是否具有与所述文档相似的已有文档。本发明专利技术通过段落特征信息对文档进行检测，可较为准确地进行文档之间的相似度比对，避免了对文档分段处理的作弊行为，且查询效率较高、服务器处理压力较小；将该文档检测方法用于改善在线文档版权属性检测，可在文档上传时，即对该文档进行检测，以避免后续对文档版权属性检测时，给服务器造成的不必要压力；同时，可批量的处理已有文档的版权属性检测，效率较高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种文档检测方法及装置，尤其是指一种用于比对长文档相似度的文档检测方法及装置。
技术介绍
通常地，用于文档相似度的文档检测方法是通过文档的标题、作者、字词信息进行确认。然而，这样的做法具有以下缺陷首先，通过文档的标题、作者、字词信息查询，容易产生遗漏，例如，将该文档的标题、作者信息修改或删除，或者将文档切分为多个部分，以使得通过字词信息无法准确的查询或比对其他文档；其次，如果待查询的文档篇幅较长，如一部长篇小说，则通过字词信息进行查询，查询效率较低、服务器或计算机处理压力较大，影响服务器或计算机的正常工作效率。
技术实现思路
本专利技术的目的在于提供一种经过改进的文档检测方法。本专利技术的另一目的在于一种经过改进的文档检测装置，所述的装置应用所述的经过改进的文档检测方法。相应地，本专利技术的一种实施方式的文档检测方法,包括SI、获取与文档相应地段落特征信息；S2、将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对；S3、根据所述比对结果判断是否具有与所述文档相似的已有文档；其中，所述获取与文档相应地段落特征信息包括S100、对文档中每一个段落进行切词，得到该段落的词和词频的二元组列表；S101、对所述列表中的二元组进行初始权重向量计算；S102、将所述二元组通过哈希算法进行计算，得到预设特征位的哈希字符串；S103、将所述哈希字符串映射至所述权重向量中；S104、计算权重向量对应位的值，获得段落特征信息。作为本专利技术的进一步改进，所述段落特征信息为预设特征位的段落签名。作为本专利技术的进一步改进，所述S103步骤具体包括判断所...

【技术保护点】
一种文档检测方法，其特征在于，所述文档检测方法包括以下步骤：S1、获取与文档相应地段落特征信息；S2、将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对；S3、根据所述比对结果判断是否具有与所述文档相似的已有文档；其中，所述获取与文档相应地段落特征信息包括：S100、对文档中每一个段落进行切词，得到该段落的词和词频的二元组列表；S101、对所述列表中的二元组进行初始权重向量计算；S102、将所述二元组通过哈希算法进行计算，得到预设特征位的哈希字符串；S103、将所述哈希字符串映射至所述权重向量中；S104、计算权重向量对应位的值，获得段落特征信息。

【技术特征摘要】

【专利技术属性】
技术研发人员：周纾，李彦宏，徐兴军，张雯，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人