一种基于多权重体系的中文文档基因匹配方法组成比例

技术编号：16837344 阅读：71 留言：0更新日期：2017-12-19 19:53

本发明专利技术针对中文文档基因匹配，面向文档逃避检查场景，提出了面向28种混合文档基因特征的匹配方法，特别是首次引入多权重体系，体现体系间与体系内的基因差异化考虑，形成了统一的相似度计算公式。基于本发明专利技术的文档基因匹配方法，可精细化配置权重，减少算法条件跳转过程，可实现性和实际应用性较强。

A method of gene matching for Chinese documents based on multi weight system

According to the invention Chinese document gene matching, document oriented escape inspection scene matching method is proposed for the 28 kinds of hybrid document genes, particularly the introduction of multi weight system for the first time, the difference between the system and the system of the gene in consideration, the formation of a unified formula of similarity degree. The method of document gene matching based on this invention can fine the configuration weight and reduce the process of algorithm condition jump, and it can be realized and practical.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多权重体系的中文文档基因匹配方法
本专利技术属于文档相似度与去重
，具体涉及一种基于多权重体系的中文文档基因匹配方法。
技术介绍
互联网高速、海量的数据中包含着错综复杂、种类繁多的文档。同一个文档在互联网传播的过程中，会存在对文档内容进行增删等部分修改的情况，也就产生了针对相同内容的文档变种。这对文档的匹配、溯源和传播分析等问题都造成了一定程度的障碍和挑战。文档基因是解决上述问题的一个重要技术手段，它主要指通过对文档抽取若干特征并进行有效组合，形成为文档本质刻画的相对唯一的表征。目前对文档基因的特征分类，主要有几种：第一类是文档载体特征，主要指文件名称、文件大小、文件创建时间、文件修改时间和文件哈希值（包括MD5、SHA1、SHA265和SHA512）特征；第二类是文档属性特征，主要指固有属性和统计属性，固有属性包括文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号和文档最后一次保存者，统计属性包括文档字数、文档句数和文档段数；第三类是文档内容特征，主要是指语义要素和顺序关系，语义要素包括摘要、分词、关键词、短语、命名实体、依存句法和局部敏...
一种基于多权重体系的中文文档基因匹配方法

【技术保护点】
一种基于多权重体系的中文文档基因匹配方法，其步骤包括：1）将文档载体特征、文档属性特征、文档内容特征组成的28种混合特征分为7类特征组。

【技术特征摘要】
1.一种基于多权重体系的中文文档基因匹配方法，其步骤包括：1）将文档载体特征、文档属性特征、文档内容特征组成的28种混合特征分为7类特征组。2.2）对7类特征组分别构建独立的权重体系。3.3）基于多权重体系，提出了中文文档基因匹配方法。4.如权利要求1所述的方法，其特征在于：28种文档基因特征分为7类如下。5.第一类：文件名称、文件创建时间、文件修改时间、文件大小；第二类：MD5；第三类：SHA1；第四类：SHA256；第五类：SHA512；第六类：文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号、文档最后一次保存者、文档字数、文档句数、文档段数；第七类：摘要、分词、关键词、短语、命名实体、依存句法、MinHash、SimHash、段间顺序、句间顺序。6.如权利要求1所述的方法，其特征在于...

【专利技术属性】
技术研发人员：李岩，
申请(专利权)人：北京云量数盟科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人