【技术实现步骤摘要】
本专利技术涉及一种内容近似度比对方法,更具体地,涉及一种针对网络小说的内容近似度比对方法。
技术介绍
随着互联网技术的飞速发展,互联网上的各种数字内容越来越多,呈爆炸性增长趋势,包括各种内容的页面、学术论文、网络小说、学生作业等等,面对如此众多的数字内容,实现内容自动查重(近似度比对)是一项非常重要的技术,通过查重可以实现搜索引擎内容的重复检索、发表内容的抄袭检测、入库内容的非重复录入、有关研究内容的查新等。查重技术源于复制检测技术。复制检测,就是判断一个文件的内容是否抄袭、剽窃或者复制于另外一个或多个文件。剽窃不仅仅意味着原封不动地照搬,还包括对原作的移位变换、同义词替换以及改变说法重述等方式。查重技术从原理上分为两类:基于语法的方法(基于Shingle的方法)和基于语义的方法(基于Term的方法)。其中:Shingle是指文档中若干个连续出现的单词,这种方法从文档中选取一系列Shingle后统计相同的Shingle数目或者比率,作为判断文本相似度的依据。基于Term的方法采用单个词条作为计算的基本单元,而不考虑词条出现的位置和顺序.其中最著名的就是1-Mat ...
【技术保护点】
一种网络小说内容近似度比对方法,其特征在于,包括:预处理步骤:对待比对网络小说进行预处理,提取关键词,将关键词进行同义词替换,以形成规范化网络小说;特征指纹提取步骤:将待比对网络小说中的拆分为多组临近有序词,并对每一组临近有序词进行哈希运算形成的哈希表作为特征指纹;以及特征指纹比对步骤:将所述特征指纹与特征比对库中存储的现有网络小说的特征指纹相比较,以两者的特征指纹相同的数目或比率来确定待比对网络小说与现有网络小说的近似度。
【技术特征摘要】
【专利技术属性】
技术研发人员:刘瑞虹,姜波,
申请(专利权)人:北京中文在线数字出版股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。