一种内容无关的文本快速过滤方法技术

技术编号:13585958 阅读:63 留言:0更新日期:2016-08-24 17:27
本发明专利技术涉及计算机信息检索领域,具体涉及一种应用于图书馆信息检索、抄袭检测、著作权侵权检测等场合中的内容无关的文本快速过滤方法。使用分隔符将母文本A和目标文本B各自分割成系列片段,对每一文本片段使用能值函数求值,所述能值函数与文本内容无关且与文本包含的噪声正相关;在求得的母文本A和目标文本B的能值中,将小于预定义能值阈值H的量滤去,得到能值序列N与M;对M作自相似分析;在允许误差约束下将M与N作匹配比较,如果穷尽N,目标文本B与母文本A的任意一部分内容的匹配度均低于阈值,则目标文本B被排除。使用本发明专利技术的文本快速过滤方法,避免了对文本内容的分析,计算量小,过滤速度快,且可以屏蔽部分噪声影响。

【技术实现步骤摘要】

本专利技术涉及计算机信息检索领域,具体涉及一种应用于图书馆信息检索、抄袭检测、著作权侵权检测等需要进行文本过滤的场合中的内容无关的文本快速过滤方法
技术介绍
文本是人类的自然语言的书写表示,是半结构或无结构的,缺乏计算机可理解的语义。文本处理技术广泛应用于信息检索、搜索引擎、抄袭检测、著作权保护等领域,其作用是从海量、异构、分布的文本中发现隐含知识和模式。文本处理技术以适当的数学模型表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂而超出计算机的处理能力。目前主要的方法是使用分词算法和词频统计技术从文本中抽取特征词,并对其向量化。当文本较大时,文本向量的维度会相应增大,给后续工作带来巨大的计算开销,并且损害分类、聚类处理的精确性。对这个问题正面的解决办法是对文本向量作净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征,即通过特征选择来降维。这要求特征项要能够确实标识文本内容,具有将目标文本与其他文本相区分的能力,且分离也比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。字、词、短语虽都是文本内容,相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文本的中间表示形式,用来实现文本与文本、文本与用户目标之间的相似度计算。在浩如烟海的网络信息中,80%的信息以文本的形式存放,这些来自网络的文本可能带有噪声,且对某些应用来说80%以上是无关的。如能不触及文本内容,快速过滤掉无关的含噪声的文本,将大大节约计算机系统的计算能力。
技术实现思路
本专利技术解决的技术问题在于提供一种内容无关的文本快速过滤方法,快速排除与母文本A中的任意一部分内容匹配度低于匹配阈值的含有噪音的目标文本B。为了实现上述目的,本专利技术采用了如下技术方案:一种内容无关的文本快速过滤方法,用于对含有噪音的目标文本B,当其与母文本A中的任意一部分内容匹配度低于匹配阈值时,将其快速排除,其中A=(a1a2...ai...ax),B=(b1b2...bi...by),ai∈S,bi∈S且x>y,S为出现在母文本A和目标文本B中的所有符号的集合,包括但不限于文字、字母、标点、数理记号、分段符、换行符;包括如下步骤:S1、定义能值函数F(cpcp+1...cq)=q-p+1,其中,ci∈S,p≤i≤q,所述能值函数的函数值是与文本内容无关但与文本包含的噪声正相关的实数,预定义能值阈值为H,并定义能值序列N和M,所述能值序列中的元素为所述能值函数的函数值,所述能值序列N和M初始时为空;S2、定义有限集合L={l|l=(l1l2...lt),li∈S,t≥1本文档来自技高网
...

【技术保护点】
一种内容无关的文本快速过滤方法,用于对含有噪音的目标文本B,当其与母文本A中的任意一部分内容匹配度低于匹配阈值时,将其快速排除,其中A=(a1a2...ai...ax),B=(b1b2...bi...by),ai∈S,bi∈S且x>y,S为出现在母文本A和目标文本B中的所有符号的集合,包括但不限于文字、字母、标点、数理记号、分段符、换行符,其特征在于,包括如下步骤:S1、定义能值函数F(cpcp+1...cq)=q‑p+1,其中,ci∈S,p≤i≤q,所述能值函数的函数值是与文本内容无关但与文本包含的噪声正相关的实数,预定义能值阈值为H;并定义能值序列N和M,所述能值序列中的元素为所述能值函数的函数值,所述能值序列N和M初始时为空;S2、定义有限集合L={l|l=(l1l2...lt),li∈S,t≥1},其中,l为在S中任意选取的分隔符和/或标点符号组成的长度大于等于1的序列;定义L的子集L’,即L'={l'|l'=(l'1l'2...l't),l'i∈S,t≥1},令l'∈L';S3、以l对母文本A作分割,即A=(a1a2...las...atl...ax),从左至右对每一个片段(as...at)使用所述能值函数求值:n=F(as...at)=t‑s+1;如果n≤H,忽略n;如果n>H,则将n加入能值序列N的末尾;如此处理母文本A后得到能值序列N=(n1n2...nz),z<=x;S4,以l'对目标文本B作分割,即B=(b1b2...l'bu...bvl'...by),从左至右对每一个片段(bu...bv)使用所述能值函数求值:m=F(bu...bv)=v‑u+1;如果m≤H,忽略m;如果m=H,则将m加入能值序列M的末尾;如此处理目标文本B后得到能值序列M=(m1m2...mw),w<=y;S5、对所述能值序列M作自相似性分析,得到M的自相似性序列为RM=(r1r2...ri...rw),其中ri为整数且ri∈[0..w];S6、预定义能值误差上限e和累积误差上限E;取i的初值为1,g的初值为0,将能值序列M=(m1m2...mw)与N=(nini+1...ni+w‑1)从左到右按序作比较,即,当变量j从1增加至w时,对每个j:a.如果|mj‑ni+j‑1|>e,且i=z‑w+1,则认为目标文本B与母文本A中的任意一部分内容匹配度低于匹配阈值,排除目标文本B;b.如果|mj‑ni+j‑1|>e,且i≠z‑w+1,则令i=i+j‑1‑rj,并令g=0,变量j加1后继续进行比较;c.如果|mj‑ni+j‑1|≤e,则令g=g+|mj‑ni+j‑1|;若g>E且i=z‑w+1,则认为目标文本B与母文本A中的任意一部分内容匹配度低于阈值,排除目标文本B;若g>E,且i≠z‑w+1,则令i=i+j‑1‑rj,并令g=0,变量j加1后继续进行比较;若变量j增加至w后,目标文本B仍未排除,则保留目标文本B;B是否与A匹配取决于后续的内容相似度比较。...

【技术特征摘要】
1.一种内容无关的文本快速过滤方法,用于对含有噪音的目标文本B,当其与母文本A中的任意一部分内容匹配度低于匹配阈值时,将其快速排除,其中A=(a1a2...ai...ax),B=(b1b2...bi...by),ai∈S,bi∈S且x>y,S为出现在母文本A和目标文本B中的所有符号的集合,包括但不限于文字、字母、标点、数理记号、分段符、换行符,其特征在于,...

【专利技术属性】
技术研发人员:张帆金哲凡
申请(专利权)人:浙江传媒学院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1