当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于区间的文本相似搜索方法技术

技术编号:15746780 阅读:91 留言:0更新日期:2017-07-03 02:50
一种基于区间的文本相似搜索方法,包括以下步骤:(1)输入文档集合和查询文本,建立区间模型;(2)遍历输入查询文本中的每一个词汇,利用步骤(1)的输入文档集合索引结构中的位置信息进行逐步匹配,利用滑动窗口技术进行合并,查找在文档集合中与输入文本相似的片段。(3)当无法继续匹配,判断已匹配的文档集合中的区间文本是否满足长度阈值要求,如果满足,则作为一个最终结果输出;本发明专利技术可以对文档中的不定长文本片段做自动化的相似搜索,而不需要预先对文档进行如段落切分、主题相关性分析等处理,有助于提高文本搜索、清洗、分类、挖掘等任务的工作效率,可以满足特定用户的档案清洗、论文查重、相似基因序列查找等处理需求。

A method of text similarity search based on interval

An interval based on text similarity search method, which comprises the following steps: (1) the input document collection and query text, an interval model; (2) traversing the input query every word in the text, using step (1) step by step, the input document collection index structure position information merging by using sliding window technique, and to search for the similar input text in the document collection of fragments. (3) when unable to match, whether the text set in interval judgment of matching documents meet the length threshold requirements, if satisfied, output as a result; the invention can document on indefinite similarity search long text fragment automation, without advance of documents such as paragraph segmentation the theme, correlation analysis, is helpful to improve the text search, cleaning, classification, mining tasks such as work efficiency, file cleaning, paper can meet specific user check, similar gene sequence search processing needs.

【技术实现步骤摘要】
一种基于区间的文本相似搜索方法
本专利技术是一种相似文本搜索方法,涉及信息检索领域。所提供的方法能有效搜索文档中不定长的相同或相似的文本片段,尤其涉及信息检索、文本分类、文本挖掘、数据清洗等领域。
技术介绍
基于排序与哈希表的传统搜索技术,难以满足特定的搜索需求。与传统搜索技术相比,相似搜索技术将搜索结果扩展到与其相邻或相似的对象,在表达用户搜索需求方面更加灵活,从而在信息检索等领域广泛应用。在文本相似搜索
,一般有基于文档与基于字符串两类相似搜索技术。现有基于文档的相似搜索技术虽然能够揭示文档之间语义和主题的相关性,但是衡量相似性时将整个文档作为整体,搜索粒度太大,不适用于查找主题无关的文档中相似片段或子句的情形。而侧重于文本字面上相似性的基于字符串的相似搜索技术,在缺乏如标点符号、触发词等情况下,处理文档中长度敏感的相似文本片段时,存在较大误差。本专利技术提供一种跟语义无关的基于区间的文本相似搜索方法,通过逐步匹配及合并的方法,可以根据用户设置的阈值找出满足用户需求的相同或相似文本片段。本专利技术所提供的技术可以用于文本检索、文本分类、文本挖掘和数据清洗等过程中,对数字化历史档案文本处理、文本查重、相似基因序列查找等需求尤其适用。中国专利200810222998号申请文件公开了“一种基于区间权值的相似性度量方法”,它是多媒体领域一种基于权值的对任意两幅图像的特征向量进行相似性度量的方法,不是文本相似搜索方法。图书情报工作期刊2014年10月(第58卷第19期)公开了“一种基于短文本相似度计算的主观题自动阅卷方法”,它根据标准答案的得分要点与关键词与考生答案进行匹配,是两个已知短文本之间的简单匹配,本质是关键词查询与统计,其相似度衡量方法与过程皆不同于本专利技术的方法与过程。
技术实现思路
本专利技术所要解决的技术问题是,克服目前在文档中查找文本片段比较困难的技术问题。进一步地,本专利技术所要解决的技术问题是,为了克服目前文本搜索方法忽视主题无关的不定长文本片段查找的技术问题。本专利技术技术方案如下:一种基于区间的文本相似搜索方法,具体步骤包括:(1)输入文档集合和查询文本,建立区间模型;(2)遍历输入查询文本中的每一个词汇,利用步骤(1)的输入文档集合索引结构中的位置信息进行逐步匹配,利用滑动窗口技术进行合并,查找在文档集合中与输入文本相似的片段。(3)当无法继续匹配,判断已匹配的文档集合中的区间文本(即文本片段)是否满足长度阈值要求,如果满足,则作为一个最终结果输出。其中步骤(1):建立区间模型是对文档集合和输入查询文本的预处理。预处理有两种方案,分别对应后期不同的相似度衡量方法。一种方案是对输入的查询文本进行分词和向量化,并对文档集合进行分词、向量化和建立带有位置信息的倒排索引;另一种方案专门针对基于查询文本编辑距离的相似度衡量方法,无需分词。其中步骤(2):相似的片段指的是在文档集合中不会有包含该片段的更长的片段满足相似度要求。对相似度的度量可以采用四种不同的方法:精确匹配、基于对称差的匹配、基于Jaccard系数的匹配和基于编辑距离的匹配。不同度量方法对应的匹配合并策略有所不同,可选择使用其中一种或多种衡量方法。滑动窗口技术指的是一个工作窗口,在其中判定当前匹配的词汇是否与之前匹配的文本进行合并。合并是指将单个词汇的匹配汇合成文本片段,并计算文本片段的长度及其与输入文本之间的相似度。在步骤(2)中使用以下具体技术:(1)精确匹配合并技术:将滑动窗口大小设为1,当原子匹配与已有匹配严格相邻时进行合并。(2)基于对称差的匹配合并技术:设定对称差阈值为t,设定滑动窗口大小为t+1,根据以下规则进行合并与优化:1)包含有相同原子匹配的匹配不进行合并。2)如果匹配m和第i个滑动窗口中的某个匹配mi合并,设生成的合并为m′,则分两种情况进行下一步合并:①如果m′在文档集合中的起点小于m在文档集合中的起点,那么对于第i个滑动窗口之后的匹配mj,进行合并;如果mj在文档集合的终点小于m′在文档集合中的起点,则m和mj不进行合并。②如果m′在文档集合中的终点大于m在文档集合中的终点,那么对于第i个窗口之后的匹配mj,进行合并;如果mj在文档集合的终点大于m′在文档集合中的起点,那么m和mj不进行合并。(3)基于Jaccard系数的匹配合并技术:设滑动窗口的大小为变量n,假定长度为len的匹配m在滑动窗口sw的第i个窗口中,Jaccard系数阈值为θ,最小长度阈值为minLen,则当匹配m满足max(minLen,len)*θ≤n-i时进行合并。该技术更适用于搜索长度不同的相似文本。(4)基于编辑距离的匹配合并技术:该技术使用编辑距离衡量相似度,计算时,以字符为单位,而不是以词为单位(所以无需分词),且要求匹配有序。本专利技术的有益效果是:无需计算文档之间的主题相关性,利用区间模型和滑动窗口技术进行逐步匹配与合并,能解决不定长文本片段的查找问题。本专利技术可以用倒排索引描述文本中词的位置信息,通过在滑动窗口中逐步匹配及合并的方法找出相同或相似的文本片段,对提高文本搜索、文本清洗、文本分类、文本挖掘等任务的工作效率具有重要意义。采用本专利技术的技术方案,工程人员可以比较容易地实现相关软件。附图说明图1系统整体流程框图;图2精确匹配实施例示意图;图3对称差匹配实施例示意图;图4逐步匹配与合并过程示意图;图5结果数量与长度阈值的关系图。具体实施方式下面将结合附图,对本专利技术进一步说明:提供一种基于区间的文本相似搜索技术,通过逐步匹配及合并的方法找出相同或相似的文本片段,包括采用下列步骤:首先,建立区间模型,比如,对文档集合Sd进行预处理,包括分词和文本向量化,以及构建出带有位置信息的倒排索引,对输入的查询文本q进行分词操作和向量化;其次,遍历q中的每一个词汇,利用文档集合Sd的索引结构中的位置信息进行逐步匹配,利用滑动窗口技术进行合并,查找在文档集合Sd中与q相同或相似的片段;最后,将满足长度阈值要求的片段作为输出结果呈现给用户。在查找过程中,可以采用精确匹配、基于对称差的匹配、基于Jaccard系数的匹配以及基于编辑距离的匹配四种不同的相似度度量方法。为了便于详细、准确地描述基于区间的相似搜索方法及具体实施方式,下面给出相关术语的解释:原子匹配(singletonmatcher):给定文本Sd和文本Sq,假定Sd和Sq分别包含单词wi,单词wi在文本Sd和文本Sq中的位置下标分别为di和qi,称二元组<di,qi>为文本Sd和文本Sq上的一个原子匹配sm。对于两个原子匹配sm1<d1,q1>和sm2<d2,q2>,若d1=d2或q1=q2,则sm1和sm2为冲突的原子匹配,若满足(d1-d2)×(q1-q2)<0,则sm1和sm2为交叉的原子匹配。匹配(matcher):如果一个集合只包含两两互不冲突的原子匹配,则称之为匹配m。集合的大小即匹配m的长度。匹配之间存在属于和不属于的关系。顺序匹配(sequentialmatcher):如果一个匹配中的原子匹配两两互不交叉,则称之为顺序匹配。匹配的区间:设匹配m={sm1<d1,q1>,sm2<d2,q2>,...,sml<dl本文档来自技高网
...
一种基于区间的文本相似搜索方法

【技术保护点】
一种基于区间的文本相似搜索方法,其特征是包括以下具体步骤:(1)输入文档集合和查询文本,建立区间模型;(2)遍历输入查询文本中的每一个词汇,利用步骤(1)的输入文档集合索引结构中的位置信息进行逐步匹配,利用滑动窗口技术进行合并,查找在文档集合中与输入文本相似的片段。(3)当无法继续匹配,判断已匹配的文档集合中的区间文本(即文本片段)是否满足长度阈值要求,如果满足,则作为一个最终结果输出;其中步骤(1):建立区间模型是对文档集合和输入查询文本的预处理;预处理有两种方案,分别对应后期不同的相似度衡量方法;一种方案是对输入的查询文本进行分词和向量化,并对文档集合进行分词、向量化和建立带有位置信息的倒排索引;另一种方案专门针对基于查询文本编辑距离的相似度衡量方法,无需分词;其中步骤(2):相似的片段指的是在文档集合中不会有包含该片段的更长的片段满足相似度要求;对相似度的度量可以采用四种不同的方法:精确匹配、基于对称差的匹配、基于Jaccard系数的匹配和基于编辑距离的匹配;不同度量方法对应的匹配合并策略有所不同,可选择使用其中一种或多种衡量方法;滑动窗口技术指的是一个工作窗口,在其中判定当前匹配的词汇是否与之前匹配的文本进行合并;合并是指将单个词汇的匹配汇合成文本片段,并计算文本片段的长度及其与输入文本之间的相似度。...

【技术特征摘要】
1.一种基于区间的文本相似搜索方法,其特征是包括以下具体步骤:(1)输入文档集合和查询文本,建立区间模型;(2)遍历输入查询文本中的每一个词汇,利用步骤(1)的输入文档集合索引结构中的位置信息进行逐步匹配,利用滑动窗口技术进行合并,查找在文档集合中与输入文本相似的片段。(3)当无法继续匹配,判断已匹配的文档集合中的区间文本(即文本片段)是否满足长度阈值要求,如果满足,则作为一个最终结果输出;其中步骤(1):建立区间模型是对文档集合和输入查询文本的预处理;预处理有两种方案,分别对应后期不同的相似度衡量方法;一种方案是对输入的查询文本进行分词和向量化,并对文档集合进行分词、向量化和建立带有位置信息的倒排索引;另一种方案专门针对基于查询文本编辑距离的相似度衡量方法,无需分词;其中步骤(2):相似的片段指的是在文档集合中不会有包含该片段的更长的片段满足相似度要求;对相似度的度量可以采用四种不同的方法:精确匹配、基于对称差的匹配、基于Jaccard系数的匹配和基于编辑距离的匹配;不同度量方法对应的匹配合并策略有所不同,可选择使用其中一种或多种衡量方法;滑动窗口技术指的是一个工作窗口,在其中判定当前匹配的词汇是否与之前匹配的文本进行合并;合并是指将单个词汇的匹配汇合成文本片段,并计算文本片段的长度及其与输入文本之间的相似度。2.根据权利要求1所述的基于区间...

【专利技术属性】
技术研发人员:胡信晖钟超玮刘奇志谢子哲
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1