An interval based on text similarity search method, which comprises the following steps: (1) the input document collection and query text, an interval model; (2) traversing the input query every word in the text, using step (1) step by step, the input document collection index structure position information merging by using sliding window technique, and to search for the similar input text in the document collection of fragments. (3) when unable to match, whether the text set in interval judgment of matching documents meet the length threshold requirements, if satisfied, output as a result; the invention can document on indefinite similarity search long text fragment automation, without advance of documents such as paragraph segmentation the theme, correlation analysis, is helpful to improve the text search, cleaning, classification, mining tasks such as work efficiency, file cleaning, paper can meet specific user check, similar gene sequence search processing needs.
【技术实现步骤摘要】
一种基于区间的文本相似搜索方法
本专利技术是一种相似文本搜索方法,涉及信息检索领域。所提供的方法能有效搜索文档中不定长的相同或相似的文本片段,尤其涉及信息检索、文本分类、文本挖掘、数据清洗等领域。
技术介绍
基于排序与哈希表的传统搜索技术,难以满足特定的搜索需求。与传统搜索技术相比,相似搜索技术将搜索结果扩展到与其相邻或相似的对象,在表达用户搜索需求方面更加灵活,从而在信息检索等领域广泛应用。在文本相似搜索
,一般有基于文档与基于字符串两类相似搜索技术。现有基于文档的相似搜索技术虽然能够揭示文档之间语义和主题的相关性,但是衡量相似性时将整个文档作为整体,搜索粒度太大,不适用于查找主题无关的文档中相似片段或子句的情形。而侧重于文本字面上相似性的基于字符串的相似搜索技术,在缺乏如标点符号、触发词等情况下,处理文档中长度敏感的相似文本片段时,存在较大误差。本专利技术提供一种跟语义无关的基于区间的文本相似搜索方法,通过逐步匹配及合并的方法,可以根据用户设置的阈值找出满足用户需求的相同或相似文本片段。本专利技术所提供的技术可以用于文本检索、文本分类、文本挖掘和数据清洗等过程中,对数字化历史档案文本处理、文本查重、相似基因序列查找等需求尤其适用。中国专利200810222998号申请文件公开了“一种基于区间权值的相似性度量方法”,它是多媒体领域一种基于权值的对任意两幅图像的特征向量进行相似性度量的方法,不是文本相似搜索方法。图书情报工作期刊2014年10月(第58卷第19期)公开了“一种基于短文本相似度计算的主观题自动阅卷方法”,它根据标准答案的得分要点与关键词 ...
【技术保护点】
一种基于区间的文本相似搜索方法,其特征是包括以下具体步骤:(1)输入文档集合和查询文本,建立区间模型;(2)遍历输入查询文本中的每一个词汇,利用步骤(1)的输入文档集合索引结构中的位置信息进行逐步匹配,利用滑动窗口技术进行合并,查找在文档集合中与输入文本相似的片段。(3)当无法继续匹配,判断已匹配的文档集合中的区间文本(即文本片段)是否满足长度阈值要求,如果满足,则作为一个最终结果输出;其中步骤(1):建立区间模型是对文档集合和输入查询文本的预处理;预处理有两种方案,分别对应后期不同的相似度衡量方法;一种方案是对输入的查询文本进行分词和向量化,并对文档集合进行分词、向量化和建立带有位置信息的倒排索引;另一种方案专门针对基于查询文本编辑距离的相似度衡量方法,无需分词;其中步骤(2):相似的片段指的是在文档集合中不会有包含该片段的更长的片段满足相似度要求;对相似度的度量可以采用四种不同的方法:精确匹配、基于对称差的匹配、基于Jaccard系数的匹配和基于编辑距离的匹配;不同度量方法对应的匹配合并策略有所不同,可选择使用其中一种或多种衡量方法;滑动窗口技术指的是一个工作窗口,在其中判定当前匹 ...
【技术特征摘要】
1.一种基于区间的文本相似搜索方法,其特征是包括以下具体步骤:(1)输入文档集合和查询文本,建立区间模型;(2)遍历输入查询文本中的每一个词汇,利用步骤(1)的输入文档集合索引结构中的位置信息进行逐步匹配,利用滑动窗口技术进行合并,查找在文档集合中与输入文本相似的片段。(3)当无法继续匹配,判断已匹配的文档集合中的区间文本(即文本片段)是否满足长度阈值要求,如果满足,则作为一个最终结果输出;其中步骤(1):建立区间模型是对文档集合和输入查询文本的预处理;预处理有两种方案,分别对应后期不同的相似度衡量方法;一种方案是对输入的查询文本进行分词和向量化,并对文档集合进行分词、向量化和建立带有位置信息的倒排索引;另一种方案专门针对基于查询文本编辑距离的相似度衡量方法,无需分词;其中步骤(2):相似的片段指的是在文档集合中不会有包含该片段的更长的片段满足相似度要求;对相似度的度量可以采用四种不同的方法:精确匹配、基于对称差的匹配、基于Jaccard系数的匹配和基于编辑距离的匹配;不同度量方法对应的匹配合并策略有所不同,可选择使用其中一种或多种衡量方法;滑动窗口技术指的是一个工作窗口,在其中判定当前匹配的词汇是否与之前匹配的文本进行合并;合并是指将单个词汇的匹配汇合成文本片段,并计算文本片段的长度及其与输入文本之间的相似度。2.根据权利要求1所述的基于区间...
【专利技术属性】
技术研发人员:胡信晖,钟超玮,刘奇志,谢子哲,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。