一种基于DNA序列的文本处理方法和系统技术方案

技术编号:6643621 阅读:201 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种基于DNA序列的文本处理方法和系统。该文本处理方法包括:为两个以上文本的字符分配DNA序列码,使用DNA序列处理方法对分配好DNA序列码的两个以上文本进行相似性分析,所述字符为数字、字、单词或符号中的一种或多种,所述字或单词为一个或多个语种的字或单词。为两个以上文本的字符分配DNA序列码包括:为两个以上文本中的字符分配十进制数,将所述十进制数转换为四进制数;使四进制数中的0、1、2、3分别对应四种脱氧核糖核酸中的一种,将四进制数转换为DNA序列码。本发明专利技术还提供了实现该方法的系统。本发明专利技术的方法和系统不依赖于已有数据库的建立,关键词的抽提,没有字符以及字符组合数目的限制,可对文本信息实现高效、全面的分析。

【技术实现步骤摘要】

本专利技术涉及一种信息处理方法和系统,尤其涉及一种基于DNA序列的文本处理方法和系统
技术介绍
文本的频谱刻画、相似性比对及聚类分析是文本处理中常规分析手段。目前已有多种文本处理系统,然而多数是只是完成其中的一项任务,如中国知网(CNKI)的学术论文检测系统和武汉大学沈阳副教授及其团队开发的ROST反剽窃系统,其功能均为完成文本的相似性比对。文本的频谱刻画是指从字符(单字符或多字符组合)水平分析一个或两个以上的文本,通过将所有可能出现的字符或字符组合在横坐标上固定,然后逐一统计其在文本中的出现频率,以该频率值作为纵坐标,刻画出文本的图谱。虽然其可以对文本信息进行直观的描述,但由于字符的数量众多并且字符在横坐标的位置不易统一,因此目前只是集中于少数几个字符的出现频率统计(少于20),并且使用不多。文本相似性比对(或检测)是指通过比对文字信息间的相似程度来对不同文本进行分析,其通用的核心方法是词频计算,首先对文章进行分层处理,按照篇章、段落、句子等层级分别创建指纹索引(即以一小片段具有代表性的文字作为大段文字的标签),以创建的指纹索引作为数据库中的检索输入,以检索到相似的文本,是反剽窃系统的核心,也可用于文本相似性搜索、文本挖掘等领域;但由于其对数据库的强烈依赖,每个比对(检测)系统背后都需要有数量众多的文本信息作为支持,因而对于轻量级的两两文字信息的比对或是小规模的文本间相似性比对不能给予很好的支持,即,待比对文字需出现在所使用的数据库中,因此在文本分析过程中存在着很大的局限。文本聚类是指通过描述两两文档之间的相似程度,并且按照同类的文档之间相似程度较高的原则描述文本之间的关系。目前文本聚类主要基于抽提文档关键词,将文本相似的问题转换为关键词相似的问题来描述文本之间的相似程度。虽然其在一定程度上简化了文本分析过程,但通过单一的关键词抽提的方式进行文本聚类,容易使关键词抽提的误差被累积,造成文本分析信息的缺失,难以提供从全局最优角度比较文本间的相似度。综上所述,现有的文本处理方法和系统存在完成功能任务相对单一、执行效率不高、相互之间不能互通的问题,并且在单个任务执行上也有一定的问题。然而,对同样作为信息载体的DNA序列的分析手段却强大而高效,例如DNA序列相似性比对软件BLAT,其在普通台式计算机上,对1000-bp的c-DNA序列从数十万条基因序列中查询相似性序列的查询反应时间不到一秒,除此之外,还可对查询出的多条相似性DNA 序列之间进行进一步的比对,拼接,找出其中的相似区域和保守型位点,进行相似度的计算和聚类分析,也可以通过刻画DNA序列频谱的方法分析序列间的差异,进行序列的聚类分析,并且上述分析方法不依赖于数据库的建立,关键词的抽提,也不存在对可统计的碱基组合数目的限制。由上可以看出,对DNA序列的分析和对文本的分析有着相似的目的,不同之处在于DNA序列以DNA序列码(即脱氧核糖核酸A、T、C、G)为基础进行信息的表达,而文本以字符为基础进行信息的表达,如何将文本中的字符信息转换为DNA序列码,使用DNA序列处理方法对文本信息进行处理,实现对文本全面,高效的分析成为有待解决的问题。
技术实现思路
本专利技术提供一种基于DNA序列的文本处理方法,通过为文本中的字符分配DNA序列码,然后使用DNA序列处理方法对文本进行处理,不依赖于已有数据库的建立和关键词的抽提,并且不受字符以及字符组合数目的限制,可对文本信息实现高效、全面的分析。本专利技术还提供了一种基于DNA序列的文本处理系统,该系统通过为文本中的字符分配DNA序列码,然后使用DNA序列处理方法对文本进行处理,解决了现有文本处理系统完成功能任务相对单一、执行效率不高、相互之间不能互通的问题,实现了对文本的全面高效分析。本专利技术还提供了所述系统在文本处理中的应用。本专利技术提供的基于DNA序列的文本处理方法,包括为两个以上文本的字符分配 DNA序列码,其中文本中相同的字符分配相同的DNA序列码;使用DNA序列处理方法对分配好DNA序列码的两个以上文本进行相似性分析。所述为两个以上文本的字符分配DNA序列码包括分别为两个以上文本中的字符分配十进制数,其中文本中相同的字符分配相同的十进制数;分别将两个以上文本中的字符所对应的十进制数转换为四进制数,所述四进制数的位数为n,且如至少大于文本中互不相同的字符的总数,不足η位的四进制数在所述四进制数前端补0 ;使四进制数中的0、1、 2、3分别对应四种脱氧核糖核酸中的一种,分别将两个以上文本中的字符所对应的η位四进制数转换为η位DNA序列码,得到各文本所对应的DNA序列。在本专利技术的一个实施例中,所述为两个以上文本中的字符分配十进制数为按照两个以上文本中的字符的出现顺序为其分配十进制数。在本专利技术提供的另一个实施例中,所述使用DNA序列处理方法对分配好DNA序列码的两个以上文本进行相似性分析包括对文本进行以下分析1-分析3中的一种或多种分析所述分析1为对分配好DNA序列码的两个以上文本进行两两文本间的序列频率统计,得到序列频率表,然后基于所述序列频率表进行距离的计算,并根据距离计算结果对两个以上文本进行聚类;所述分析2为对分配好DNA序列码的两个以上文本进行两两文本间的序列相似性比对,根据获得的高分匹配片段确定两个以上文本的相似部分;所述根据获得的高分匹配片段确定两个以上文本的相似部分包括通过以下步骤将获得的所述高分匹配片段还原为字符信息将通过两两文本间的序列相似性比对获得的高分匹配片段的起始点位置信息分别除以η取余;若不等,跳过不读;若相等,余数为k,且k兴0,则向后移n-k位为字符序列的头部,从该位开始连续读取η位DNA序列码转换为字符;若相等,余数为k,且k = 0,从高分匹配片段起始点位置开始连续读取η位DNA序列码转换为字符;读至DNA序列尾部,尾部不足η位的DNA序列码弃掉不读;所述分析3为对分配好DNA序列码的两个以上文本进行两两文本间的序列相似性比对,将获得的高分匹配片段拼接为无交叉、无重复的长匹配片段,然后计算相似度数值,并根据所述相似度数值对两个以上文本进行聚类;所述计算相似度数值包括根据所述长匹配片段的起始点和结束点的位置信息通过以下公式计算相似度数值;所述公式为权利要求1.一种基于DNA序列的文本处理方法,其特征在于,包括为两个以上文本的字符分配DNA序列码,其中文本中相同的字符分配相同的DNA序列码;使用DNA序列处理方法对分配好DNA序列码的两个以上文本进行相似性分析。2.根据权利要求1所述的方法,所述为两个以上文本的字符分配DNA序列码包括分别为两个以上文本中的字符分配十进制数,其中文本中相同的字符分配相同的十进制数;分别将两个以上文本中的字符所对应的十进制数转换为四进制数,所述四进制数的位数为n,且4n至少大于文本中互不相同的字符的总数,不足η位的四进制数在所述四进制数前端补0 ;使四进制数中的0、1、2、3分别对应四种脱氧核糖核酸中的一种,分别将两个以上文本中的字符所对应的η位四进制数转换为η位DNA序列码,得到各文本所对应的DNA序列。3.根据权利要求2所述的方法,所述为两个以上文本中的字符分配十进制数为按照两个以上文本中的字符的出现顺序为其分配十进制数。4.根据权利要求1-3任一本文档来自技高网
...

【技术保护点】
1.一种基于DNA序列的文本处理方法,其特征在于,包括:为两个以上文本的字符分配DNA序列码,其中文本中相同的字符分配相同的DNA序列码;使用DNA序列处理方法对分配好DNA序列码的两个以上文本进行相似性分析。

【技术特征摘要】

【专利技术属性】
技术研发人员:张成岗周扬屈武斌
申请(专利权)人:中国人民解放军军事医学科学院放射与辐射医学研究所
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1