当前位置: 首页 > 专利查询>中国人民解放军军事医学科学院放射与辐射医学研究所专利>正文

一种基于DNA序列的文本处理方法和系统技术方案

技术编号：6643621 阅读：201 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种基于DNA序列的文本处理方法和系统。该文本处理方法包括：为两个以上文本的字符分配DNA序列码，使用DNA序列处理方法对分配好DNA序列码的两个以上文本进行相似性分析，所述字符为数字、字、单词或符号中的一种或多种，所述字或单词为一个或多个语种的字或单词。为两个以上文本的字符分配DNA序列码包括：为两个以上文本中的字符分配十进制数，将所述十进制数转换为四进制数；使四进制数中的0、1、2、3分别对应四种脱氧核糖核酸中的一种，将四进制数转换为DNA序列码。本发明专利技术还提供了实现该方法的系统。本发明专利技术的方法和系统不依赖于已有数据库的建立，关键词的抽提，没有字符以及字符组合数目的限制，可对文本信息实现高效、全面的分析。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种信息处理方法和系统，尤其涉及一种基于DNA序列的文本处理方法和系统。
技术介绍
文本的频谱刻画、相似性比对及聚类分析是文本处理中常规分析手段。目前已有多种文本处理系统，然而多数是只是完成其中的一项任务，如中国知网(CNKI)的学术论文检测系统和武汉大学沈阳副教授及其团队开发的ROST反剽窃系统，其功能均为完成文本的相似性比对。文本的频谱刻画是指从字符(单字符或多字符组合)水平分析一个或两个以上的文本，通过将所有可能出现的字符或字符组合在横坐标上固定，然后逐一统计其在文本中的出现频率，以该频率值作为纵坐标，刻画出文本的图谱。虽然其可以对文本信息进行直观的描述，但由于字符的数量众多并且字符在横坐标的位置不易统一，因此目前只是集中于少数几个字符的出现频率统计(少于20)，并且使用不多。文本相似性比对(或检测)是指通过比对文字信息间的相似程度来对不同文本进行分析，其通用的核心方法是词频计算，首先对文章进行分层处理，按照篇章、段落、句子等层级分别创建指纹索引(即以一小片段具有代表性的文字作为大段文字的标签)，以创建的指纹索引作为数据库中的检索输入，以检索到相似的文本，是反剽窃系统的核心，也可用于文本相似性搜索、文本挖掘等领域；但由于其对数据库的强烈依赖，每个比对(检测)系统背后都需要有数量众多的文本信息作为支持，因而对于轻量级的两两文字信息的比对或是小规模的文本间相似性比对不能给予很好的支持，即，待比对文字需出现在所使用的数据库中，因此在文本分析过程中存在着很大的局限。文本聚类是指通过描述两两文档之间的相似程度，并且按照同类的文档之间相似程度较高...

【技术保护点】
１．一种基于ＤＮＡ序列的文本处理方法，其特征在于，包括：为两个以上文本的字符分配ＤＮＡ序列码，其中文本中相同的字符分配相同的ＤＮＡ序列码；使用ＤＮＡ序列处理方法对分配好ＤＮＡ序列码的两个以上文本进行相似性分析。

【技术特征摘要】

【专利技术属性】
技术研发人员：张成岗，周扬，屈武斌，
申请(专利权)人：中国人民解放军军事医学科学院放射与辐射医学研究所，
类型：发明
国别省市：11

全部详细技术资料下载我是这个专利的主人