The present invention relates to the technical field of data mining, in particular to the information sequence into the system and method of vector data, including: read the information sequence in each information unit; according to the established information corresponding to each element in the sequence information in the location of the sub vector; each of the sub vectors will be arranged according to the position of the corresponding information element in the information sequence the vector sequence information. The invention can express the sequence information in the information sequence when the information sequence is converted into vectorization data.
【技术实现步骤摘要】
信息序列转换为向量化数据的方法及系统
本专利技术涉及数据挖掘
,具体涉及信息序列转换为向量化数据的方法及系统。
技术介绍
信息序列是具有一定顺序的信息数据,如比特流,DNA,蛋白质序列等。信息序列的特点是信息量大,顺序不可随意改变。一般情况下,包含高度重复信息的信息序列难以以传统的方法分析。在有大量的已知的信息序列和信息序列对应的结果的情况下(如已知几万段相同产物的DNA的序列,和其对应产物的表达水平),对信息序列建立数据挖掘模型来分析其中原理是极为有效的方法。但是计算机上的数据挖掘模型所需要的输入是多维度向量化数据,所以如何把这一段信息序列转化为多维度向量化数据是一个重要的问题。在现有技术中,对信息序列中的数据只进行简单的统计,将统计结果写入向量中。以DNA序列为例,现有技术所用的方法为:建立新的向量化数据A1。统计长度为l的DNA序列中A/T/G/C占DNA总长度的比例a,t,g,c.然后在向量化数据A1里存储{a,t,g,c,l}.即A1:{a,t,g,c,l}为最后得到的向量化数据。这种方法只统计了信息序列数据中各个成分所占比例,而序列的顺序这一重要的、包含信息的特征则没有利用上。这样产生的代表DNA的向量化数据,在接下来的数据挖掘过程中表现不佳。
技术实现思路
本专利技术要解决的技术问题在于,克服现有的技术的不足,提供信息序列转换为向量化数据的方法及系统,其能够在信息序列转换为向量化数据时,将信息序列中的顺序信息表达出。为达到上述技术目的,一方面,本专利技术所述的信息序列转换为向量化数据的方法,所述方法包括:依次读取信息序列中每个信息元;根据每 ...
【技术保护点】
一种信息序列转换为向量化数据的方法,其特征在于,所述方法包括:依次读取信息序列中每个信息元;根据每个信息元在信息序列中的位置建立对应的子向量;将每个所述子向量按照对应信息元在信息序列中的位置排列,组成信息序列的向量。
【技术特征摘要】
1.一种信息序列转换为向量化数据的方法,其特征在于,所述方法包括:依次读取信息序列中每个信息元;根据每个信息元在信息序列中的位置建立对应的子向量;将每个所述子向量按照对应信息元在信息序列中的位置排列,组成信息序列的向量。2.根据权利要求1所述的信息序列转换为向量化数据的方法,其特征在于,所述根据每个信息元在信息序列中的位置建立对应的子向量,具体包括:分别选取当前信息元和其相邻的若干信息元组成多个子向量片段;将当前信息元的每个子向量片段与信息序列匹配,记录信息序列中当前信息元的每个子向量片段的出现次数;将当前信息元的每个子向量片段分别与对应的出现次数组合成对应的子向量元素;将各子向量元素按顺序依次排列组成当前信息元的子向量。3.根据权利要求2所述的信息序列转换为向量化数据的方法,其特征在于,所述分别选取当前信息元和其相邻的若干信息元组成多个子向量片段,具体包括:选取当前信息元和排列在当前信息元之后、且相邻的一个信息元组成当前信息元的第一片段;选取当前信息元和排列在当前信息元之后、且相邻的两个信息元组成当前信息元的第二片段;以此类推,取当前信息元和排列在当前信息元之后、且相邻的m个信息元组成当前信息元的第m片段,m为信息序列中当前信息元之后包括的信息元数量;从当前信息元的m个片段中,选取连续的p个片段作为当前信息元的子向量片段,所述p为自然数,且p≤m。4.根据权利要求2或3所述的信息序列转换为向量化数据的方法,其特征在于,所述出现次数分别记录在对应的当前信息元的每个子向量片段之后;所述子向量元素按对应子向量片段所含信息元的数量由小到大依次排列组成当前信息元的子向量。5.根据权利要求3所述的信息序列转换为向量化数据的方法,其特征在于,所述选取的当前信息元的p个子向量片段中,长度最长的子向量片段所含信息元的数量是长度最短的子向量片段的两倍。6.一种信息序列转换为向量化数据的系统,其特征在于,所述系统...
【专利技术属性】
技术研发人员:王嘉伟,
申请(专利权)人:微梦创科网络科技中国有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。