信息序列转换为向量化数据的方法及系统技术方案

技术编号:16718183 阅读:61 留言:0更新日期:2017-12-05 16:31
本发明专利技术涉及数据挖掘技术领域,具体涉及信息序列转换为向量化数据的方法及系统,包括:依次读取信息序列中每个信息元;根据每个信息元在信息序列中的位置建立对应的子向量;将每个所述子向量按照对应信息元在信息序列中的位置排列,组成信息序列的向量。本发明专利技术能够在信息序列转换为向量化数据时,将信息序列中的顺序信息表达出。

The method and system of transforming information sequence into vectorization data

The present invention relates to the technical field of data mining, in particular to the information sequence into the system and method of vector data, including: read the information sequence in each information unit; according to the established information corresponding to each element in the sequence information in the location of the sub vector; each of the sub vectors will be arranged according to the position of the corresponding information element in the information sequence the vector sequence information. The invention can express the sequence information in the information sequence when the information sequence is converted into vectorization data.

【技术实现步骤摘要】
信息序列转换为向量化数据的方法及系统
本专利技术涉及数据挖掘
,具体涉及信息序列转换为向量化数据的方法及系统。
技术介绍
信息序列是具有一定顺序的信息数据,如比特流,DNA,蛋白质序列等。信息序列的特点是信息量大,顺序不可随意改变。一般情况下,包含高度重复信息的信息序列难以以传统的方法分析。在有大量的已知的信息序列和信息序列对应的结果的情况下(如已知几万段相同产物的DNA的序列,和其对应产物的表达水平),对信息序列建立数据挖掘模型来分析其中原理是极为有效的方法。但是计算机上的数据挖掘模型所需要的输入是多维度向量化数据,所以如何把这一段信息序列转化为多维度向量化数据是一个重要的问题。在现有技术中,对信息序列中的数据只进行简单的统计,将统计结果写入向量中。以DNA序列为例,现有技术所用的方法为:建立新的向量化数据A1。统计长度为l的DNA序列中A/T/G/C占DNA总长度的比例a,t,g,c.然后在向量化数据A1里存储{a,t,g,c,l}.即A1:{a,t,g,c,l}为最后得到的向量化数据。这种方法只统计了信息序列数据中各个成分所占比例,而序列的顺序这一重要的、包含信息的特征则没有利用上。这样产生的代表DNA的向量化数据,在接下来的数据挖掘过程中表现不佳。
技术实现思路
本专利技术要解决的技术问题在于,克服现有的技术的不足,提供信息序列转换为向量化数据的方法及系统,其能够在信息序列转换为向量化数据时,将信息序列中的顺序信息表达出。为达到上述技术目的,一方面,本专利技术所述的信息序列转换为向量化数据的方法,所述方法包括:依次读取信息序列中每个信息元;根据每个信息元在信息序列中的位置建立对应的子向量;将每个所述子向量按照对应信息元在信息序列中的位置排列,组成信息序列的向量。另一方面,本专利技术所述的信息序列转换为向量化数据的系统,所述系统包括:读取单元,用于依次读取信息序列中每个信息元;子向量单元,用于根据每个信息元在信息序列中的位置建立对应的子向量;向量单元,用于将每个所述子向量按照对应信息元在信息序列中的位置排列,组成信息序列的向量。在本专利技术所述的技术方案中,建立包含信息序列中每个信息元的位置信息的子向量,然后将子向量按照每个信息元在信息序列中的位置排列,从而构成信息序列的向量,由此来将信息序列转换为向量化数据,以方便计算机建立数据挖掘模型。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例的方法流程示意图;图2为本专利技术实施例的系统结构示意图;图3为本专利技术实施例中子向量单元的结构示意图;图4为本专利技术实施例中子向量片段模块的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术所述的信息序列转换为向量化数据的方法,包括以下步骤:101、依次读取信息序列中每个信息元;102、根据每个信息元在信息序列中的位置建立对应的子向量;具体如下:1021、分别选取当前信息元和其相邻的若干信息元组成多个子向量片段,具体包括:选取当前信息元和排列在当前信息元之后、且相邻的一个信息元组成当前信息元的第一片段;选取当前信息元和排列在当前信息元之后、且相邻的两个信息元组成当前信息元的第二片段;以此类推,取当前信息元和排列在当前信息元之后、且相邻的m个信息元组成当前信息元的第m片段,m为信息序列中当前信息元之后包括的信息元数量;从当前信息元的m个片段中,选取连续的p个片段作为当前信息元的子向量片段,所述p为自然数,且p≤m;优选地,选取的当前信息元的p个子向量片段中,长度最长的子向量片段所含信息元的数量是长度最短的子向量片段的两倍。1022、将当前信息元的每个子向量片段与信息序列匹配,记录信息序列中当前信息元的每个子向量片段的出现次数;所述次数分别记录在对应的当前信息元的每个子向量片段之后;1023、将当前信息元的每个子向量片段分别与对应的出现次数组合成对应的子向量元素;1024、将各子向量元素按顺序依次排列组成当前信息元的子向量,具体为:所述子向量元素按对应子向量片段所含信息元的数量由小到大依次排列组成当前信息元的子向量。103、将每个所述子向量按照对应信息元在信息序列中的位置排列,组成信息序列的向量。如图2至图4所示,本专利技术所述的信息序列转换为向量化数据的系统,包括:读取单元21,用于依次读取信息序列中每个信息元;子向量单元22,用于根据每个信息元在信息序列中的位置建立对应的子向量;向量单元23,用于将每个所述子向量按照对应信息元在信息序列中的位置排列,组成信息序列的向量。具体实施例中,所述子向量单元22的一种可能结构,如图3所示,包括:子向量片段模块221,用于分别选取当前信息元和其相邻的若干信息元组成多个子向量片段;次数模块222,用于将当前信息元的每个子向量片段与信息序列匹配,记录信息序列中当前信息元的每个子向量片段的出现次数;子向量元素模块223,用于将当前信息元的每个子向量片段分别与对应的出现次数组合成对应的子向量元素;排列模块224,用于将各子向量元素按顺序依次排列组成当前信息元的子向量。具体实施例中,所述子向量片段模块221的一种可能结构,如图4所示,包括:片段子模块2211和选取子模块2210;所述片段子模块2211,用于选取当前信息元和排列在当前信息元之后、且相邻的一个信息元组成当前信息元的第一片段;选取当前信息元和排列在当前信息元之后、且相邻的两个信息元组成当前信息元的第二片段;以此类推,取当前信息元和排列在当前信息元之后、且相邻的m个信息元组成当前信息元的第m片段,m为信息序列中当前信息元之后包括的信息元数量;所述选取子模块2210,用于从当前信息元的m个片段中,选取连续的p个片段作为当前信息元的子向量片段,所述p为自然数,且p≤m。在具体实施例中,所述次数模块222具体用于将所述出现次数分别记录在对应的当前信息元的每个子向量片段之后;所述排列模块224具体用于将所述子向量元素按对应子向量片段所含信息元的数量由小到大依次排列。在具体实施例中,所述选取子模块2210选取的当前子向量的p个子向量片段中,长度最长的子向量片段所含信息元的数量是长度最短的子向量片段的两倍。在信息序列转化为向量化数据X之后,可以将该向量化数据X和信息序列的结果y表达为(X,y)的形式。当得到一批有表达结果的信息序列后,将各信息序列表达为(X,y)的形式输入至计算机,利用逻辑回归分类器对这批表达为(X,y)形式的数据进行训练。训练模型可选如下模型:上述函数hθ(x)表示已知X时,对y的估计值的计算公式。从公式(1)中可以看到,分类器模型训练的过程即找出一组参数θ,使模型的结果hθ(x)尽量符合训练数据的结果。逻辑回归分类器模型训练的原理是使用梯度下降法,即:公式本文档来自技高网...
信息序列转换为向量化数据的方法及系统

【技术保护点】
一种信息序列转换为向量化数据的方法,其特征在于,所述方法包括:依次读取信息序列中每个信息元;根据每个信息元在信息序列中的位置建立对应的子向量;将每个所述子向量按照对应信息元在信息序列中的位置排列,组成信息序列的向量。

【技术特征摘要】
1.一种信息序列转换为向量化数据的方法,其特征在于,所述方法包括:依次读取信息序列中每个信息元;根据每个信息元在信息序列中的位置建立对应的子向量;将每个所述子向量按照对应信息元在信息序列中的位置排列,组成信息序列的向量。2.根据权利要求1所述的信息序列转换为向量化数据的方法,其特征在于,所述根据每个信息元在信息序列中的位置建立对应的子向量,具体包括:分别选取当前信息元和其相邻的若干信息元组成多个子向量片段;将当前信息元的每个子向量片段与信息序列匹配,记录信息序列中当前信息元的每个子向量片段的出现次数;将当前信息元的每个子向量片段分别与对应的出现次数组合成对应的子向量元素;将各子向量元素按顺序依次排列组成当前信息元的子向量。3.根据权利要求2所述的信息序列转换为向量化数据的方法,其特征在于,所述分别选取当前信息元和其相邻的若干信息元组成多个子向量片段,具体包括:选取当前信息元和排列在当前信息元之后、且相邻的一个信息元组成当前信息元的第一片段;选取当前信息元和排列在当前信息元之后、且相邻的两个信息元组成当前信息元的第二片段;以此类推,取当前信息元和排列在当前信息元之后、且相邻的m个信息元组成当前信息元的第m片段,m为信息序列中当前信息元之后包括的信息元数量;从当前信息元的m个片段中,选取连续的p个片段作为当前信息元的子向量片段,所述p为自然数,且p≤m。4.根据权利要求2或3所述的信息序列转换为向量化数据的方法,其特征在于,所述出现次数分别记录在对应的当前信息元的每个子向量片段之后;所述子向量元素按对应子向量片段所含信息元的数量由小到大依次排列组成当前信息元的子向量。5.根据权利要求3所述的信息序列转换为向量化数据的方法,其特征在于,所述选取的当前信息元的p个子向量片段中,长度最长的子向量片段所含信息元的数量是长度最短的子向量片段的两倍。6.一种信息序列转换为向量化数据的系统,其特征在于,所述系统...

【专利技术属性】
技术研发人员:王嘉伟
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1