个人大数据管理中层次概念向量化增量处理方法技术

技术编号:15391658 阅读:42 留言:0更新日期:2017-05-19 04:52
个人大数据管理中层次概念向量化增量处理方法,含以下步骤:1)系统初次运行时将全部概念向量化,对全部分枝节点进行概念向量合并操作。2)用户操作概念树时执行:2.1)获取被操作节点及其父节点的概念向量及词总数;2.2)依据公式修改父节点的概念向量;2.3)以父节点为被操作节点从2.1)开始递归执行直到根节点;2.4)更新逆文档频率向量。3)误差累计到一定程度执行:3.1)获取当前逆文档频率向量和逆文档频率初始值向量;3.2)批量更新向量空间中所有向量权重;3.3)更新逆文档频率初始值向量。本发明专利技术实现了个人大数据管理中层次概念向量化增量计算方法,能够快速调整概念空间中的概念向量,提高执行效率。

Hierarchical incremental processing of hierarchical concepts in personal large data management

In the large personal data management, the hierarchical concept incremental processing method includes the following steps: 1) when the system runs for the first time, all the concepts are quantized, and all the branch nodes are merged with the concept vectors. 2) implementation of user concept tree: 2.1) to obtain the total concept vector and the word is the parent node and node operation; 2.2) based on the concept of vector modified formula of the parent node; 2.3) to the parent node by node operation from 2.1) until the root node starts the recursive execution; 2.4) to update the inverse document frequency vector. 3) error is accumulated to a certain degree of execution: 3.1) to obtain the current vector inverse document frequency and inverse document frequency initial value vector; 3.2) batch updates all the weight vector in the vector space; 3.3) to update the inverse document frequency initial value vector. The invention realizes a method for computing incremental increments of hierarchical concepts in personal large data management, which can rapidly adjust the concept vectors in the concept space, and improve the execution efficiency.

【技术实现步骤摘要】
个人大数据管理中层次概念向量化增量处理方法
本专利技术涉及个人大数据的管理、组织、查询与检索技术,尤其涉及一种基于向量空间模型的层次概念向量化方法及其增量计算方法。
技术介绍
随着信息技术的发展,个人数据发生爆炸性增长,包括个人文档(文本、图像、语音)、邮件、健康数据,个人手机联系信息(微信、QQ)、互联网数据等等,进入了个人大数据(personalbigdata)时代;穿戴设备的发展,将进一步加剧数据的增长,人们可以记录所闻、所见,全天收集生理健康数据。如何管理、组织个人大数据,通过简单的操作,总能够在合适的地方得到准确、合适、完整、高质量的信息,是个人信息管理系统的一个目标。然而,即便处理个人堆积的电子文档,目前的手段也是不尽如意。比如,由于时间推移,人们往往对先前存储的信息的记忆也逐渐模糊,现有检索工具采用关键字匹配的方式进行信息检索,无法充分利用用户脑海中模糊的、相关联的查询线索,时常造成检索效率低下。此外,这种基于精准匹配的信息检索方式,也难以帮助用户发现潜在相关的信息。面对海量数据,数据抽象有助于对海量数据的把握与理解。本专利技术所提个人大数据管理系统采用概念空间对数据进行有效组织,其中“概念”指相互间有相似性或者是有相关性的信息资源所组成的一个集合,这个集合可以代表某个类或是事务、任务等。用户主体可以依据工作需要、个人偏好、个人习惯等建立一系列概念,而各个概念相互间以及概念与各自的数据源间存在着关联,从而构成整个语义联系网,实现对个人信息高效的管理。概念之间的关联可以是上下位关系、全同关系、真包含于关系、真包含关系、交叉关系、聚集等,但对于信息管理中使用最多的还是关联。而概念空间是由概念以及由概念为结点的语义关系网组成。实际中,以各个概念作为节点,根据概念间的上下位关系,组织成多层次的树形结构,本专利技术称之为“概念树”,使用户易于接受和使用。如何充分利用概念包含的语义来提高查询质量是值得关注的议题。对非结构化的文本数据,文档向量化技术是一种能够利用文档所含语义信息的方法,是解决以上问题的基础技术。在文档向量化技术中,文档被视为特征项(词)的集合,对文档内容的处理被简化为向量空间中的向量运算,并以向量空间上的相似度表达文本的语义相似度,为用户提供语义上相关的文档,拓展信息检索的广度。而这种语义相似度,同时也能作为用户进一步检索的线索,引导用户提升信息检索的深度。文档向量化的方法可以推广到概念空间中,把其中的概念类比于文档,即可进行概念向量化,本专利技术将所得到的特征向量称为概念向量。一般而言,由于概念的特征项通常数以千计,造成概念向量化过程计算量较大。如果采用传统的文档向量化方法进行概念向量化,当概念数量变化时,如新概念的加入或旧概念的删除,会使已存在的所有概念向量产生偏差;若重新构建向量空间,计算量通常较大。此外,传统的文档向量化技术大多基于单层文档分类结构,并不适合直接应用到概念树中。在概念树中,对分枝节点对应的概念进行向量化时,为了更加完整地体现概念的语义信息,除了对节点本身对应的概念进行计算,还应该融合下位节点对应的概念,具体方式是将分枝节点的概念向量与其子节点的概念向量合并。本专利技术拟解决以上所提及个人大数据管理中的概念向量化高效计算问题,本专利技术将以向量空间模型为基础,发展基于层次概念结构的概念向量化方法。针对概念树结构变化致使向量空间产生偏差的问题,引入向量增量计算方法,用于对向量空间的高效调整,而在增量计算过程中产生的误差,则进行累积和修补。
技术实现思路
本专利技术要克服现有的面对个人大数据,传统的文档向量化技术不适用于概念树结构,在概念树结构发生变化时,向量空间重构所需的计算量巨大的缺点,提供一种面向海量个人大数据、基于层次概念结构的概念向量化方法以解决上述问题。本专利技术的个人大数据管理中层次概念向量化增量处理方法应用于个人大数据管理模型的概念空间层。本专利技术可分为向量空间初始化阶段与向量增量计算阶段,其中向量空间初始化阶段可进一步细分为预处理阶段以及概念向量合并阶段。所述预处理阶段将概念树上的每一个节点的概念进行向量化表述为一个概念向量,并记录各个节点的词总数及各特征项的逆文档频率,向量化过程采用tf-idf法计算特征项的权重,节点的词总数指节点对应的概念所包含的词语的总数。应注意的是,一个概念可能包含多篇文档,在计算时将同一概念中的全部文档作为一个整体进行计算。在预处理过程中,对于分枝节点只对节点本身对应的概念进行计算。所述概念向量合并阶段包括在计算机上运行以下步骤:1)将概念树的根节点作为目标节点;2)对于目标节点,获取其全部m个子节点C1,C2,…,Cm;3)获取C1,C2,…,Cm对应的概念向量VC1,VC2,…,VCm以及目标节点对应的概念向量V;(3.1)若有子节点Ci为分枝节点且其对应的概念向量未合并,以Ci为目标节点从步骤(2)开始对其概念向量进行合并。4)计算目标节点及其全部子节点的词总数之和L。在向量空间中创建一个概念向量Vnew;5)假设向量空间中共有n个不同的特征项T1,T2,…,Tn,则给定概念向量V,其对应特征项Ti的权重记为V.Wi,其中对应词总数记为LV,VCi的总词数记为LCi;计算Vnew.Wi=(V.Wi*LV+VC1.Wi*LC1+VC2.Wi*LC2+…+VCm.Wi*LCm)/L,其中i=1,2,…,n。6)将目标节点对应的概念向量更改为Vnew,词总数更改为L。所述向量增量计算阶段可分为增量计算过程和误差补全过程。增量计算过程在用户每一次对概念树进行更新操作后立即执行。对概念树进行的更新操作包括添加、删除或移动概念节点,其中移动概念节点视为先删除后添加两步操作。对于添加或删除节点,在计算机上运行以下步骤:A1.将被添加或删除的节点Nc作为目标节点;A2.查找目标节点的父节点Np。若Np不存在,结束本次增量计算过程。A3.获取Nc对应的概念向量Vc及词总数Lc,Np对应的概念向量Vp及词总数Lp。A4.假设向量空间中共含有n个不同的特征项,分别记为T1,T2,…,Tn,相应权重分量记为W1,W2,…,Wn。对Vp的权重执行以下操作:(A4.1)若为添加节点操作,Vp.Wi=(Lp*Vp.Wi+Lc*Vc.Wi)/(Lp+Lc),i=1,2,…,n,将Np的词总数更改为(Lp+Lc);(A4.2)若为删除节点操作,Vp.Wi=(Lp*Vp.Wi-Lc*Vc.Wi)/(Lp-Lc),i=1,2,…,n,将Np的词总数更改为(Lp-Lc)。A5.将Np作为目标节点,从(2)开始执行。进一步,所述误差补全过程可细分为逆文档频率误差累积向量更新部分与特征项权重批量更新部分。注意所述逆文档频率是沿用了传统tf-idf算法中惯用的说法,在本专利技术中是以概念的总数和包含特征项的概念数量计算该特征项的逆文档频率。这里“概念”与传统td-idf算法中的“文档”对应。在整个概念空间中有几个全局值,包括逆文档频率向量Vidf和逆文档频率初始值向量Vini。假设向量空间中共有n个不同的特征项,分别记为T1,T2,…,Tn。给定概念向量V,其对应特征项Ti的权重记为V.Wi;对于特征项Ti,包含Ti的概念总数记为Ti.F。其中逆文档频率误差累积向量更新部分在每次增量计算本文档来自技高网
...
个人大数据管理中层次概念向量化增量处理方法

【技术保护点】
一种个人大数据管理中层次概念向量化增量处理方法,包括向量空间初始化阶段与向量增量计算阶段,其中向量空间初始化阶段可进一步细分为预处理阶段以及概念向量合并阶段,向量增量计算阶段可分为增量计算过程和误差补全过程;所述预处理阶段将概念树上的每一个节点的概念进行向量化表述为一个概念向量,并记录各个节点的词总数及各特征项的逆文档频率;所述概念向量合并阶段包括在计算机上运行以下步骤:1)将概念树的根节点作为目标节点;2)对于目标节点,获取其全部m个子节点C

【技术特征摘要】
1.一种个人大数据管理中层次概念向量化增量处理方法,包括向量空间初始化阶段与向量增量计算阶段,其中向量空间初始化阶段可进一步细分为预处理阶段以及概念向量合并阶段,向量增量计算阶段可分为增量计算过程和误差补全过程;所述预处理阶段将概念树上的每一个节点的概念进行向量化表述为一个概念向量,并记录各个节点的词总数及各特征项的逆文档频率;所述概念向量合并阶段包括在计算机上运行以下步骤:1)将概念树的根节点作为目标节点;2)对于目标节点,获取其全部m个子节点C1,C2,…,Cm;3)获取C1,C2,…,Cm对应的概念向量VC1,VC2,…,VCm以及目标节点对应的概念向量V;(3.1)若有子节点Ci为分枝节点且其对应的概念向量未合并,以Ci为目标节点从步骤(2)开始对其概念向量进行合并。4)计算目标节点及其全部子节点的词总数之和L。在向量空间中创建一个概念向量Vnew;5)假设向量空间中共有n个不同的特征项T1,T2,…,Tn,则给定概念向量V,其对应特征项Ti的权重记为V.Wi,其中对应词总数记为LV,VCi的总词数记为LCi;计算Vnew.Wi=(V.Wi*LV+VC1.Wi*LC1+VC2.Wi*LC2+…+VCm.Wi*LCm)/L,其中i=1,2,…,n。6)将目标节点对应的概念向量更改为Vnew,词总数更改为L。所述增量计算过程在用户每一次对概念树进行更新操作后立即执行。对概念树进行的更新操作包括添加、删除或移动概念节点,其中移动概念节点视为先删除后添加两步操作。对于添加或删除节点,在计算机上运行以下步骤:A1.将被添加或删除的节点Nc作为目标节点;A2.查找目标节点的父节点Np。若Np不存在,结束本次增量计算过程。A3.获取Nc对应的概念向量Vc及词总数Lc,Np对应的概念向量Vp及词总数Lp。A4.假设向量空间中共含有n个不同的特征项,分别记为T1,T2,…,Tn,相应权重分量记为W1,W2,…,Wn。对Vp的权重执行以下操作:(A4.1)若为添加节点操作,Vp.Wi=(Lp*Vp.Wi+Lc*Vc.Wi)/(Lp+Lc),i=1,2,…,n,将Np的词总数更改为(Lp+Lc);(A4.2)若为删除节点操作,Vp.Wi=(Lp*Vp.Wi-Lc*Vc.Wi)/(Lp-Lc),i=1,2,…,n,将Np的词总数更改为(Lp-Lc)。A5.将Np作为目标节点,从(2)开始执行。所述误差补全过程可细分为逆文档频率误差累积向量更新部分与特征项权重批量更新部分。在整个概念空间中有几个全局值,包括逆文档频率向量Vidf和逆文档频率初始值向量Vini。假设向量空间中共有n个不同的特征项,分别记为T1,T2,…,Tn。给定概念向量V,其对应特征项Ti的权重记为V.Wi;对于特征项Ti,包含Ti的概念总数记为Ti.F。其中逆文档频率误差累积向量更新部分在每次增量计算过程结束后立即执行,包括在计算机上执行以下过程:D1.获...

【专利技术属性】
技术研发人员:杨良怀汪庆顺庄慧范玉雷龚卫华方文菲
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1