In the large personal data management, the hierarchical concept incremental processing method includes the following steps: 1) when the system runs for the first time, all the concepts are quantized, and all the branch nodes are merged with the concept vectors. 2) implementation of user concept tree: 2.1) to obtain the total concept vector and the word is the parent node and node operation; 2.2) based on the concept of vector modified formula of the parent node; 2.3) to the parent node by node operation from 2.1) until the root node starts the recursive execution; 2.4) to update the inverse document frequency vector. 3) error is accumulated to a certain degree of execution: 3.1) to obtain the current vector inverse document frequency and inverse document frequency initial value vector; 3.2) batch updates all the weight vector in the vector space; 3.3) to update the inverse document frequency initial value vector. The invention realizes a method for computing incremental increments of hierarchical concepts in personal large data management, which can rapidly adjust the concept vectors in the concept space, and improve the execution efficiency.
【技术实现步骤摘要】
个人大数据管理中层次概念向量化增量处理方法
本专利技术涉及个人大数据的管理、组织、查询与检索技术,尤其涉及一种基于向量空间模型的层次概念向量化方法及其增量计算方法。
技术介绍
随着信息技术的发展,个人数据发生爆炸性增长,包括个人文档(文本、图像、语音)、邮件、健康数据,个人手机联系信息(微信、QQ)、互联网数据等等,进入了个人大数据(personalbigdata)时代;穿戴设备的发展,将进一步加剧数据的增长,人们可以记录所闻、所见,全天收集生理健康数据。如何管理、组织个人大数据,通过简单的操作,总能够在合适的地方得到准确、合适、完整、高质量的信息,是个人信息管理系统的一个目标。然而,即便处理个人堆积的电子文档,目前的手段也是不尽如意。比如,由于时间推移,人们往往对先前存储的信息的记忆也逐渐模糊,现有检索工具采用关键字匹配的方式进行信息检索,无法充分利用用户脑海中模糊的、相关联的查询线索,时常造成检索效率低下。此外,这种基于精准匹配的信息检索方式,也难以帮助用户发现潜在相关的信息。面对海量数据,数据抽象有助于对海量数据的把握与理解。本专利技术所提个人大数据管理系统采用概念空间对数据进行有效组织,其中“概念”指相互间有相似性或者是有相关性的信息资源所组成的一个集合,这个集合可以代表某个类或是事务、任务等。用户主体可以依据工作需要、个人偏好、个人习惯等建立一系列概念,而各个概念相互间以及概念与各自的数据源间存在着关联,从而构成整个语义联系网,实现对个人信息高效的管理。概念之间的关联可以是上下位关系、全同关系、真包含于关系、真包含关系、交叉关系、聚集等,但对于信 ...
【技术保护点】
一种个人大数据管理中层次概念向量化增量处理方法,包括向量空间初始化阶段与向量增量计算阶段,其中向量空间初始化阶段可进一步细分为预处理阶段以及概念向量合并阶段,向量增量计算阶段可分为增量计算过程和误差补全过程;所述预处理阶段将概念树上的每一个节点的概念进行向量化表述为一个概念向量,并记录各个节点的词总数及各特征项的逆文档频率;所述概念向量合并阶段包括在计算机上运行以下步骤:1)将概念树的根节点作为目标节点;2)对于目标节点,获取其全部m个子节点C
【技术特征摘要】
1.一种个人大数据管理中层次概念向量化增量处理方法,包括向量空间初始化阶段与向量增量计算阶段,其中向量空间初始化阶段可进一步细分为预处理阶段以及概念向量合并阶段,向量增量计算阶段可分为增量计算过程和误差补全过程;所述预处理阶段将概念树上的每一个节点的概念进行向量化表述为一个概念向量,并记录各个节点的词总数及各特征项的逆文档频率;所述概念向量合并阶段包括在计算机上运行以下步骤:1)将概念树的根节点作为目标节点;2)对于目标节点,获取其全部m个子节点C1,C2,…,Cm;3)获取C1,C2,…,Cm对应的概念向量VC1,VC2,…,VCm以及目标节点对应的概念向量V;(3.1)若有子节点Ci为分枝节点且其对应的概念向量未合并,以Ci为目标节点从步骤(2)开始对其概念向量进行合并。4)计算目标节点及其全部子节点的词总数之和L。在向量空间中创建一个概念向量Vnew;5)假设向量空间中共有n个不同的特征项T1,T2,…,Tn,则给定概念向量V,其对应特征项Ti的权重记为V.Wi,其中对应词总数记为LV,VCi的总词数记为LCi;计算Vnew.Wi=(V.Wi*LV+VC1.Wi*LC1+VC2.Wi*LC2+…+VCm.Wi*LCm)/L,其中i=1,2,…,n。6)将目标节点对应的概念向量更改为Vnew,词总数更改为L。所述增量计算过程在用户每一次对概念树进行更新操作后立即执行。对概念树进行的更新操作包括添加、删除或移动概念节点,其中移动概念节点视为先删除后添加两步操作。对于添加或删除节点,在计算机上运行以下步骤:A1.将被添加或删除的节点Nc作为目标节点;A2.查找目标节点的父节点Np。若Np不存在,结束本次增量计算过程。A3.获取Nc对应的概念向量Vc及词总数Lc,Np对应的概念向量Vp及词总数Lp。A4.假设向量空间中共含有n个不同的特征项,分别记为T1,T2,…,Tn,相应权重分量记为W1,W2,…,Wn。对Vp的权重执行以下操作:(A4.1)若为添加节点操作,Vp.Wi=(Lp*Vp.Wi+Lc*Vc.Wi)/(Lp+Lc),i=1,2,…,n,将Np的词总数更改为(Lp+Lc);(A4.2)若为删除节点操作,Vp.Wi=(Lp*Vp.Wi-Lc*Vc.Wi)/(Lp-Lc),i=1,2,…,n,将Np的词总数更改为(Lp-Lc)。A5.将Np作为目标节点,从(2)开始执行。所述误差补全过程可细分为逆文档频率误差累积向量更新部分与特征项权重批量更新部分。在整个概念空间中有几个全局值,包括逆文档频率向量Vidf和逆文档频率初始值向量Vini。假设向量空间中共有n个不同的特征项,分别记为T1,T2,…,Tn。给定概念向量V,其对应特征项Ti的权重记为V.Wi;对于特征项Ti,包含Ti的概念总数记为Ti.F。其中逆文档频率误差累积向量更新部分在每次增量计算过程结束后立即执行,包括在计算机上执行以下过程:D1.获...
【专利技术属性】
技术研发人员:杨良怀,汪庆顺,庄慧,范玉雷,龚卫华,方文菲,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。