一种基于感知数据的标签提取方法技术

技术编号:17597261 阅读:27 留言:0更新日期:2018-03-31 10:22
本发明专利技术公开了一种基于感知数据的标签提取方法,对象数据包括数值数据和文本数据,标签提取首先将这两部分数据分开处理,提取出各自标签后,再通过概率统计将其关联。数值特征标签提取,特征标签提取是通过聚类来选出质心来做为类的最终标签,聚类的好坏直接关系特征标签提取的效果。标签都代表着某类别最突出的特征点,即在语义上与本类中的所有实例的差别最小。大多数聚类算法都遵循着这个原则,但实际上数值特征标签本身并不需要表示出本簇的特征语义。序列特征标签提取过程主要分为聚类以及质心的选择两部分。将传入的感知数据与标签库中的标签进行相似度匹配,得出相应的数值标签。通过与文本标签库的关联获取相应的文本标签并返回。

A method of label extraction based on perceptual data

The invention discloses a tag extraction method based on perceptual data. The object data includes numerical data and text data. First, the two parts of data are processed separately, and each tag is extracted, and then linked by probability statistics. The extraction of numerical feature labels and the extraction of feature labels are selected as the final labels of the class by clustering. The quality of clustering is directly related to the effect of feature labels extraction. Labels represent the most prominent feature points of a class, which are semantically different from all instances in this class. Most clustering algorithms follow this principle, but in fact, the numeric feature label itself does not need to express the feature semantics of the cluster. The extraction process of sequence feature label is divided into two parts: clustering and centroid selection. The similarity between the incoming perceptual data and the label in the tag library is matched, and the corresponding numeric tags are obtained. Get the corresponding text label and return by association with the text tag library.

【技术实现步骤摘要】
一种基于感知数据的标签提取方法
本专利技术属于标签提取领域,尤其涉及一种基于感知数据的标签提取方法。
技术介绍
随着互联网、物联网、云计算等技术的快速发展,以及智能终端、网络社会、数字地球等信息体的普及和建设,全球数据量出现爆炸式增长。在浩瀚的数据集合中找到自己想要的信息所耗费的成本越来越大,人们陷入数据丰富但有效信息获取困难的窘境,如何从庞大的数据中快速发现人们真正感兴趣的知识信息逐渐成为大家关心的问题。而其中传感器或移动设备所产生的数据格式多种多样,产生的数据既有数值型数据又包括文本型数据。将实例记录通过比较它们间的相似度从而完成聚类并提取出类别标签来表述该类信息是解决这类问题的主要方法,然而无论是实例的相似度计算还是聚类在标签提取方面并没有什么针对性的算法。现在的信息载体结构,主要分为数值型和文本型。无论是单一的文本还是单一的数值信息本身具有的语义信息是比较片面的,将其与其他类型中提取的信息相结合后,才能得出该记录的较为全面的信息。通过对记录信息的处理分析,从而进一步推测出其实际的内容语义是标签提取领域的核心问题。在自然语言处理方面,语言学研究尝试引入丰富的语言学特征来提高信息分析的性能,但效果并不理想,繁杂的语言学特征严重降低了系统效率。而基础的统计方式即是把词频的统计作为唯一的语义依据,这放弃了大量的文档应有语义效果不佳。之后主题模型应运而出,它在文档和词之间加上了主题中间层,即文档由主题构成,而主题又由若干词组成。虽然主题模型由于在词和文档之间加入的主题的概念,可以在一定程度上解决一词多义和一义多词的问题。但在处理较为简短的文本数据上,现有各类自然语言处理算法都难以准确处理,最终提取标签随机性大且都不相关难以扩展和管理。而在数值型数据处理方面,数值型数据在静态时间下,同样难以捕捉到在时间维度上的语义特征,而且关于数值数据的相似度几乎很难合理的定义。将大量的感知数据或其他自然语言数据的文本语义用多个标签将以表示,从而可以极大减少用户或其他系统查询与管理的时间和效率。
技术实现思路
本专利技术提供一种基于相似度计算和聚类的标签提取方法,对感知数值数据和与其相关联的文本数据,根据计算数值数据之间的相似度然后聚类获得的数值标签与根据文本提取的文本标签,运用算法将感知数据转换成清晰简单的文本类型标签。一种基于感知数据的标签提取方法,该方法的实现步骤为:步骤一:对象数据包括数值数据和文本数据,标签提取首先将这两部分数据分开处理,提取出其中各自标签后,再通过概率统计将其关联。在数值标签部分,根据外貌相似和性格相似,设计一种标量相似度和矢量相似度结合的对象相似度计算方法,计算对象之间的相似度;步骤1.1:数值实体的相似度指的是某实例语义间的相似度,相似度越高代表实例越有可能属于同一个类。数值实体由若干属性组成,而其中最终的属性值既包含单个数值又包含由多个数值组成的数值序列,由此数据实体的相似度计算分为单个数值相似度计算和数值序列相似度计算以及结构匹配。在比较两个单个数值是否相似时,主要考虑两个数值之间的差值以及自身大小特征。且在当两数值差距较小时即差值小于较小数值10%突出相似度的变化趋势,在差距较大时即差值大于较小数值10倍以上减少相似度的变化等。例如虽然(10,20)与(1010,1020)之间的差值同为10,但相似关系前者远远低于后者。由此提出单个数值相似度S计算公式:其中,x、y为任意两个大于零的数,max()为取较大值函数。该公式满足以下几点:1)取值范围在0-1之间;2)两个单个数值之间的相似度与两数之间的差值成反比,且与自身数值大小形成参照;3)该函数为对称函数,即S(x,y)=S(y,x);4)两个单个数值之间的相似度变化趋势随着差值增大而减小;以上几点基本符合日常认知,在得出各属性值间的相似度后,将各属性值相似度组合成新的数值序列,通过上述数值序列相似度计算方法计算新序列间的相似度从而得出最终实体间的相似度结果。步骤1.2数值序列相似度计算;数值实体的相似度重点在于数值序列间的相似度计算,数值型序列的特征主要有两点,一是序列的数值特征S1,二是序列的波形特征S2。数值特征由序列的平均值、最大值、最小值、方差组成,序列的波动特征则利用函数拟合或余弦相似度完成计算,接着通过权衡两个特征值得到最终的相似度值。而非时序序列则由一个个的单独的数值属性值组成,并没有时序序列中的波形特征,只需根据数值特征计算公式得出各属性值间的相似度在进行加权求和即可。具体计算过程如下:对于两个长度为n的序列X<x1,x2,...,xn>与序列Y<y1,y2,...,yn>,取序列平均值数值特征为S1,取序列间的余弦相似度做为序列波动特征S2,则最终相似度结果为S=θ1*S1+θ2*S2。其中θ1,θ2为权值参数,且和为1。接着各序列减去本序列中的最小值(可能为正也可能为负),即X=X-min(X),Y=Y-min(Y)。这使数值特征与波形特征间的交叉影响最小,提高两序列间数值特征与波形特征的差异,同时也是为了预防数值负数或其他等问题。然后根据单个数值相似度计算公式求出数值特征方面的相似度:其中,mean()为求平均值函数,max()为取较大值函数。由公式简单推导就能证明S1,S2取值范围均为(0,1),且也可保证最终的相似度取值区间在(0,1)之间。最后借助监督学习算法例如梯度下降训练求得最佳参数值θ1、θ2,根据公式求得最终相似度。步骤二:数值特征标签提取;特征标签提取是通过聚类来选出质心来做为类的最终标签,所以聚类的好坏直接关系特征标签提取的效果。标签都代表着某类别最突出的特征点,即在语义上与本类中的所有实例的差别最小。大多数聚类算法都遵循着这个原则,但实际上数值特征标签本身并不需要表示出本簇的特征语义。由此本次聚类算法加入与相邻簇质心的距离特征,旨在选出最佳的类划分点。序列特征标签提取过程主要分为聚类以及质心的选择两部分。步骤2.1聚类;聚类过程是基于数值序列的相似度计算将记录间的相似度当作距离,即dist(x,y)=S(x,y)。首先借助基于密度的算法思想完成初步分类,设置参数半径R以及最小用例个数MinPts,将相似度大于R且案例个数大于Minpts的点归为一类,并选取簇内距离最小的点作为初步质心。即:其中xi为任意一个数值实体,xn为除xi外的任意实体,S为相似度计算函数。步骤2.2调整质心;由于在利用系统进行结果预测时,是以与标签的相似度来当作距离进行归类的,也即是说一个类的的空间是以该类的标签为中心以该类标签和相邻类标签的距离的一半为半径的类圆形空间。所以在完成聚类后,为找出能够使区域区分最佳的点作为质心,加入与相邻簇质心的距离这个特征,即依据公式F=θ1*C1+θ2*C2,C1:本类成员距离,C2:与相邻类质心的距离,θ1、θ2为权值参数,选取F值最大的点作为类别标签。按上述步骤依次迭代直至收敛,将这时的质心做为最终的类别标签。步骤三:文本处理;由于本次的文本目标是简短的文本对象,按照以往的标签抽取模式很难定位到准确的语义标签,由此本次文本标签抽取主要是基于词频统计和主题词库的匹配。主要是通过处理文本数据,抽取出其中的主题并将主题词做为相应数值实体的语义标签。整体结构为三层贝叶斯网络,具体为属性本文档来自技高网
...
一种基于感知数据的标签提取方法

【技术保护点】
一种基于感知数据的标签提取方法,其特征在于:该方法的实现步骤为:步骤一:对象数据包括数值数据和文本数据,标签提取首先将这两部分数据分开处理,提取出其中各自标签后,再通过概率统计将其关联;在数值标签部分,根据外貌相似和性格相似,设计一种标量相似度和矢量相似度结合的对象相似度计算方法,计算对象之间的相似度;步骤1.1:数值实体的相似度指的是某实例语义间的相似度,相似度越高代表实例越有可能属于同一个类;数值实体由若干属性组成,而其中最终的属性值既包含单个数值又包含由多个数值组成的数值序列,由此数据实体的相似度计算分为单个数值相似度计算和数值序列相似度计算以及结构匹配;在比较两个单个数值是否相似时,考虑两个单个数值之间的差值以及自身大小特征;且在当两数值差距较小时即差值小于较小数值10%突出相似度的变化趋势,在差距较大时即差值大于较小数值10倍以上减少相似度的变化等;单个数值相似度S计算公式:

【技术特征摘要】
1.一种基于感知数据的标签提取方法,其特征在于:该方法的实现步骤为:步骤一:对象数据包括数值数据和文本数据,标签提取首先将这两部分数据分开处理,提取出其中各自标签后,再通过概率统计将其关联;在数值标签部分,根据外貌相似和性格相似,设计一种标量相似度和矢量相似度结合的对象相似度计算方法,计算对象之间的相似度;步骤1.1:数值实体的相似度指的是某实例语义间的相似度,相似度越高代表实例越有可能属于同一个类;数值实体由若干属性组成,而其中最终的属性值既包含单个数值又包含由多个数值组成的数值序列,由此数据实体的相似度计算分为单个数值相似度计算和数值序列相似度计算以及结构匹配;在比较两个单个数值是否相似时,考虑两个单个数值之间的差值以及自身大小特征;且在当两数值差距较小时即差值小于较小数值10%突出相似度的变化趋势,在差距较大时即差值大于较小数值10倍以上减少相似度的变化等;单个数值相似度S计算公式:其中,x、y为任意两个大于零的数,max()为取较大值函数;该公式满足以下几点:1)取值范围在0-1之间;2)两个单个数值之间的相似度与两数之间的差值成反比,且与自身数值大小形成参照;3)该函数为对称函数,即S(x,y)=S(y,x);4)两个单个数值之间的相似度变化趋势随着差值增大而减小;以上几点基本符合日常认知,在得出各属性值间的相似度后,将各属性值相似度组合成新的数值序列,通过上述数值序列相似度计算方法计算新序列间的相似度从而得出最终实体间的相似度结果;步骤1.2数值序列相似度计算;数值实体的相似度重点在于数值序列间的相似度计算,数值型序列的特征主要有两点,一是序列的数值特征S1,二是序列的波形特征S2;数值特征由序列的平均值、最大值、最小值、方差组成,序列的波动特征则利用函数拟合或余弦相似度完成计算,接着通过权衡两个特征值得到最终的相似度值;而非时序序列则由一个个的单独的数值属性值组成,并没有时序序列中的波形特征,只需根据数值特征计算公式得出各属性值间的相似度在进行加权求和即可;具体计算过程如下:对于两个长度为n的序列X<x1,x2,...,xn>与序列Y<y1,y2,...,yn>,取序列平均值数值特征为S1,取序列间的余弦相似度做为序列波动特征S2,则最终相似度结果为S=θ1*S1+θ2*S2;其中θ1,θ2为权值参数,且和为1;接着各序列减去本序列中的最小值,即X=X-min(X),Y=Y-min(Y);这使数值特征与波形特征间的交叉影响最小,提高两序列间数值特征与波形特征的差异,同时也是为了预防数值负数或其他等问题;然后根据单个数值相似度计算公式求出数值特征方面的相似度:其中,mean()为求平均值函数,max()为取较大值函数;由公式简单推导就能证明S1,S2取值范围均为(0,1),且也可保证最终的相似度取值区间在(0,1)之间;最后借助监督学习算法例如梯度下降训练求得最佳参数值θ1、θ2,根据公式求得最终相似度;步骤二:数值特征标签提取;特征标签提取是通过聚类来选出质心来做为类的最终标签,所以聚类的好坏直接关系特征标签提取的效果;标签都代表着某类别最突出的特征点,即在语义上与本类中的所有实例的差别最小;大多数聚类算法都遵循着这个原则,但实际上数值特征标签本身并不需要表示出本簇的特征语义;聚类算法加入与相邻簇质心的距离特征...

【专利技术属性】
技术研发人员:丁治明刘凡才智曹阳
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1