一种面向序列采样的样本代表性计算方法技术

技术编号:24037005 阅读:174 留言:0更新日期:2020-05-07 02:12
本发明专利技术涉及序列采样技术领域,具体地说,涉及一种面向序列采样的样本代表性计算方法。其包括计算跨度占比、计算采样比例、计算序列熵和计算代表性。该面向序列采样的样本代表性计算方法中,综合考虑了多种要素,从采样子序列的跨度、采样比例、及分布的均匀程度体现采样序列的代表性。输出的结果是在0~1之间的实数,方便后续作业的处理及便于人对结果产生直观的感受。

A method of sample representativeness calculation for sequence sampling

【技术实现步骤摘要】
一种面向序列采样的样本代表性计算方法
本专利技术涉及序列采样
,具体地说,涉及一种面向序列采样的样本代表性计算方法。
技术介绍
所谓面向序列采样的样本代表性是指,从全序列中抽取一个子序列后,该子序列代表全序列程度的指标。该代表性可被用于自然语言处理(NLP)中的一些基础任务及其效果评估。现有方案一般只考虑采样数与总数的比例,没有考虑采样子序列的跨度及在全序列中的分布情况。即现有方案的代表性=采样比例=采样样本数/总数。即使在相同采样比例前提下,采样样本在原序列中的跨度大小及分布均匀程度不同,也会导致样本的代表性不同。
技术实现思路
本专利技术的目的在于提供一种面向序列采样的样本代表性计算方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供一种面向序列采样的样本代表性计算方法,其方法包括如下步骤:步骤一:计算跨度占比:计算采样子序列中的最大下标与最小下标之差加一后与全序列大小之比;步骤二:计算采样比例:计算采样子序列元素个数除以全序列元素个数;步骤三:计算序列熵:在一定的跨度及采样比例下,对序列的均匀程度进行数值上的度量;步骤四:计算代表性:将步骤一至步骤三的三个量相乘即获得面向序列采样的样本代表性数值。作为优选,所述子序列的代表性的计算方法如下:(1)、将文本看做一个以段落为单位的全序列,用[0,1,2,…,n-1]表示,大小为n;(2)、对文本的采样结果,看做是子序列,用[A0,A1,A2,...,Am-1]表示,大小为m;(3)、设定关于子序列代表性的技术性假设;(4)、定义指标:跨度占比(spanRatio)、采样比例(proportion)、序列熵(entropy);(5)、定义子序列的代表性为上述三个指标的乘积,即representative=spanRatio*proportion*entropy。作为优选,所述设定关于子序列代表性的技术性假设包括:(3.1)、子序列跨度越大,代表性越强,跨度定义为span=Am-1-A0+1;(3.2)、子序列元素越多,代表性越强;(3.3)、同等跨度及元素个数下,子序列内部的元素越均匀,代表性越强。作为优选,所述定义指标包括:(4.1)、跨度占比:span/n=(Am-1-A0+1)/n,规定当采样数小于等于1时,跨度占比=m/n;(4.2)、子序列采样比例:m/n;(4.3)、序列熵:给定跨度占比及采样比例条件下,子序列相邻元素之差的平方和的可能最小值除以当前子序列相邻元素之差的平方和,即entropy=minIntervalQuadraticSum/intervalQuadraticSum。作为优选,所述定义子序列的代表性为上述三个指标的乘积包括:(5.1)、代表性是0~1之间的实数;(5.2)、当子序列与全序列相同时,代表性取到最大值1;(5.3)、子序列为空时,代表性取最小值0。与现有技术相比,本专利技术的有益效果:该面向序列采样的样本代表性计算方法中,综合考虑了多种要素,从采样子序列的跨度、采样比例、及分布的均匀程度体现采样序列的代表性。输出的结果是在0~1之间的实数,方便后续作业的处理及便于人对结果产生直观的感受。附图说明图1为本专利技术的总流程图;图2为本专利技术的计算跨度占比流程图;图3为本专利技术的计算序列熵流程图;图4为本专利技术的采样跨度影响采样代表性图;图5为本专利技术的采样分布情况影响代表性图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-图5所示,本专利技术提供一种技术方案:本专利技术提供一种面向序列采样的样本代表性计算方法,包括其方法包括如下步骤:步骤一:计算跨度占比:计算采样子序列中的最大下标与最小下标之差(即跨度)与全序列大小之比;步骤二:计算采样比例:计算采样子序列元素个数除以全序列元素个数;步骤三:计算序列熵:在一定的跨度及采样比例下,对序列的均匀程度进行数值上的度量;步骤四:计算代表性:将步骤一至步骤三的三个量相乘即获得面向序列采样的样本代表性数值。子序列的代表性的计算方法:1.将文本看做一个以段落为单位元素的序列,下称全序列,用[0,1,2,…,n-1]表示,大小为n。(本专利直接使用段落的标号/序号表示段落,便于说明和计算)2.将文本的采样(随机,或基于语义相关性)结果,看做是子序列,用[A0,A1,A2,...,Am-1]表示,大小为m。3.出于常理,做如下技术性观察及假设:(3.1)子序列跨度越大,代表性越强,跨度定义为span=Am-1-A0+1。(3.2)子序列元素越多,代表性越强。(3.3)同等跨度及元素个数下,子序列内部的元素越均匀,代表性越强(参考最大熵原理/TheMaximumEntropyPrinciple)。4.基于上述技术性观察及假设,定义如下指标:(4.1)跨度占比(spanRatio):span/n=(Am-1-A0+1)/n,特别地,规定当采样数小于等于1时,跨度占比=m/n;(4.2)采样比例(proportion):m/n;(4.3)序列熵(entropy):a)未规范化(至0~1之间)的序列熵定义为子序列内每对相邻元素之差的平方和的倒数。平方和越小、平方和的倒数越大,元素分布越均匀,序列熵越大(比照热力学熵的定义)。为了便于叙述说明,下文不时会将序列熵简称为熵。b)为了把熵归一化至0~1区间,最终将序列熵定义为:给定跨度占比及采样比例条件下,子序列相邻元素之差的平方和的可能最小值除以当前子序列相邻元素之差的平方和,即entropy=(1/intervalQuadraticSum)/(1/minIntervalQuadraticSum)=minIntervalQuadraticSum/intervalQuadraticSum;c)给定跨度占比及采样比例,当元素分布完全均匀(等距)时,子序列内相邻元素之差的平方和最小(说明见备注)。显然,平均间距avgInterval=(span-1)/(m-1),因而有最小平方和minIntervalQuadraticSum=(m-1)*avgInterval2,即(span-1)2/(m-1);d)为了避免除零问题,规定当m=1时,熵为1;当m=0时,熵无意义,指定值为0。5.由此可定义子序列的代表性为上述三个指标的乘积,即representative=spanRatio*proportion*entropy;本文档来自技高网...

【技术保护点】
1.一种面向序列采样的样本代表性计算方法,其方法包括如下步骤:/n步骤一:计算跨度占比:计算采样子序列中的最大下标与最小下标之差加一后与全序列大小之比;/n步骤二:计算采样比例:计算采样子序列元素个数除以全序列元素个数;/n步骤三:计算序列熵:在一定的跨度及采样比例下,对序列的均匀程度进行数值上的度量;/n步骤四:计算代表性:将步骤一至步骤三的三个量相乘即获得面向序列采样的样本代表性数值。/n

【技术特征摘要】
1.一种面向序列采样的样本代表性计算方法,其方法包括如下步骤:
步骤一:计算跨度占比:计算采样子序列中的最大下标与最小下标之差加一后与全序列大小之比;
步骤二:计算采样比例:计算采样子序列元素个数除以全序列元素个数;
步骤三:计算序列熵:在一定的跨度及采样比例下,对序列的均匀程度进行数值上的度量;
步骤四:计算代表性:将步骤一至步骤三的三个量相乘即获得面向序列采样的样本代表性数值。


2.根据权利要求1所述的面向序列采样的样本代表性计算方法,其特征在于:所述子序列的代表性的计算方法如下:
(1)、全序列,用[0,1,2,…,n-1]表示,大小为n;
(2)、子序列,用[A0,A1,A2,...,Am-1]表示,大小为m;
(3)、设定关于子序列代表性的技术性假设;
(4)、定义指标:跨度占比(spanRatio)、采样比例(proportion)、序列熵(entropy);
(5)、定义子序列的代表性为上述三个指标的乘积,即representative=spanRatio*proportion*entropy。


3.根据权利要求2所述的面向序列采样的样本代表性计算方法,其特征在于:所述设定关于子序列...

【专利技术属性】
技术研发人员:刘方然
申请(专利权)人:新华智云科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1