一种面向序列采样的样本代表性计算方法技术

技术编号：24037005 阅读：174 留言：0更新日期：2020-05-07 02:12

本发明专利技术涉及序列采样技术领域，具体地说，涉及一种面向序列采样的样本代表性计算方法。其包括计算跨度占比、计算采样比例、计算序列熵和计算代表性。该面向序列采样的样本代表性计算方法中，综合考虑了多种要素，从采样子序列的跨度、采样比例、及分布的均匀程度体现采样序列的代表性。输出的结果是在0～1之间的实数，方便后续作业的处理及便于人对结果产生直观的感受。

A method of sample representativeness calculation for sequence sampling

全部详细技术资料下载

【技术实现步骤摘要】
一种面向序列采样的样本代表性计算方法
本专利技术涉及序列采样
，具体地说，涉及一种面向序列采样的样本代表性计算方法。
技术介绍
所谓面向序列采样的样本代表性是指，从全序列中抽取一个子序列后，该子序列代表全序列程度的指标。该代表性可被用于自然语言处理(NLP)中的一些基础任务及其效果评估。现有方案一般只考虑采样数与总数的比例，没有考虑采样子序列的跨度及在全序列中的分布情况。即现有方案的代表性＝采样比例＝采样样本数/总数。即使在相同采样比例前提下，采样样本在原序列中的跨度大小及分布均匀程度不同，也会导致样本的代表性不同。
技术实现思路
本专利技术的目的在于提供一种面向序列采样的样本代表性计算方法，以解决上述
技术介绍
中提出的问题。为实现上述目的，本专利技术提供一种面向序列采样的样本代表性计算方法，其方法包括如下步骤：步骤一：计算跨度占比：计算采样子序列中的最大下标与最小下标之差加一后与全序列大小之比；步骤二：计算采样比例：计算采样子序列元素个数除以全序列元素个数；步骤三：计算序列熵：在一定的跨度及采样比例下，对序列的均匀程度进行数值上的度量；步骤四：计算代表性：将步骤一至步骤三的三个量相乘即获得面向序列采样的样本代表性数值。作为优选，所述子序列的代表性的计算方法如下：(1)、将文本看做一个以段落为单位的全序列，用[0，1，2，…，n-1]表示，大小为n；(2)、对文本的采样结果，看做是子序列，用[A0，A1，A2，...，Am-1]表...

【技术保护点】
1.一种面向序列采样的样本代表性计算方法，其方法包括如下步骤：/n步骤一：计算跨度占比：计算采样子序列中的最大下标与最小下标之差加一后与全序列大小之比；/n步骤二：计算采样比例：计算采样子序列元素个数除以全序列元素个数；/n步骤三：计算序列熵：在一定的跨度及采样比例下，对序列的均匀程度进行数值上的度量；/n步骤四：计算代表性：将步骤一至步骤三的三个量相乘即获得面向序列采样的样本代表性数值。/n

【技术特征摘要】
1.一种面向序列采样的样本代表性计算方法，其方法包括如下步骤：
步骤一：计算跨度占比：计算采样子序列中的最大下标与最小下标之差加一后与全序列大小之比；
步骤二：计算采样比例：计算采样子序列元素个数除以全序列元素个数；
步骤三：计算序列熵：在一定的跨度及采样比例下，对序列的均匀程度进行数值上的度量；
步骤四：计算代表性：将步骤一至步骤三的三个量相乘即获得面向序列采样的样本代表性数值。

2.根据权利要求1所述的面向序列采样的样本代表性计算方法，其特征在于：所述子序列的代表性的计算方法如下：
(1)、全序列，用[0，1，2，…，n-1]表示，大小为n；
(2)、子序列，用[A0，A1，A2，...，Am-1]表示，大小为m；
(3)、设定关于子序列代表性的技术性假设；
(4)、定义指标：跨度占比(spanRatio)、采样比例(proportion)、序列熵(entropy)；
(5)、定义子序列的代表性为上述三个指标的乘积，即representative＝spanRatio*proportion*entropy。

3.根据权利要求2所述的面向序列采样的样本代表性计算方法，其特征在于：所述设定关于子序列...

【专利技术属性】
技术研发人员：刘方然，
申请(专利权)人：新华智云科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人