一种基于数据支持的应用系统构建方法及装置制造方法及图纸

技术编号：14444611 阅读：119 留言：0更新日期：2017-01-15 09:25

本申请涉及计算机技术领域，尤其涉及一种基于数据支持的应用系统构建方法及装置，用以解决当用于构建应用系统的数据的规模较大时，会增加系统资源的占用，降低应用系统的构建效率的问题。本申请实施例提供的应用系统构建方法包括：根据用于构建应用系统的文本数据中各样本点的属性信息，将文本数据划分为多个样本点集合；针对每一个样本点集合，从该样本点集合中选取最少数目的样本点，使该最少数目的样本点的词序列覆盖率高于设定阈值；采用选取的每一个样本点集合中的样本点构建应用系统。采用本申请实施例，可以从大规模海量数据中精选出对应用系统具有价值的小部分数据来构建应用系统，从而减少占用的系统资源，提高应用系统构建效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机
，尤其涉及一种基于数据支持的应用系统构建方法及装置。
技术介绍
在很多应用系统的构建过程中时，往往需要使用大量数据来进行支持，比如针对机器翻译这种应用系统，需要采用数据驱动的思想，基于大量不同语言类型的句子进行机器学习，进而训练、调优翻译系统。数据的规模直接影响到这些数据支持类应用系统的构建和运行效果。一般情况下，数据规模越大，获取到的信息也就越多，机器学习效果也就更好，但是，数据规模的增大会对应用系统构建的可行性提出挑战：不仅会延长应用系统的构建周期，还会增加占用的系统资源；以机器翻译这种应用系统为例，当数据规模在百万量级时，应用系统的构建周期只有几个小时，占用的系统资源在百兆量级；但是，当数据规模在千万量级时，应用系统的构建周期会达到几天，占用的系统资源将在万兆量级。另外，随着数据规模的增大，引入噪音数据的概率也会增加；噪音数据会严重影响应用系统的实施效果。因此，当用于构建应用系统的数据的规模较大时，会增加系统资源的占用，降低应用系统的构建效率，影响实施效果。
技术实现思路
本申请实施例提供一种基于数据支持的应用系统构建方法及装置，用以解...

【技术保护点】
一种基于数据支持的应用系统构建方法，其特征在于，该方法包括：根据用于构建应用系统的文本数据中各样本点的属性信息，将文本数据划分为多个样本点集合；其中，每个样本点包含至少一个词序列；针对每一个样本点集合，从该样本点集合中选取最少数目的样本点，使所述最少数目的样本点的词序列覆盖率高于设定阈值；其中，所述词序列覆盖率为选取的样本点所包含的不同词序列的数目与该样本点集合需要覆盖的不同词序列的数目的比例；采用选取的每一个样本点集合中的样本点构建应用系统。

【技术特征摘要】
1.一种基于数据支持的应用系统构建方法，其特征在于，该方法包括：根据用于构建应用系统的文本数据中各样本点的属性信息，将文本数据划分为多个样本点集合；其中，每个样本点包含至少一个词序列；针对每一个样本点集合，从该样本点集合中选取最少数目的样本点，使所述最少数目的样本点的词序列覆盖率高于设定阈值；其中，所述词序列覆盖率为选取的样本点所包含的不同词序列的数目与该样本点集合需要覆盖的不同词序列的数目的比例；采用选取的每一个样本点集合中的样本点构建应用系统。2.如权利要求1所述的方法，其特征在于，所述属性信息包括样本点的聚类特征；根据用于构建应用系统的文本数据中各样本点的属性信息，将文本数据划分为多个样本点集合，包括：根据用于构建应用系统的文本数据中各样本点的聚类特征，将具有相同聚类特征的样本点划分为同一个样本点集合。3.如权利要求1所述的方法，其特征在于，所述属性信息包括样本点的前缀词序列和聚类特征；根据用于构建应用系统的文本数据中各样本点的属性信息，将文本数据划分为多个样本点集合，包括：根据用于构建应用系统的文本数据中各样本点的前缀词序列，将文本数据划分为多个第一样本点集合，使每个第一样本点集合内的样本点数目小于第一设定阈值、且大于第二设定阈值；针对划分后的每个第一样本点集合，根据该第一样本点集合内的各样本点的聚类特征，将该第一样本点集合划分为多个第二样本点集合，将划分后的第二样本点集合作为从中选取样本点的样本点集合；其中，每个第二样本点集合中的各样本点具有相同的聚类特征。4.如权利要求3所述的方法，其特征在于，根据用于构建应用系统的文本数据中各样本点的前缀词序列，将文本数据划分为多个第一样本点集合，包括：按照前缀词序列的词数量由小到大的顺序，对所述文本数据中的各样本点逐次划分，直到划分后的每个第一样本点集合内的样本点数目小于第一设定阈值；若在第一次划分后，存在至少一个第一样本点集合内的样本点数目小于第二设定阈值，则将所述至少一个第一样本点集合进行合并，或将所述至少一个第一样本点集合与其它第一样本点集合进行合并，以使合并后的第一样本点集合内的样本点数目大于所述第二设定阈值、且小于所述第一设定阈值。5.如权利要求1所述的方法，其特征在于，针对每一个样本点集合，从该样本点集合中选取最少数目的样本点，包括：从该样本点集合中未被选取的样本点中，选取包含该样本点集合需要覆盖的剩余词序列数目最多的样本点，并将选取的样本点所包含的词序列从该样本点集合需要覆盖的剩余词序列中删除；重复上述步骤，直到选取的样本点所包含的不同词序列的数目与该样本点集合需要覆盖的不同词序列的数目的比例超过设定阈值。6.如权利要求1～5任一所述的方法，其特征在于，针对每一个样本点集合，根据以下步骤确定该样本点集合需要覆盖的词序列：从所述应用系统需要覆盖的词序列中除去已在其它样本点集合中选取的样本点所包含的词序列，得到剩余需要覆盖的词序列；将该样本点集合包含的各个词序列与得到的所述剩余需要覆盖的词序列的交集，确定为该样本点集合需要覆盖的词序列。7.如权利要求6所述的方法，其特征在于，针对每一个样本点集合，从该样本点集合中选取所述最少数目的样本点，还包括：若该样本点集合包含的各个词序列与得到的所述剩余需要覆盖的词序列
\t的交集为空集，则从该样本点集合中随机选取一个样本点作为从该样本点集合选取的所述最少数目的样本点。8.如权利要求6所述的方法，其特征在于，根据以下步骤确定所述应用系统需要覆盖的词序列：从用于构建应用系统的文本数据中提取各个不同的词序列；从提取的词序列中过滤掉满足至少一个预设的过滤条件的词序列，将过滤后的词序列确定为所述应用系统需要覆盖的词序列。9.如权利要求8所述的方法，其特征在于，所述预设的过滤条件包括以下条件中的一种或多种：在所述文本数据中出现的频次低于设定阈值；包含的...

【专利技术属性】
技术研发人员：张浩，陆军，蒋宏飞，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人