一种数据识别方法、装置、设备和可读介质制造方法及图纸

技术编号:25837333 阅读:52 留言:0更新日期:2020-10-02 14:17
本说明书实施例公开了一种数据识别方法、装置、设备和计算机可读介质。方案包括:获取第一数据集,所述第一数据集中的数据样本为待识别字段的至少部分数据;获取基于第二数据集中的数据样本统计得到的状态转移矩阵集合,所述第二数据集中数据样本的数据类型是已知的;基于所述状态转移矩阵集合,确定所述第一数据集中各数据样本对应的样本状态转移概率;确定所述第一数据集中所述样本状态转移概率大于第一阈值的数据样本的数量相对所述第一数据集中数据样本的总数量的比例;若所述比例大于第二阈值,则将所述待识别字段对应的数据确定为与所述第二数据集中的数据样本具有相同的数据类型。

【技术实现步骤摘要】
一种数据识别方法、装置、设备和可读介质
本申请涉及计算机
,尤其涉及一种数据识别方法、装置、设备和计算机可读介质。
技术介绍
现有技术中,当想要识别出目标类型的数据时,通常可以采用与该目标类型对应的内置规则来进行识别,内置规则可以是特定的正则表达式或预先训练的多分类模型。然而,由于这些预先准备或训练的内置规则无法覆盖全部的数据类型,而当用户想要识别的目标数据类型并不具有对应的预设内置规则时,就无法实现对目标数据的识别。由此,需要提供一种能够适应用户需求的、适用范围广的数据识别方法。
技术实现思路
本说明书实施例提供一种数据识别的方法、装置、设备和计算机可读介质,以提供一种能够适应用户需求的、适用范围广的数据识别方案。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供的一种数据识别方法,包括:获取第一数据集,所述第一数据集中的数据样本为待识别字段的至少部分数据;获取基于第二数据集中的数据样本统计得到的状态转移矩阵集合;所述第二数据集中数据样本的数据类型是已知的;所述状态转移本文档来自技高网...

【技术保护点】
1.一种数据识别方法,包括:/n获取第一数据集,所述第一数据集中的数据样本为待识别字段的至少部分数据;/n获取基于第二数据集中的数据样本统计得到的状态转移矩阵集合;所述第二数据集中数据样本的数据类型是已知的;所述状态转移矩阵集合中包含多个状态转移矩阵,其中,一个状态转移矩阵用于表示,所述第二数据集中的数据样本中的一个字符位置处的第一字符取值,相对所述一个字符位置的下一字符位置处的第二字符取值的各种状态转移情况的概率;/n基于所述状态转移矩阵集合,确定所述第一数据集中各数据样本对应的样本状态转移概率;所述样本状态转移概率表示对应的所述数据样本的数据类型与所述第二数据集中数据样本的数据类型的相似程...

【技术特征摘要】
1.一种数据识别方法,包括:
获取第一数据集,所述第一数据集中的数据样本为待识别字段的至少部分数据;
获取基于第二数据集中的数据样本统计得到的状态转移矩阵集合;所述第二数据集中数据样本的数据类型是已知的;所述状态转移矩阵集合中包含多个状态转移矩阵,其中,一个状态转移矩阵用于表示,所述第二数据集中的数据样本中的一个字符位置处的第一字符取值,相对所述一个字符位置的下一字符位置处的第二字符取值的各种状态转移情况的概率;
基于所述状态转移矩阵集合,确定所述第一数据集中各数据样本对应的样本状态转移概率;所述样本状态转移概率表示对应的所述数据样本的数据类型与所述第二数据集中数据样本的数据类型的相似程度;
确定所述第一数据集中所述样本状态转移概率大于第一阈值的数据样本的数量相对所述第一数据集中数据样本的总数量的比例;
若所述比例大于第二阈值,则将所述待识别字段对应的数据确定为与所述第二数据集中的数据样本具有相同的数据类型。


2.如权利要求1所述的方法,所述获取基于第二数据集中的数据样本统计得到的状态转移矩阵集合之前,还包括:
基于所述第二数据集中的数据样本,确定各字符位置对应的状态转移矩阵,得到状态转移矩阵集合。


3.如权利要求2所述的方法,所述基于所述第二数据集中的数据样本,确定各字符位置对应的状态转移矩阵之前,还包括:
获取给定数据集;所述给定数据集中数据样本的数据类型是已知的;
从所述给定数据集中确定至少一个第二数据集;同一第二数据集中的数据样本具有相同的长度。


4.如权利要求3所述的方法,所述获取基于第二数据集中的数据样本统计得到的状态转移矩阵集合,具体包括:
根据所述第一数据集中数据样本的长度,获取相应的状态转移矩阵集合;其中,所述相应的状态转移矩阵集合对应的第二数据集中的数据样本的长度与所述第一数据集中数据样本的长度相同。


5.如权利要求1所述的方法,所述基于所述状态转移矩阵集合,确定所述第一数据集中各数据样本对应的样本状态转移概率之前,还包括:
确定所述第一数据集中数据样本的样本长度与所述第二数据集中数据样本的样本长度相同。


6.如权利要求1所述的方法,所述基于所述状态转移矩阵集合,确定所述第一数据集中各数据样本对应的样本状态转移概率,具体包括:
对于所述第一数据集中的数据样本,基于所述状态转移矩阵集合,获取所述数据样本中各字符位置对应的字符状态转移概率;
基于所述数据样本中各字符位置对应的字符状态转移概率,计算所述数据样本对应的样本状态转移概率。


7.如权利要求6所述的方法,所述基于所述状态转移矩阵集合,获取所述数据样本中各字符位置对应的字符状态转移概率,具体包括:
确定所述数据样本的第一字符位置处的第一字符取值;
确定所述第一字符位置的下一字符位置处的第二字符取值;
从所述状态转移矩阵集合中,确定与所述第一字符位置对应的第一状态转移矩阵;
根据所述第一字符取值与所述第二字符取值,从所述第一状态转移矩阵中获取与所述第一字符位置对应的第一状态转移概率。


8.如权利要求6所述的方法,所述基于所述数据样本中各字符位置对应的字符状态转移概率,计算所述数据样本对应的样本状态转移概率,具体包括:
计算所述数据样本中各字符位置对应的字符状态转移概率的乘积,作为所述数据样本对应的样本状态转移概率。


9.如权利要求1所述的方法,所述确定所述第一数据集中所述样本状态转移概率大于第一阈值的数据样本的数量相对所述第一数据集中数据样本的总数量的比例之前,还包括:
基于所述状态转移矩阵集合,确定所述第二数据集中各数据样本对应的状态出现概率;
将所述第二数据集中各数据样本对应的状态出现概率的预设分位值,作为第一阈值。


10.如权利要求1所述的方法,所述第二数据集中数据样本为隐私数据,所述将所述待识别字段对应的数据确定为与所述第二数据集中的数据样本具有相同的数据类型,具体包括:将所述待识别字段对应的数据确定为隐私数据。


11.如权利要求10所述的方法,所述将所述待识别字段对应的数据确定为隐私数据之后,还包括:
对所述待识别字段对应的数据进行脱敏处理。


12.一种数据识别装置,包括:
第一数据集获取模块,用于获取第一数据集,所述第一数据集中的数据样本为待识别字段的至少部分数据;
状态转移矩阵集合获取模块,用于获取基于第二数据集中的数据样本统计得到的状态转移矩阵集合;所述第二数据集中数据样本的数据类型是已知的;所述状态转移矩阵集合中包含多个状态转移矩阵,其中,一个状态转移矩阵用于表示,所述第二数据集中的数据样本中的一个字符位置处的第一字符取值,相对所述一个字符...

【专利技术属性】
技术研发人员:刘佳伟王德胜章鹏张谦贾茜刘洋
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1