一种特征数据抽取的方法,包括:确定来源信息;确定特征数据的定义特征;对特征数据进行提取;对抽取的特征数据的实际特征进行有效性验证;判断所述实际特征与定义特征是否有误差;如果存在所述误差,则进行特征数据清洗;对产生误差的步骤进行定位,优化所述定义特征;设置确定后续流程。通过本发明专利技术可以提高对敏感度要求高的特征数据的抽取准确性。度要求高的特征数据的抽取准确性。度要求高的特征数据的抽取准确性。
【技术实现步骤摘要】
一种特征数据抽取方法及装置
[0001]本专利技术属于数据处理和识别领域,尤其涉及一种特征数据抽取方法和装置。
技术介绍
[0002]企业信息集中管理时,企业名称、组织代码等信息要求准确,而在大量录入时存在格式不统一,人工录入容易出错等问题。虽然现在有很多文字识别的方案,而对于一些比较复杂的数据,在采用了自动采集的方式进行处理后,存在一些误差,因此需要一些方法,在每一次产生误差时的纠错、纠错原因进行整理和分类,以用于复杂场景中信息的再次处理,并避免相同的误差再次发生。
[0003]现有许多方案,可以识别复制的文字、图片,在图片中识别文字,并其中进行特征数据的识别,如申请号为201710318767.2的专利申请。但对于税务、金融等行业管理的信息,识别的信息敏感,数字编码长,容易出错,同时人工校验存在难度,因此需要一套机制来提高识别的准确性。
技术实现思路
[0004]本专利技术目的在于提供一种特征数据抽取的方法和装置,通过对来源信息中的特征数据的定义特征进行定义、确认、不断优化,以提高敏感度要求高的特征数据的抽取准确性。
[0005]为解决上述技术问题,本专利技术提供了一种特征数据抽取的方法,其方法步骤包括:
[0006]确定来源信息,所述来源信息,是指需要从中抽取特征数据的大段文字集合;
[0007]确定特征数据的定义特征,其中定义特征是在对来源信息进行抽取前,对希望抽取的特征数据的内容的特征概括;
[0008]根据特征数据的定义特征,从来源信息中对特征数据进行提取;提取出来的特征数据的特征为实际特征;
[0009]对抽取的特征数据的实际特征进行有效性验证,判断实际特征与定义特征是否有误差;
[0010]如果存在误差,则进行特征数据清洗,对提取出来的特征数据的实际特征与定义特征进行比对,对产生误差的步骤进行定位,优化定义特征;
[0011]优化所述定义特征后,根据设置确定后续流程,包括输出特征数据、重新确定定义特征、重新提取特征数据。
[0012]另一方面,本专利技术还提供了一种特征数据抽取的装置,包括,来源识别单元,用于生成需要进行特征数据抽取的文字信息,其中包括图片识别转换为文字单元;
[0013]定义特征单元,用于分析特征数据的定义特征,其中包括智能定义特征模块,用于根据已存在的特征数据,概括长度、包含内容等定义特征;
[0014]信息提取单元,用于结合定义特征单元,对来源信息进行特征数据的抽取;
[0015]信息验证单元,用于通过输入特征数据,通过处理,输出特征数据的准确度;
[0016]信息清洗单元,用于对存在误差的特征数据进行处理,包括删除、入库、分析。
[0017]进一步的,特征数据抽取的装置,还包括人工接入单元和流程定义单元,人工接入单元,包括人工定义特征模块、人工修正特征数据模块、人工修正定义特征模块,其中人工定义特征模块应用于定义特征单元;
[0018]流程定义单元,用于确定定义特征优化在不同场景下的不同后续流程。
[0019]同时,人工接入单元还可以用于确定定义特征的用途,如,某一个定义特征是用于在来源信息进行特征数据的抽取或者是用于特征数据的校验。
[0020]本专利技术提供的特征数据抽到的方法和装置,特征数据进行定义、抽取、再修正,不断地优化定义特征和整个流程,对场景和误差的数据进行了积累和分析,提高了敏感的特征数据的抽取准确率,提高工作效率。
附图说明
[0021]图1为本专利技术的实施例提供的特征数据抽取方法的流程示意图;
[0022]图2为本专利技术的实施例提供的特征数据抽取方法中定义特定确定过程流程图;
[0023]图3为本专利技术的实施例提供的特征数据抽取方法中另一种定义特征过程流程图;
[0024]图4为本专利技术的实施例提供的特征数据定义特征优化的方法流程图;
[0025]图5是本专利技术的实施例提供的特征数据抽取装置结构图。
具体实施方式
[0026]为了更好地了解本专利技术的目的、结构及功能,下面结合附图,对本专利技术一种特征数据抽取方法和装置做进一步详细的描述。
[0027]本专利技术提供了一种从来源信息中抽取特征数据的方法,如图1所示,其流程包括以下步骤:
[0028]S100:确定来源信息,来源信息指需要从中抽取特征数据的大段文字集合,例如需要抽取公司名称的一段公司简介。但在实际应用场景中,来源可能是一段文字,也可能是一张图片。因此,确定来源信息,包括来源信息的有效性转换,如,将图片识别为文字、包括不规则字符、空格等的信息去噪后,形成格式不限,但内容有效的来源信息。
[0029]在本实施例中举例如下:
[0030]来源信息1是从某系统中复制的整段文字:
[0031]纳税人识别号:99887766554433221X,纳税人名称:健康发展有限公司,地址:贵阳市南明区健康园X区99栋1号20层7号,电话085166778899,开户银行:中国银行贵阳健康园支行,账号:556677889
[0032]来源信息2:从某工作人员的提供的财务信息文件中扫描图片后识别的整段文字:
[0033]开票信息:
[0034]纳税人名称:健康发展有限公司
[0035]纳税人识别号:99887766554433221X
[0036]地址:贵阳市南明区健康园X区99栋1号20层7号
[0037]电话0851
‑
66778899
[0038]开户银行:中国银行贵阳健康园支行
[0039]账号:556677889
[0040]以上两段来源信息包含的可以提取的特征数据包括:税人识别号、纳税人名称、地址、电话、开户银行、账号。
[0041]S110:确定特征数据的定义特征,定义特征是在对所述来源信息进行抽取前,对希望抽取的特征数据的内容的特征概括;
[0042]定义特征的内容包括:
[0043]特征数据的关键字符在所述来源信息的相对位置,如特征数据中起标识作用的字符或字符串在从来源信息首字符起的相对位置;从来源信息的某个特征符号起的相对位置;
[0044]关键字符的长度,如;特征数据为电话号码,关键字符为地区位,其长度可能是3位或者4位;
[0045]关键字符在特征数据的所在位置,如在特征数据的串首、串中、串尾,相对位置;
[0046]特征数据的长度,如电话号码的长度为11位;
[0047]是否排除特别关键字符,如纳税人识别号中排除I、O、Z、S、V。
[0048]判断特征数据的定义特征前,首先对来源信息的特征进行分析和归纳,来源信息中其中包括多个不同或者相同的分隔标记,例如全角或半角的标点符号:冒号(:)、逗号(,)、空格()、句号(。)、换行符等。特征数据也往往不限于一组,可能是组名称与内容对应的特征数据。如在本实施例中,来源信息中包括关键信息名称:纳税人识别号、纳税人名称;特本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种特征数据抽取的方法,其特征在于,包括:确定来源信息,所述来源信息是指需要从中抽取特征数据的大段文字集合;确定特征数据的定义特征,所述定义特征是在对所述来源信息进行抽取前,对希望抽取的特征数据的内容的特征概括;根据所述特征数据的定义特征,从所述来源信息中对特征数据进行提取;提取出来的特征数据的特征为实际特征;对抽取的特征数据的实际特征进行有效性验证,判断所述实际特征与定义特征是否有误差;如果存在所述误差,则进行特征数据清洗,对提取出来的特征数据的实际特征与定义特征进行比对,对产生所述误差的步骤进行定位,优化所述定义特征;优化所述定义特征后,根据设置确定后续流程,所述后续流程包括输出特征数据、重新确定定义特征、重新提取特征数据。2.根据权利要求1所述的特征数据抽取的方法,其特征在于,一个所述来源信息中包括一组或多组名称与内容对应的特征数据,通过多个不同或者相同的分隔标记进行分隔;所述分隔标记包括区分全角和半角的标点符号。3.根据权利要求1所述的特征数据抽取的方法,其特征在于,所述定义特征的确定方式包括:特征数据的关键字符在所述来源信息的相对位置;所述关键字符的长度,所述关键字符在特征数据的所在位置;所述特征数据的长度;是否排除特别关键字符。4.根据权利要求1所述的特征数据抽取的方法,其特征在于,所述特征数据验证包括:定义特征验证、人工验证、第三方平台接口调用验证和内部信息库验证。5.根据权利要求4所述的特征数据抽取的方法,其特征在于,所述特征数据清洗包括:定义特征和实际特征之间的误差建立误差库,保存所述误...
【专利技术属性】
技术研发人员:王飞,蔡伊林,
申请(专利权)人:贵州爱信诺航天信息有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。