基于语义分析的EXCEL文档中身份信息的识别方法技术

技术编号:9967495 阅读:149 留言:0更新日期:2014-04-25 07:56
本发明专利技术涉及一种基于语义分析的EXCEL文档中身份信息的识别方法,其步骤包括:1)构造最大熵模型,采用特征函数表示该最大熵模型的约束条件,并通过在训练集上进行学习得到特征函数的权值;2)创建处理的类对象,将需要处理的Excel文件名传递到类对象中;3)应用所述最大熵模型对需要处理的Excel文件进行信息抽取,将获得的具体内容在类对象中缓存,进而从类对象中输出识别结果。本发明专利技术能够节省人工分析特定信息成本,并能减少人工分析的误差,提高身份信息数据的识别和抽取的准确率。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种基于语义分析的EXCEL文档中身份信息的识别方法,其步骤包括:1)构造最大熵模型,采用特征函数表示该最大熵模型的约束条件,并通过在训练集上进行学习得到特征函数的权值;2)创建处理的类对象,将需要处理的Excel文件名传递到类对象中;3)应用所述最大熵模型对需要处理的Excel文件进行信息抽取,将获得的具体内容在类对象中缓存,进而从类对象中输出识别结果。本专利技术能够节省人工分析特定信息成本,并能减少人工分析的误差,提高身份信息数据的识别和抽取的准确率。【专利说明】基于语义分析的EXCEL文档中身份信息的识别方法
本专利技术属于信息
,涉及一种基于语义分析的EXCEL文档中身份信息数据的识别方法,可以识别和抽取EXCEL文档中的姓名、地址等身份信息。
技术介绍
在企业管理软件或是相关管理软件中,都会涉及到要将EXCEL身份信息数据文件导入到数据库中,而需要导入大量EXCEL身份信息数据文件时,单靠人工一个个点击导入按钮,十分影响工作效率,同时还有可能影响软件其他数据处理的相关性能。语义自动分析技术可以通过相关规则分析出姓名、性别、身份证号码、电话等个人信息数据。采用语义自动分析技术进行数据文件的批量导入,可以避免从前台界面导入,可以通过后台程序入库,减少WEB的HTTP请求。虽然当前有很多种批量导入或者分析入库的相关技术,但是能通过语义自动分析识别身份信息并抽取出来的技术比较少,或者相关技术不能完全通过语义分析来完成。
技术实现思路
本专利技术的目的就是提供一种基于语义分析的EXCEL文档中姓名、地址等身份信息的识别方法,能够节省人工分析特定信息成本,并能减少人工分析的误差,提高身份信息数据的识别和抽取的准确率。为实现上述目的,本专利技术采用的技术方案如下:—种基于语义分析的EXCEL文档中身份信息的识别方法,其步骤包括:I)构造最大熵模型,采用特征函数表示该最大熵模型的约束条件,并通过在训练集上进行学习得到特征函数的权值;2)创建处理的类对象,将需要处理的Excel文件名传递到类对象中;3)应用所述最大熵模型对需要处理的Excel文件进行信息抽取,将获得的具体内容在类对象中缓存,进而从类对象中输出识别结果。进一步地,步骤2)将需要处理的Excel文件名传递到所述类对象中以后,测试该Excel文件是否正常,如果正常则进行后续处理,如果异常则跳出分析,清理缓冲信息后退出程序。进一步地,所述最大熵模型使用的训练方式为IIS (Improved IterativeScaling)方法。进一步地,在识别姓名信息时,将姓名本身的信息和上下文中的信息转化为特征,以获得特征函数;对于姓氏用字作为非姓名出现的情况,采用类似二元语法的方式表达特征,以获得特征函数。所述姓名本身的信息是指姓氏用字、名用字和姓名内部成词信息,所述姓名上下文信息是指姓名前后的邻接词(字)。进一步地,建立名人词典以提高姓名识别的准确率。进一步地,在识别地址信息时,分别从如下方面选取特征:地址尾字、地址用字及其各字间关联性、地址前词、地址后词、地址前词与地址首字的关联性、地址后词与地址尾字的关联性。进一步地,选取地址识别的特征时,如果一个地址前词频繁地与正确地址同时出现(类比于TF高),同时,它又在全文中出现的次数较少,即不在正确地址之前而在普通词之前出现的次数较少(类比于IDF低),则选取这个词为特征。进一步地,在选取地址尾字和地址用字及其各字间前后关联性这两类与篇章上下文无关的特征的时候,不仅应用真实语料作为训练集,同时还使用中国地址词库的地址同时作为训练集。进一步地,在对地址做识别时,选择地址尾字驱动找到潜在地址。与现有的相关技术相比,本专利技术提出的技术方案中建立了智能语义分析信息,能通过相关规则严格分析出姓名、地址等相关信息数据,并能有效的减少误差,提高数据可靠性和价值。 【专利附图】【附图说明】图1是实施例中EXCEL文档身份信息数据并结构化的处理流程图。【具体实施方式】下面通过具体实施例和附图,对本专利技术做进一步说明。Excel表中的身份信息,包括姓名、性别、年龄、身份证号码、电话等。对于Excel表中关键信息的抽取,本实施例重点说明对于中文姓名以及地址信息的识别和处理,这里采用计算模型和规则结合的方式进行处理。下面具体说明:1、计算模型一最大熵模型计算模型的原则是:建模时尽量拟合已知的部分,而对于未知的部分使模型的熵最大。熵是用来描述随机变量不确定性的物理量,熵越大,说明随机变量的不确定性越大。因此在对未知事件建立模型时,应使模型的熵最大。而实际问题中,往往会提供大量的已知的约束条件,对于这些约束条件要尽量地拟合。通常用特征函数来表示约束条件,特征函数一般情况下是一个二值函数f(a,b) — {0,l},b是某一个对象,a是对象所属的类别。对于特征函数,它相对于经验概率分布的期望为:ElJi = 'y' J){a J})jXa,b) a'b特征函数相对于模型的期望为:EP.fi = Σ Μ?λα I b)f, (a^h) a'b我们限制在训练集中,这两个期望值相同,即:E1Ji = E1-Ji上式称为约束。显然,可以定义很多这样的特征函数,它们之间可以是互不相关的,甚至描述问题的角度也可以是完全不同的,刻画问题的粒度也可大可小。总之,特征函数很灵活地将许多分散、零碎的知识组合起来完成同一个任务。给定k个特征函数f\,f2,…,fk,我们可以得到所求概率分布的k组约束:【权利要求】1.一种基于语义分析的EXCEL文档中身份信息的识别方法,其步骤包括: 1)构造最大熵模型,采用特征函数表示该最大熵模型的约束条件,并通过在训练集上进行学习得到特征函数的权值; 2)创建处理的类对象,将需要处理的Excel文件名传递到类对象中; 3)应用所述最大熵模型对需要处理的Excel文件进行信息抽取,将获得的具体内容在类对象中缓存,进而从类对象中输出识别结果。2.如权利要求1所述的方法,其特征在于:步骤2)将需要处理的Excel文件名传递到所述类对象中以后,测试该Excel文件是否正常,如果正常则进行后续处理,如果异常则跳出分析,清理缓冲信息后退出程序。3.如权利要求1所述的方法,其特征在于:所述最大熵模型使用的训练方式为IIS方法。4.如权利要求1所述的方法,其特征在于:在识别姓名信息时,将姓名本身的信息和上下文中的信息转化为特征,以获得特征函数;对于姓氏用字作为非姓名出现的情况,采用类似二元语法的方式表达特征,以获得特征函数。5.如权利要求4所述的方法,其特征在于:所述姓名本身的信息是指姓氏用字、名用字和姓名内部成词信息,所述姓名上下文信息是指姓名前后的邻接词或邻接字。6.如权利要求4所述的方法,其特征在于:建立名人词典以提高姓名识别的准确率。7.如权利要求1所述的方法,其特征在于:在识别地址信息时,分别从如下方面选取特征:地址尾字、地址用字及其各字间关联性、地址前词、地址后词、地址前词与地址首字的关联性、地址后词与地址尾字的关联性。8.如权利要求7所述的方法,其特征在于:选取地址识别的特征时,如果一个地址前词频繁地与正确地址同时出现,同时它又在全文中出现的次数较少,即不在正确地址之前而在普通词之前出现的次本文档来自技高网...

【技术保护点】
一种基于语义分析的EXCEL文档中身份信息的识别方法,其步骤包括:1)构造最大熵模型,采用特征函数表示该最大熵模型的约束条件,并通过在训练集上进行学习得到特征函数的权值;2)创建处理的类对象,将需要处理的Excel文件名传递到类对象中;3)应用所述最大熵模型对需要处理的Excel文件进行信息抽取,将获得的具体内容在类对象中缓存,进而从类对象中输出识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:李核
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1