基于语义分析的EXCEL文档中身份信息的识别方法技术

技术编号：9967495 阅读：149 留言：0更新日期：2014-04-25 07:56

本发明专利技术涉及一种基于语义分析的EXCEL文档中身份信息的识别方法，其步骤包括：1）构造最大熵模型，采用特征函数表示该最大熵模型的约束条件，并通过在训练集上进行学习得到特征函数的权值；2）创建处理的类对象，将需要处理的Excel文件名传递到类对象中；3）应用所述最大熵模型对需要处理的Excel文件进行信息抽取，将获得的具体内容在类对象中缓存，进而从类对象中输出识别结果。本发明专利技术能够节省人工分析特定信息成本，并能减少人工分析的误差，提高身份信息数据的识别和抽取的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种基于语义分析的EXCEL文档中身份信息的识别方法，其步骤包括：1）构造最大熵模型，采用特征函数表示该最大熵模型的约束条件，并通过在训练集上进行学习得到特征函数的权值；2）创建处理的类对象，将需要处理的Excel文件名传递到类对象中；3）应用所述最大熵模型对需要处理的Excel文件进行信息抽取，将获得的具体内容在类对象中缓存，进而从类对象中输出识别结果。本专利技术能够节省人工分析特定信息成本，并能减少人工分析的误差，提高身份信息数据的识别和抽取的准确率。【专利说明】基于语义分析的EXCEL文档中身份信息的识别方法
本专利技术属于信息
，涉及一种基于语义分析的EXCEL文档中身份信息数据的识别方法，可以识别和抽取EXCEL文档中的姓名、地址等身份信息。
技术介绍
在企业管理软件或是相关管理软件中，都会涉及到要将EXCEL身份信息数据文件导入到数据库中，而需要导入大量EXCEL身份信息数据文件时，单靠人工一个个点击导入按钮，十分影响工作效率，同时还有可能影响软件其他数据处理的相关性能。语义自动分析技术可以通过相关规则分析出姓名、性别、身份证号码、电话等个人信息数据。采用语义自动分析技术进行数据文件的批量导入，可以避免从前台界面导入，可以通过后台程序入库，减少WEB的HTTP请求。虽然当前有很多种批量导入或者分析入库的相关技术，但是能通过语义自动分析识别身份信息并抽取出来的技术比较少，或者相关技术不能完全通过语义分析来完成。
技术实现思路
本专利技术的目的就是提供一种基于语义分析的EXCEL文档中姓名、地址等身份信息...

【技术保护点】
一种基于语义分析的EXCEL文档中身份信息的识别方法，其步骤包括：1）构造最大熵模型，采用特征函数表示该最大熵模型的约束条件，并通过在训练集上进行学习得到特征函数的权值；2）创建处理的类对象，将需要处理的Excel文件名传递到类对象中；3）应用所述最大熵模型对需要处理的Excel文件进行信息抽取，将获得的具体内容在类对象中缓存，进而从类对象中输出识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：李核，
申请(专利权)人：北京锐安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人