一种基于逻辑和统计技术的数据元识别方法技术

技术编号：11018511 阅读：59 留言：0更新日期：2015-02-11 09:11

本发明专利技术涉及数据识别技术领域，具体公开了一种基于逻辑和统计技术的数据元识别方法；包括：客户端提交待测试语料的数据处理请求，用计算机统计数据元库中数据的长度特征以及数据元结构的词法规则，根据数据的长度特征对数据进行分类，分别总结不同分类下的数据元结构的词法规则，用词法分析工具对待测试语料中的数据进行分词及词性标注处理，并用长度特征和词法规则从测试语料中抽取出候选数据元；统计候选数据元在测试语料中的分布情况，将候选数据元逐步划分到数据元和非数据元两个类别；分别用过滤子串算法、短语搭配检验并结合词汇活跃度进行过滤，再计算领域相关度，再将短语按领域相关度从大到小排序。本发明专利技术解决了数据元识别自动化的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于逻辑和统计技术的数据元识别方法
本专利技术涉及数据识别
，尤其是涉及一种基于逻辑和统计技术的数据元识别方法。
技术介绍
数据元(DataElement)：又称数据类型，通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在一定语境下，通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元，是用来对行业数据进行统一的名、型、值的规范及分类；目的是建立满足各种类型的行业领域数据库建设和数据库整合，以及数据集成、交换、共享、服务和应用对数据标准化的需要。6W原则是诺贝尔文学奖获得者英国作家吉卜林提出的思考问题、解决问题的方法，即“Where(什么地方)、When(什么时间)、Who(什么人)、Which(针对什么)、What(做了什么，及如何做)、Why(为什么)”。任何一件事情、一个问题，都无法逃脱这六个“W”，若弄通了这六个“W”，对于这件事情或这个问题，才可以彻底清楚明白。国家在2005年发布了“数据元标准化的基本原则与方法”科学数据共享工程技术标准(SDS/T2132-2004)。很多行业依据该标准启动了相关业务领域数据元标准的建设工作。分析目前已发布的数据元标准，多为逻辑层面的数据元，目前数据元标准化只能是人工依据数据结构或业务逻辑通过人工定义的方法进行分析和定义，而数据元标准化的基础就是要先得到数据元，现有技术只能人工进行识别数据元，然后根据人工识别的结果进行人工数据元分类，至今还没有自动化的识别方法。如何有效地利用计算机自动识别获取自由文本中的数据元，目前尚无有效地解决方案。
技术实现思路
本专利技术所解决的技术问题是提供一...
一种基于逻辑和统计技术的数据元识别方法

【技术保护点】
一种基于逻辑和统计技术的数据元识别方法，其特征在于，包括：步骤一：数据元语言规则的获取：所述客户端提交待测试语料的数据处理请求，依据数据元库中的数据为基础，用计算机统计数据元库中所述数据的长度特征以及数据元结构的词法规则，根据所述统计的结果总结所述数据的长度特征，根据所述数据的所述长度特征对所述数据进行分类，然后分别总结不同分类下的数据元结构的词法规则，用词法分析工具对所述待测试语料中的所述数据进行分词及词性标注处理，并用所述长度特征和所述词法规则从测试语料中抽取出候选数据元；步骤二：概念数据元识别：统计所述候选数据元在所述测试语料中的分布情况，根据所述候选数据元的所述分布情况构造样本空间，基于FCM聚类算法的框架下，将所述候选数据元逐步划分到数据元和非数据元两个类别中，完成所述数据元的自动识别；步骤三：逻辑数据元和应用数据元识别：用过滤子串算法去除抽取的所述候选数据元中结构不完整的数据元候选项，用短语搭配检验，删除所述候选项中搭配不正确的词串，并结合词汇活跃度过滤包含活跃词汇的固定搭配，再计算领域相关度，将过滤后的短语按所述领域相关度从大到小进行排序，排序结果即为逻辑数据元和应用数据元识别的最终结果。...

【技术特征摘要】
1.一种基于逻辑和统计技术的数据元识别方法，其特征在于，包括：步骤一：数据元语言规则的获取：客户端提交待测试语料的数据处理请求，依据数据元库中的数据为基础，用计算机统计数据元库中数据的长度特征以及数据元结构的词法规则，根据所述统计的结果总结所述数据的长度特征，根据所述数据的所述长度特征对所述数据进行分类，然后分别总结不同分类下的数据元结构的词法规则，用词法分析工具对所述待测试语料中的所述数据进行分词及词性标注处理，并用所述长度特征和所述词法规则从测试语料中抽取出候选数据元；步骤二：概念数据元识别：统计所述候选数据元在所述测试语料中的分布情况，根据所述候选数据元的所述分布情况构造样本空间，基于FCM聚类算法的框架下，将所述候选数据元逐步划分到数据元和非数据元两个类别中，完成所述数据元的自动识别；步骤三：逻辑数据元和应用数据元识别：用过滤子串算法去除抽取的所述候选数据元中结构不完整的数据元候选项，用短语搭配检验，删除所述候选项中搭配不正确的词串，并结合词汇活跃度过滤包含活跃词汇的固定搭配，再计算领域相关度，将过滤后的短语按所述领域相关度从大到小进行排序，排序结果即为逻辑数据元和应用数据元识别的最终结果。2.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法，其特征在于，所述步骤一中，所述数据的长度特征以及数据元结构的词法规则是指不同长度的所述数据的出现频次、不同词性所述数据的出现频次以及不同词性序列所述数据的出现频次。3.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法，其特征在于，所述步骤一中，所述分词及词性标注采用词法分析工具ICTCLAS进行分词及词性标注。4.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法，其特征在于，所述步骤一中，所述数据元库是指收录了需要进行数据识别的相关领域的数据元的库，所述数据元库中的每条数据都以三元组的形式记录，所述三元组包括数据元库中的一条数据元，所述数据元的长度，即所述数据元中包含的单词数，以及所述数据元的词性组合序列。5.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法，其特征在于，所述步骤一中，所述数据元结构的词法规则是基于所述数据元的长度特征进行分类的。6.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法，其特征在于，所述步骤一中，基于所述数据的所述长度特征对所述数据元结构的词法规则进行分类时，所述分类包括四个部分：单词型的概念数据元，即只包含1个单词的数据元；短词组型的逻辑数据元和应用数...

【专利技术属性】
技术研发人员：谭远华，朱平，杨雪，
申请(专利权)人：克拉玛依红有软件有限责任公司，
类型：发明
国别省市：新疆;65

全部详细技术资料下载我是这个专利的主人