一种基于逻辑和统计技术的数据元识别方法技术

技术编号:11018511 阅读:59 留言:0更新日期:2015-02-11 09:11
本发明专利技术涉及数据识别技术领域,具体公开了一种基于逻辑和统计技术的数据元识别方法;包括:客户端提交待测试语料的数据处理请求,用计算机统计数据元库中数据的长度特征以及数据元结构的词法规则,根据数据的长度特征对数据进行分类,分别总结不同分类下的数据元结构的词法规则,用词法分析工具对待测试语料中的数据进行分词及词性标注处理,并用长度特征和词法规则从测试语料中抽取出候选数据元;统计候选数据元在测试语料中的分布情况,将候选数据元逐步划分到数据元和非数据元两个类别;分别用过滤子串算法、短语搭配检验并结合词汇活跃度进行过滤,再计算领域相关度,再将短语按领域相关度从大到小排序。本发明专利技术解决了数据元识别自动化的问题。

【技术实现步骤摘要】
一种基于逻辑和统计技术的数据元识别方法
本专利技术涉及数据识别
,尤其是涉及一种基于逻辑和统计技术的数据元识别方法。
技术介绍
数据元(DataElement):又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在一定语境下,通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元,是用来对行业数据进行统一的名、型、值的规范及分类;目的是建立满足各种类型的行业领域数据库建设和数据库整合,以及数据集成、交换、共享、服务和应用对数据标准化的需要。6W原则是诺贝尔文学奖获得者英国作家吉卜林提出的思考问题、解决问题的方法,即“Where(什么地方)、When(什么时间)、Who(什么人)、Which(针对什么)、What(做了什么,及如何做)、Why(为什么)”。任何一件事情、一个问题,都无法逃脱这六个“W”,若弄通了这六个“W”,对于这件事情或这个问题,才可以彻底清楚明白。国家在2005年发布了“数据元标准化的基本原则与方法”科学数据共享工程技术标准(SDS/T2132-2004)。很多行业依据该标准启动了相关业务领域数据元标准的建设工作。分析目前已发布的数据元标准,多为逻辑层面的数据元,目前数据元标准化只能是人工依据数据结构或业务逻辑通过人工定义的方法进行分析和定义,而数据元标准化的基础就是要先得到数据元,现有技术只能人工进行识别数据元,然后根据人工识别的结果进行人工数据元分类,至今还没有自动化的识别方法。如何有效地利用计算机自动识别获取自由文本中的数据元,目前尚无有效地解决方案。
技术实现思路
本专利技术所解决的技术问题是提供一种基于逻辑和统计技术的数据元识别方法,本方法解决了数据元识别自动化的问题,为数据元后期的分类打下了良好的基础。本专利技术在自由文本数据元提取和数据元提取后的分类处理过程中,采用6W原则对提取的数据元进行时间类、位置类、组织类、对象类、活动类和特征类定义,增强了对自由文本中的数据元抽取、定义和命名的可靠性与适用性。本专利技术为行业领域建立了适用通用和专用的数据元目录,即数据元字典,为行业数据元标准体系建设提供了依据。为了解决上述技术问题,本专利技术提供了一种基于逻辑和统计技术的数据元识别方法;包括:步骤一:数据元语言规则的获取:客户端提交待测试语料的数据处理请求,依据数据元库中的数据为基础,用计算机统计数据元库中所述数据的长度特征以及数据元结构的词法规则,根据所述统计的结果总结数据的长度特征,根据所述数据的所述长度特征对所述数据进行分类,然后分别总结不同分类下的数据元结构的词法规则,用词法分析工具对所述待测试语料中的所述数据进行分词及词性标注处理,并用所述长度特征和所述词法规则从测试语料中抽取出候选数据元;步骤二:概念数据元识别:统计所述候选数据元在所述测试语料中的分布情况,根据所述候选数据元的所述分布情况构造样本空间,基于FCM聚类算法的框架下,将所述候选数据元逐步划分到数据元和非数据元两个类别中,完成所述数据元的自动识别;步骤三:逻辑数据元和应用数据元识别:用过滤子串算法去除抽取的所述候选数据元中结构不完整的数据元候选项,用短语搭配检验,删除所述候选项中搭配不正确的词串,并结合词汇活跃度过滤包含活跃词汇的固定搭配,再计算领域相关度,将过滤后的短语按所述领域相关度从大到小进行排序,排序结果即为逻辑数据元和应用数据元识别的最终结果。优选的,所述步骤一中,所述数据的长度特征以及数据元结构的词法规则是指不同长度的所述数据的出现频次、不同词性所述数据的出现频次以及不同词性序列所述数据的出现频次。更加优选的,所述步骤一中,所述分词及词性标注采用词法分析工具ICTCLAS进行分词及词性标注。更加优选的,所述步骤一中,所述数据元库是指收录了需要进行数据识别的相关领域的数据元的库,所述数据元库中的每条数据都以三元组的形式记录,所述三元组包括数据元库中的一条数据元,所述数据元的长度,即所述数据元中包含的单词数,以及所述数据元的词性组合序列。更加优选的,所述步骤一中,所述数据元结构的词法规则包括词性序列特征和构词特征。更加优选的,所述步骤一中,所述数据元结构的词法规则是基于所述数据元的长度特征进行分类的。更加优选的,所述步骤一中,基于所述数据的所述长度特征对所述数据元结构的词法规则进行分类时,所述分类包括四个部分:单词型的概念数据元,即只包含1个单词的数据元;短词组型的逻辑数据元和应用数据元,即包含2或3个单词的数据元;中词组型逻辑和应用数据元,即包含4~6个单词的数据元;长词组型的逻辑数据元和应用数据元,即包含大于6个单词的数据元。更加优选的,所述步骤一中,抽取出所述候选数据元时,所述候选数据元包括候选概念数据元、候选逻辑数据元和候选应用数据元。更加优选的,所述步骤一中,抽取出所述候选数据元时,所述候选概念数据元抽取的候选项包括:n表示名词、v表示动词、a表示形容词、b表示区别词、l表示习用语、d表示副词、m表示数词以及q表示量词。更加优选的,所述步骤一中,抽取出所述候选数据元时,所述候选逻辑数据元和所述候选应用数据元的抽取规则包括:二词三词的词法模式以及四词五词六词的抽取规则,二词词法模式包括n+n、v+n、n+v、v+v、a+n、b+n、a+v、d+v、m+n、n+a;三词词法模式包括:n+n+n、n+v+n、v+v+n、v+n+n、n+n+v、d+v+n、a+n+n、v+n+v、n+v+v、a+v+n;四词五词六词的抽取规则包括:规则一:4~6个单词的所述数据元候选项中不得包含如下性质的词语:w表示标点、r表示代词、g表示语素、l表示习用语、z表示状态词、x表示非语素词、s表示处所词、o表示拟声词、e表示叹词、y表示语气词以及i表示成语;规则二:4~6个单词的所述数据元候选项中不得以c表示连词、u表示助词以及k表示后接成分作为词首;规则三:4~6个单词的所述数据元候选项中不得以c表示连词、f表示方位词以及h表示前接成分作为词尾;规则四:4~6个单词的所述数据元候选项中至少有一个词属于n表示名词、v表示动词、q表示量词、l表示习用语、j表示简称略语或k表示后接成分。更加优选的,所述步骤二中,在所述FCM聚类算法采用TFIDF准则度量每个所述候选数据元,分别选择所述TFIDF值中最大的样本作为正例集合的初始类中心点,选择所述TFIDF值中最小的样本作为负例集合的初始类中心;并同时采用向量空间模型作为特征表示方法,将所述向量空间模型和所述TFIDF值相乘得到的结果作为领域相关度的最终评价结果。更加优选的,所述步骤二中,在所述FCM聚类算法计算之前,先将所述FCM聚类算法优选规则进行设置,预设聚类类别数c、模糊加权指数m以及收敛阈值ε,所述收敛阈值ε的是第k次迭代和第k+1次迭代类中心向量的误差||Vk-Vk-1||≤ε时,则停止迭代计算。更加优选的,所述步骤二中,所述聚类类别数c设为2,所述模糊加权指数m设为2,所述收敛阈值ε为1e-3。更加优选的,所述步骤三中,所述过滤字串算法是指在信息抽取任务中,以词串的独立概率作为衡量指标,当父串和子串同时出现在抽取结果中时,考察子串的结构是否完整,或子串和父串是否重叠,为每个所述子串寻找所述语料中出现的最短父串,根据所述子串与所述父本文档来自技高网...
一种基于逻辑和统计技术的数据元识别方法

【技术保护点】
一种基于逻辑和统计技术的数据元识别方法,其特征在于,包括:步骤一:数据元语言规则的获取:所述客户端提交待测试语料的数据处理请求,依据数据元库中的数据为基础,用计算机统计数据元库中所述数据的长度特征以及数据元结构的词法规则,根据所述统计的结果总结所述数据的长度特征,根据所述数据的所述长度特征对所述数据进行分类,然后分别总结不同分类下的数据元结构的词法规则,用词法分析工具对所述待测试语料中的所述数据进行分词及词性标注处理,并用所述长度特征和所述词法规则从测试语料中抽取出候选数据元;步骤二:概念数据元识别:统计所述候选数据元在所述测试语料中的分布情况,根据所述候选数据元的所述分布情况构造样本空间,基于FCM聚类算法的框架下,将所述候选数据元逐步划分到数据元和非数据元两个类别中,完成所述数据元的自动识别;步骤三:逻辑数据元和应用数据元识别:用过滤子串算法去除抽取的所述候选数据元中结构不完整的数据元候选项,用短语搭配检验,删除所述候选项中搭配不正确的词串,并结合词汇活跃度过滤包含活跃词汇的固定搭配,再计算领域相关度,将过滤后的短语按所述领域相关度从大到小进行排序,排序结果即为逻辑数据元和应用数据元识别的最终结果。...

【技术特征摘要】
1.一种基于逻辑和统计技术的数据元识别方法,其特征在于,包括:步骤一:数据元语言规则的获取:客户端提交待测试语料的数据处理请求,依据数据元库中的数据为基础,用计算机统计数据元库中数据的长度特征以及数据元结构的词法规则,根据所述统计的结果总结所述数据的长度特征,根据所述数据的所述长度特征对所述数据进行分类,然后分别总结不同分类下的数据元结构的词法规则,用词法分析工具对所述待测试语料中的所述数据进行分词及词性标注处理,并用所述长度特征和所述词法规则从测试语料中抽取出候选数据元;步骤二:概念数据元识别:统计所述候选数据元在所述测试语料中的分布情况,根据所述候选数据元的所述分布情况构造样本空间,基于FCM聚类算法的框架下,将所述候选数据元逐步划分到数据元和非数据元两个类别中,完成所述数据元的自动识别;步骤三:逻辑数据元和应用数据元识别:用过滤子串算法去除抽取的所述候选数据元中结构不完整的数据元候选项,用短语搭配检验,删除所述候选项中搭配不正确的词串,并结合词汇活跃度过滤包含活跃词汇的固定搭配,再计算领域相关度,将过滤后的短语按所述领域相关度从大到小进行排序,排序结果即为逻辑数据元和应用数据元识别的最终结果。2.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法,其特征在于,所述步骤一中,所述数据的长度特征以及数据元结构的词法规则是指不同长度的所述数据的出现频次、不同词性所述数据的出现频次以及不同词性序列所述数据的出现频次。3.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法,其特征在于,所述步骤一中,所述分词及词性标注采用词法分析工具ICTCLAS进行分词及词性标注。4.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法,其特征在于,所述步骤一中,所述数据元库是指收录了需要进行数据识别的相关领域的数据元的库,所述数据元库中的每条数据都以三元组的形式记录,所述三元组包括数据元库中的一条数据元,所述数据元的长度,即所述数据元中包含的单词数,以及所述数据元的词性组合序列。5.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法,其特征在于,所述步骤一中,所述数据元结构的词法规则是基于所述数据元的长度特征进行分类的。6.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法,其特征在于,所述步骤一中,基于所述数据的所述长度特征对所述数据元结构的词法规则进行分类时,所述分类包括四个部分:单词型的概念数据元,即只包含1个单词的数据元;短词组型的逻辑数据元和应用数...

【专利技术属性】
技术研发人员:谭远华朱平杨雪
申请(专利权)人:克拉玛依红有软件有限责任公司
类型:发明
国别省市:新疆;65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1