一种非结构化数据识别的方法和装置制造方法及图纸

技术编号:16717969 阅读:28 留言:0更新日期:2017-12-05 16:24
本发明专利技术实施例公开了一种非结构化数据识别的方法,其特征在于,所述方法包括:对非结构化数据进行完整性检测;当所述非结构化数据确定为完整的非结构化数据时,将所述非结构化数据与预存储的关键词进行匹配,获取与所述非结构化数据相对应的待确定标签;根据预设的匹配规则,在所述待确定的标签中确定与所述非结构化数据最终匹配的标签。本发明专利技术实施例同时还公开了一种非结构化数据识别的装置。

A method and device for unstructured data recognition

The embodiment of the invention discloses a method for unstructured data recognition, which is characterized in that the method comprises the following steps: integrity detection of unstructured data; when the structured data set for unstructured data to complete the non matching keywords, the non structured data and pre storage, access and the unstructured data corresponding to be determined according to the preset labels; matching rules, on the label to be determined with the identified unstructured data finally, tag. An embodiment of the invention also discloses a device for unstructured data recognition.

【技术实现步骤摘要】
一种非结构化数据识别的方法和装置
本专利技术涉及数据分析领域,尤其涉及一种非结构化数据识别的方法和装置。
技术介绍
随着信息技术的迅速发展,与之相应的各种数据也呈现快速增长的趋势,对数据的分析和利用也因此成为了近年来的热点。其中,非结构化数据是大部分数据的存储形态,但其却很难直接应用于数据分析的过程中,使得很多隐藏在这些录音、文本等非结构化数据中的有效信息被淹没,甚至被遗忘。现有技术中,最常用的思路就是通过词频统计、聚类/分类分析方法、交叉分析方法等,运用回归树(CART,ClassificationAndRegressionTrees)、神经网络等模型,通过计算与关键词的最短路径,将非结构化文本定位至结构化条目,实现数据结构化。然而,现有技术主要解决的是实现数据结构化的适配过程,没有对多个结果进行择优的筛选,输出结果会由于匹配条目较多而引入较多干扰项,准确率不高。
技术实现思路
为解决上述技术问题,本专利技术实施例期望提供一种非结构化数据识别的方法和装置,将非结构化数据与关键字库匹配的标签通过判断与筛选得到最终适配的结构化标签,实现非结构化数据向结构化数据的转换。本专利技术的技术方案是这样实现的:第一方面,本专利技术实施例提供了一种非结构化数据识别的方法,其特征在于,所述方法包括:对非结构化数据进行完整性检测;当所述非结构化数据确定为完整的非结构化数据时,将所述非结构化数据与预存储的关键词进行匹配,获取与所述非结构化数据相对应的待确定标签;根据预设的匹配规则,在所述待确定的标签中确定与所述非结构化数据最终匹配的标签。上述方案中,将所述非结构化数据的主词、副词、排除词与预存储关键词的主词、副词、排除词进行匹配;若所述非结构化数据的主词、副词与预存储关键词的主词、副词相匹配,则生成与所述非结构化数据相对应的待确定标签;若所述非结构化数据的排除词与预存储关键词的排除词匹配,则输出关键字错误日志。上述方案中,当所述待确定标签数量只有一条时,将所述待确定标签确定为与所述非结构化数据最终相匹配的标签;当所述待确定标签数量大于一时,若所述待确定标签中存在与所述特例标签相匹配的标签,则将所述与特例标签匹配的第一待确定标签确定为与非结构化数据最终相匹配的标签;当所述待确定标签数量大于一,且所述待确定标签没有与特例标签相匹配,且所述待确定标签类型的数量小于等于预设的阈值,且所述非结构化数据中出现频率最高的主词对应的第二待确定标签数量为一时,将所述第二待确定标签确定为与所述非结构化数据最终相匹配的标签;当所述待确定标签数量大于一,且所述待确定标签没有与特例标签相匹配,且所述待确定标签类型的数量小于等于预设的阈值,且所述第二待确定标签数量大于一时,根据所述第二待确定标签出现频率排序结果,将所述出现频率最高的第二待确定标签确定为与所述非结构化数据最终相匹配的标签。上述方案中,当所述待确定标签没有与特例标签相匹配,对所述待确定标签类型的数量进行统计;当所述待确定标签类型的数量大于预设的阈值时,输出关键词错误日志;当所述待确定标签类型的数量小于等于预设的阈值时,将所述非结构化数据中主词的出现频率由高到低进行排序;确定所述非结构化数据中出现频率最高的主词所对应的第二待确定标签数量;若所述非结构化数据中出现频率最高的主词对应的第二待确定标签数量为一,则将所述第二待确定标签确定为与所述非结构化数据最终相匹配的标签。上述方案中,当所述非结构化数据中出现频率最高的主词对应的第二待确定标签数量大于一时,根据所述非结构化数据的主词出现频率和副词出现频率,确定所述第二待确定标签的出现频率;其中,所述第二待确定标签的出现频率等于所述主词频率乘以所述副词出现频率;将所述第二待确定标签的出现频率由高到低进行排序;将所述出现频率最高的第二待确定标签确定为与所述非结构化数据最终相匹配的标签。第二方面,本专利技术实施例提供了一种非结构化数据识别的装置,其特征在于,所述装置包括:检测模块、获取模块和确定模块;其中,所述检测模块,用于对非结构化数据进行完整性检测;所述获取模块,用于当所述非结构化数据确定为完整的非结构化数据时,将所述非结构化数据与预存储的关键词进行匹配,获取与所述非结构化数据相对应的待确定标签;所述确定模块,用于根据预设的匹配规则,在所述待确定的标签中确定与所述非结构化数据最终匹配的标签。上述方案中,所述获取模块包括:匹配子模块、生成子模块和输出子模块;其中,所述匹配子模块,用于将所述非结构化数据的主词、副词、排除词与预存储关键词的主词、副词、排除词进行匹配;所述生成子模块,用于若所述非结构化数据的主词、副词与预存储关键词的主词、副词相匹配,则生成与所述非结构化数据相对应的待确定标签;所述输出子模块,用于若所述非结构化数据的排除词与预存储关键词的排除词匹配,则输出关键字错误日志。上述方案中,所述确定模块包括:第一确定子模块、第二确定子模块、第三确定子模块和第四确定子模块;其中,所述第一确定子模块,用于当所述待确定标签数量只有一条时,将所述待确定标签确定为与所述非结构化数据最终相匹配的标签;所述第二确定子模块,用于当所述待确定标签数量大于一时,若所述待确定标签中存在与所述特例标签相匹配的标签,则将所述与特例标签匹配的第一待确定标签确定为与非结构化数据最终相匹配的标签;所述第三确定子模块,用于当所述待确定标签数量大于一,且所述待确定标签没有与特例标签相匹配,且所述待确定标签类型的数量小于等于预设的阈值,且所述非结构化数据中出现频率最高的主词对应的第二待确定标签数量为一时,将所述第二待确定标签确定为与所述非结构化数据最终相匹配的标签;所述第四确定子模块,用于当所述待确定标签数量大于一,且所述待确定标签没有与特例标签相匹配,且所述待确定标签类型的数量小于等于预设的阈值,且所述第二待确定标签数量大于一时,根据所述第二待确定标签出现频率排序结果,将所述出现频率最高的第二待确定标签确定为与所述非结构化数据最终相匹配的标签。上述方案中,所述第三确定子模块,用于当所述待确定标签没有与特例标签相匹配,对所述待确定标签类型的数量进行统计;以及,当所述待确定标签类型的数量大于预设的阈值时,输出关键词错误日志;以及,当所述待确定标签类型的数量小于等于预设的阈值时,将所述非结构化数据中主词的出现频率由高到低进行排序;以及,确定所述非结构化数据中出现频率最高的主词所对应的第二待确定标签数量;以及,若所述非结构化数据中出现频率最高的主词对应的第二待确定标签数量为一,则将所述第二待确定标签确定为与所述非结构化数据最终相匹配的标签。上述方案中,所述第四确定子模块,用于当所述非结构化数据中出现频率最高的主词对应的第二待确定标签数量大于一时,根据所述非结构化数据的主词出现频率和副词出现频率,确定所述第二待确定标签的出现频率;其中,以及,所述第二待确定标签的出现频率等于所述主词频率乘以所述副词出现频率;以及,将所述第二待确定标签的出现频率由高到低进行排序;以及,将所述出现频率最高的第二待确定标签确定为与所述非结构化数据最终相匹配的标签。本专利技术实施例提供了一种非结构化数据识别的方法和装置,将非结构化数据与关键字库的进行匹配,通过二次排序过程得到最终匹配的结构化标签,提高了非结构化数据的识别准确率,本文档来自技高网...
一种非结构化数据识别的方法和装置

【技术保护点】
一种非结构化数据识别的方法,其特征在于,所述方法包括:对非结构化数据进行完整性检测;当所述非结构化数据确定为完整的非结构化数据时,将所述非结构化数据与预存储的关键词进行匹配,获取与所述非结构化数据相对应的待确定标签;根据预设的匹配规则,在所述待确定的标签中确定与所述非结构化数据最终匹配的标签。

【技术特征摘要】
1.一种非结构化数据识别的方法,其特征在于,所述方法包括:对非结构化数据进行完整性检测;当所述非结构化数据确定为完整的非结构化数据时,将所述非结构化数据与预存储的关键词进行匹配,获取与所述非结构化数据相对应的待确定标签;根据预设的匹配规则,在所述待确定的标签中确定与所述非结构化数据最终匹配的标签。2.根据权利要求1所述的方法,其特征在于,所述当所述非结构化数据确定为完整的非结构化数据时,将所述非结构化数据与预存储的关键词进行匹配,获取与所述非结构化数据相对应的待确定标签,包括:将所述非结构化数据的主词、副词、排除词与预存储关键词的主词、副词、排除词进行匹配;若所述非结构化数据的主词、副词与预存储关键词的主词、副词相匹配,则生成与所述非结构化数据相对应的待确定标签;若所述非结构化数据的排除词与预存储关键词的排除词匹配,则输出关键字错误日志。3.根据权利要求1所述的方法,其特征在于,所述根据预设的匹配规则,在所述待确定的标签中确定与所述非结构化数据最终匹配的标签,包括:当所述待确定标签数量只有一条时,将所述待确定标签确定为与所述非结构化数据最终相匹配的标签;当所述待确定标签数量大于一时,若所述待确定标签中存在与所述特例标签相匹配的标签,则将所述与特例标签匹配的第一待确定标签确定为与非结构化数据最终相匹配的标签;当所述待确定标签数量大于一,且所述待确定标签没有与特例标签相匹配,且所述待确定标签类型的数量小于等于预设的阈值,且所述非结构化数据中出现频率最高的主词对应的第二待确定标签数量为一时,将所述第二待确定标签确定为与所述非结构化数据最终相匹配的标签;当所述待确定标签数量大于一,且所述待确定标签没有与特例标签相匹配,且所述待确定标签类型的数量小于等于预设的阈值,且所述第二待确定标签数量大于一时,根据所述第二待确定标签出现频率排序结果,将所述出现频率最高的第二待确定标签确定为与所述非结构化数据最终相匹配的标签。4.根据权利要求3所述的方法,其特征在于,当所述待确定标签数量大于一,且所述待确定标签没有与特例标签相匹配,且所述待确定标签类型的数量小于等于预设的阈值,且所述非结构化数据中出现频率最高的主词对应的第二待确定标签数量为一时,将所述第二待确定标签确定为与所述非结构化数据最终相匹配的标签,包括:当所述待确定标签没有与特例标签相匹配,对所述待确定标签类型的数量进行统计;当所述待确定标签类型的数量大于预设的阈值时,输出关键词错误日志;当所述待确定标签类型的数量小于等于预设的阈值时,将所述非结构化数据中主词的出现频率由高到低进行排序;确定所述非结构化数据中出现频率最高的主词所对应的第二待确定标签数量;若所述非结构化数据中出现频率最高的主词对应的第二待确定标签数量为一,则将所述第二待确定标签确定为与所述非结构化数据最终相匹配的标签。5.根据权利要求3所述的方法,其特征在于,当所述待确定标签数量大于一,且所述待确定标签没有与特例标签相匹配,且所述待确定标签类型的数量小于等于预设的阈值,且所述第二待确定标签数量大于一时,根据所述第二待确定标签出现频率排序结果,将所述出现频率最高的第二待确定标签确定为与所述非结构化数据最终相匹配的标签,包括:当所述非结构化数据中出现频率最高的主词对应的第二待确定标签数量大于一时,根据所述非结构化数据的主词出现频率和副词出现频率,确定所述第二待确定标签的出现频率;其中,所述第二待确定标签的出现频率等于所述主词频率乘以所述副词出...

【专利技术属性】
技术研发人员:刘娟许婧思永坤蓝珊
申请(专利权)人:中国移动通信集团云南有限公司
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1