The invention provides a data label matching method and device, the method comprises: constructing a sample label table, comprises at least one sample label sample label table, and each of the sample tag hierarchy, each of the sample label corresponds to a same label type according to the label types; the at least one of the labels, the target field extracted from the data acquired in advance and the label corresponds to the type of the target in the field, including at least one keyword; for each of the sample label are executed to determine whether the target keywords, and corresponds to the sample label there the target field if it is, the sample label is determined for the reference tag; according to the hierarchy of the determined reference tags and each of the sample label, from the at least one In the sample label, at least one matching label corresponding to the data corresponding to the target field is determined. This scheme can improve the accuracy of label matching.
【技术实现步骤摘要】
一种数据的标签匹配方法及装置
本专利技术涉及计算机
,特别涉及一种数据的标签匹配方法及装置。
技术介绍
数据分析可帮助人们对数据做出准确判断,以便采取适当行动,在实用过程中具有重要作用,而数据分析的前提是对数据的清洗、处理和标签匹配。对数据进行标签匹配时,主要通过检索与标签的类型相对应的关联词,将检索到的关联词所对应的数据确定为与标签相匹配的数据。例如,标签为北京市时,在进行标签匹配时,在互联网采集的数据中检索是否存在关联词“市”,若存在,则默认该关联词前面的数据为与该标签对应的关键词,即默认“市”前面的数据为关键词为“北京”,然后将此标签确认为该数据的匹配标签。在此过程中,仅通过检索关联词即确定出了匹配标签,而未准确确定关联词对应的关键词是否与标签内容准确对应,例如,当关联词“市”前面的字符为乱码时,在此方法中仍将其与标签北京市相匹配,这导致标签匹配的准确性较低。
技术实现思路
本专利技术实施例提供了数据的标签匹配方法及装置,能提高标签匹配的准确性。第一方面,本专利技术实施例提供了一种数据的标签匹配方法,包括:构建样本标签表,所述样本标签表中包括至少一个样本标 ...
【技术保护点】
一种数据的标签匹配方法,其特征在于,包括:构建样本标签表,所述样本标签表中包括至少一个样本标签,以及各个所述样本标签的层级关系;其中,各个所述样本标签均对应同一个标签类型;根据所述至少一个样本标签的所述标签类型,从预先获取的数据中提取出与所述标签类型相对应的目标字段;针对每一个所述样本标签,均执行:确定所述目标字段中是否存在与所述样本标签相对应的目标关键词,如果是,将所述样本标签确定为参考标签;根据确定出的参考标签以及各个所述样本标签的层级关系,从所述至少一个样本标签中,确定与所述目标字段对应的数据相对应的至少一个匹配标签。
【技术特征摘要】
1.一种数据的标签匹配方法,其特征在于,包括:构建样本标签表,所述样本标签表中包括至少一个样本标签,以及各个所述样本标签的层级关系;其中,各个所述样本标签均对应同一个标签类型;根据所述至少一个样本标签的所述标签类型,从预先获取的数据中提取出与所述标签类型相对应的目标字段;针对每一个所述样本标签,均执行:确定所述目标字段中是否存在与所述样本标签相对应的目标关键词,如果是,将所述样本标签确定为参考标签;根据确定出的参考标签以及各个所述样本标签的层级关系,从所述至少一个样本标签中,确定与所述目标字段对应的数据相对应的至少一个匹配标签。2.根据权利要求1所述的方法,其特征在于,在所述根据所述至少一个样本标签的标签类型,从预先获取的数据中提取出与所述标签类型相对应的目标字段之后,进一步包括:根据所述至少一个样本标签的数据格式,设置与所述数据格式相对应的词法分析器;为所述目标字段建立全文索引,并指定设置的所述词法分析器;利用指定的所述词法分析器,将所述目标字段拆分成至少一个关键词;则,所述确定所述目标字段中是否存在与所述样本标签相对应的目标关键词,包括:利用所述目标字段建立的所述全文索引,检索所述至少一个关键词中是否存在与所述样本标签相对应的目标关键词。3.根据权利要求1所述的方法,其特征在于,在所述确定所述目标字段中是否存在与所述样本标签相对应的目标关键词之前,进一步包括:根据各个所述样本标签的层级关系,分别设置每一个层级对应的游标;则,所述确定所述目标字段中是否存在与所述样本标签相对应的目标关键词,包括:根据所述样本标签对应的层级,确定所述样本标签对应的游标;利用确定出的所述游标,查找所述目标字段中是否存在所述目标关键词。4.根据权利要求3所述的方法,其特征在于,在所述针对每一个所述样本标签,均执行:确定所述目标字段中是否存在与所述样本标签相对应的目标关键词之前,进一步包括:针对每一个层级对应的至少一个样本标签,均执行:确定所述至少一个样本标签分别对应的字符长度,并根据各个所述字符长度,对所述至少一个样本标签进行排序;则,所述针对每一个所述样本标签,均执行:确定所述目标字段中是否存在与所述样本标签相对应的目标关键词,包括:根据所述至少一个样本标签的排序结果,利用所述至少一个样本标签所属层级对应的游标,依次确定所述目标字段中是否存在与各个所述样本标签对应的目标关键词。5.根据权利要求1所述的方法,其特征在于,所述根据确定出的参考标签以及各个所述样本标签的层级关系,从所述至少一个样本标签中,确定与所述目标字段对应的数据相对应的至少一个匹配标签,包括:根据所述层级关系,确...
【专利技术属性】
技术研发人员:王颜,崔乐乐,王传超,徐宏伟,姚民伟,
申请(专利权)人:山东浪潮云服务信息科技有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。