【技术实现步骤摘要】
本专利技术属于数据信息标准化处理,具体涉及一种基于知识图谱的标准数据处理方法。
技术介绍
1、目前,对非标准化数据进行标准化的方法包括:基于语料库的无监督方法(unsupervised corpus-based similarity for normalization),这种方法利用wordvector representation来计算non-standard token(非标准词汇)和词表里的properword(标准词汇)的语义相似度,然后,按照语义相似度的倒序排列形成词对列表,从而实现对非标准化词汇的标准化。还有采用重排序策略(reranking for system combination),这种方法结合了来自于不同系统的结果,对非标准化词汇进行重排序,在试验中,word级别和句子级别的优化策略都被利用上,以提高标准化的准确性。然而上述方法仅关注词汇方面的标准化处理,忽略了在语句和目标领域特定表达方式,以及上下文之间的逻辑和实体关系,存在诸多缺点,难以在实际应用领域进行数据标准化。
2、基于语料库的无监督方法存在语
...【技术保护点】
1.一种基于知识图谱的标准数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于知识图谱的标准数据处理方法,其特征在于,所述根据所述源数据的分词结果确定目标领域,具体包括:对分词结果进行预处理,剔除 XML 标签,根据常用词表和停用词表进一步去除常用词和停用词,并删除词频小于等于1的分词;
3.根据权利要求2所述的基于知识图谱的标准数据处理方法,其特征在于,所述剔除XML 标签时,采用Python的xml.etree.ElementTree或lxml库来解析所述源数据,所述XML标签包含源数据中的化学式、公式或角标符号。
...【技术特征摘要】
1.一种基于知识图谱的标准数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于知识图谱的标准数据处理方法,其特征在于,所述根据所述源数据的分词结果确定目标领域,具体包括:对分词结果进行预处理,剔除 xml 标签,根据常用词表和停用词表进一步去除常用词和停用词,并删除词频小于等于1的分词;
3.根据权利要求2所述的基于知识图谱的标准数据处理方法,其特征在于,所述剔除xml 标签时,采用python的xml.etree.elementtree或lxml库来解析所述源数据,所述xml标...
【专利技术属性】
技术研发人员:于钢,孙宇宁,王静雅,王霞,赵奇,
申请(专利权)人:中国标准化研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。