一种基于知识图谱的标准数据处理方法技术

技术编号:41118563 阅读:30 留言:0更新日期:2024-04-25 14:08
本发明专利技术公开了一种基于知识图谱的标准数据处理方法,该方法通过获得待标准化处理的源数据并进行分词处理,根据所述源数据的分词结果确定目标领域;进一步获取知识图谱中对应的三元组得到第一集合;采用自注意力机制的关系抽取模型,得到待标准化的第二集合;计算第二集合中的待标准化三元组与第一集合的中三元组的相似度,并根据计算结果建立所述源数据与所述标准化结果之间的映射关系,根据所述映射关系输出所述源数据的标准化结果,该方法能够提高数据标准化后的一致性和准确性,为科学研究、管理、分析等方面的工作提供有力支持。

【技术实现步骤摘要】

本专利技术属于数据信息标准化处理,具体涉及一种基于知识图谱的标准数据处理方法


技术介绍

1、目前,对非标准化数据进行标准化的方法包括:基于语料库的无监督方法(unsupervised corpus-based similarity for normalization),这种方法利用wordvector representation来计算non-standard token(非标准词汇)和词表里的properword(标准词汇)的语义相似度,然后,按照语义相似度的倒序排列形成词对列表,从而实现对非标准化词汇的标准化。还有采用重排序策略(reranking for system combination),这种方法结合了来自于不同系统的结果,对非标准化词汇进行重排序,在试验中,word级别和句子级别的优化策略都被利用上,以提高标准化的准确性。然而上述方法仅关注词汇方面的标准化处理,忽略了在语句和目标领域特定表达方式,以及上下文之间的逻辑和实体关系,存在诸多缺点,难以在实际应用领域进行数据标准化。

2、基于语料库的无监督方法存在语义理解的局限性,尽管本文档来自技高网...

【技术保护点】

1.一种基于知识图谱的标准数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于知识图谱的标准数据处理方法,其特征在于,所述根据所述源数据的分词结果确定目标领域,具体包括:对分词结果进行预处理,剔除 XML 标签,根据常用词表和停用词表进一步去除常用词和停用词,并删除词频小于等于1的分词;

3.根据权利要求2所述的基于知识图谱的标准数据处理方法,其特征在于,所述剔除XML 标签时,采用Python的xml.etree.ElementTree或lxml库来解析所述源数据,所述XML标签包含源数据中的化学式、公式或角标符号。

4.根据权利要...

【技术特征摘要】

1.一种基于知识图谱的标准数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于知识图谱的标准数据处理方法,其特征在于,所述根据所述源数据的分词结果确定目标领域,具体包括:对分词结果进行预处理,剔除 xml 标签,根据常用词表和停用词表进一步去除常用词和停用词,并删除词频小于等于1的分词;

3.根据权利要求2所述的基于知识图谱的标准数据处理方法,其特征在于,所述剔除xml 标签时,采用python的xml.etree.elementtree或lxml库来解析所述源数据,所述xml标...

【专利技术属性】
技术研发人员:于钢孙宇宁王静雅王霞赵奇
申请(专利权)人:中国标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1