一种基于知识图谱的标准数据处理方法技术

技术编号：41118563 阅读：30 留言：0更新日期：2024-04-25 14:08

本发明专利技术公开了一种基于知识图谱的标准数据处理方法，该方法通过获得待标准化处理的源数据并进行分词处理，根据所述源数据的分词结果确定目标领域；进一步获取知识图谱中对应的三元组得到第一集合；采用自注意力机制的关系抽取模型，得到待标准化的第二集合；计算第二集合中的待标准化三元组与第一集合的中三元组的相似度，并根据计算结果建立所述源数据与所述标准化结果之间的映射关系，根据所述映射关系输出所述源数据的标准化结果，该方法能够提高数据标准化后的一致性和准确性，为科学研究、管理、分析等方面的工作提供有力支持。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据信息标准化处理，具体涉及一种基于知识图谱的标准数据处理方法。

技术介绍

1、目前，对非标准化数据进行标准化的方法包括：基于语料库的无监督方法（unsupervised corpus-based similarity for normalization），这种方法利用wordvector representation来计算non-standard token（非标准词汇）和词表里的properword（标准词汇）的语义相似度，然后，按照语义相似度的倒序排列形成词对列表，从而实现对非标准化词汇的标准化。还有采用重排序策略（reranking for system combination），这种方法结合了来自于不同系统的结果，对非标准化词汇进行重排序，在试验中，word级别和句子级别的优化策略都被利用上，以提高标准化的准确性。然而上述方法仅关注词汇方面的标准化处理，忽略了在语句和目标领域特定表达方式，以及上下文之间的逻辑和实体关系，存在诸多缺点，难以在实际应用领域进行数据标准化。

2、基于语料库的无监督方法存在语...

【技术保护点】

1.一种基于知识图谱的标准数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于知识图谱的标准数据处理方法，其特征在于，所述根据所述源数据的分词结果确定目标领域，具体包括：对分词结果进行预处理，剔除 XML 标签，根据常用词表和停用词表进一步去除常用词和停用词，并删除词频小于等于1的分词；

3.根据权利要求2所述的基于知识图谱的标准数据处理方法，其特征在于，所述剔除XML 标签时，采用Python的xml.etree.ElementTree或lxml库来解析所述源数据，所述XML标签包含源数据中的化学式、公式或角标符号。