System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于知识图谱的标准数据处理方法技术_技高网

一种基于知识图谱的标准数据处理方法技术

技术编号:41118563 阅读:2 留言:0更新日期:2024-04-25 14:08
本发明专利技术公开了一种基于知识图谱的标准数据处理方法,该方法通过获得待标准化处理的源数据并进行分词处理,根据所述源数据的分词结果确定目标领域;进一步获取知识图谱中对应的三元组得到第一集合;采用自注意力机制的关系抽取模型,得到待标准化的第二集合;计算第二集合中的待标准化三元组与第一集合的中三元组的相似度,并根据计算结果建立所述源数据与所述标准化结果之间的映射关系,根据所述映射关系输出所述源数据的标准化结果,该方法能够提高数据标准化后的一致性和准确性,为科学研究、管理、分析等方面的工作提供有力支持。

【技术实现步骤摘要】

本专利技术属于数据信息标准化处理,具体涉及一种基于知识图谱的标准数据处理方法


技术介绍

1、目前,对非标准化数据进行标准化的方法包括:基于语料库的无监督方法(unsupervised corpus-based similarity for normalization),这种方法利用wordvector representation来计算non-standard token(非标准词汇)和词表里的properword(标准词汇)的语义相似度,然后,按照语义相似度的倒序排列形成词对列表,从而实现对非标准化词汇的标准化。还有采用重排序策略(reranking for system combination),这种方法结合了来自于不同系统的结果,对非标准化词汇进行重排序,在试验中,word级别和句子级别的优化策略都被利用上,以提高标准化的准确性。然而上述方法仅关注词汇方面的标准化处理,忽略了在语句和目标领域特定表达方式,以及上下文之间的逻辑和实体关系,存在诸多缺点,难以在实际应用领域进行数据标准化。

2、基于语料库的无监督方法存在语义理解的局限性,尽管这种方法使用wordvector representation来计算非标准词汇和标准词汇的语义相似度,但在某些情况下,词汇之间的复杂关系可能无法通过简单的语义相似度来衡量如,一些口语化或者方言词汇可能与标准词汇的语义相差甚远,但仍然可以表示相同的含义。另外,该方法的效果很大程度上依赖于所使用的语料库的质量和代表性。如果语料库不够大或者不够多样化,那么计算出的语义相似度可能会不准确,导致标准化的效果不佳。

3、而重排序策略依赖于多个不同的系统来生成结果,然后进行重排序。如果某个系统的性能不佳,那么它生成的结果可能会对整个重排序过程产生负面影响;由于需要结合多个系统的结果,并进行重排序,因此这种方法可能会比单一的系统更加复杂和计算密集;虽然重排序策略中使用了word级别和句子级别的优化策略,但在某些情况下,这些策略可能不足以完全解决标准化的问题,例如,对于一些语义复杂或者上下文依赖的词汇,单纯的优化策略可能无法准确地进行标准化。

4、因此,亟需一种切实可行的数据标准化方法,来提高目标领域数据标准化结果的准确度。


技术实现思路

1、针对现有技术存在的问题,本专利技术提出一种基于知识图谱的标准数据处理方法,根据目标领域待标准化的数据与目标领域知识图谱的映射关系,得到源数据的标准化结果,具体技术方案如下:

2、一种基于知识图谱的标准数据处理方法,所述方法包括:

3、获得待标准化处理的源数据并进行分词处理,根据所述源数据的分词结果确定目标领域。

4、进一步的,所述根据所述源数据的分词结果确定目标领域,具体包括:对分词结果进行预处理,剔除 xml 标签,根据常用词表和停用词表进一步去除常用词和停用词,并删除词频小于等于1的分词。

5、进一步的,所述剔除xml 标签时,采用python的xml.etree.elementtree或lxml库来解析所述源数据,所述xml标签包含源数据中的化学式、公式或角标符号。

6、将预处理后的分词构造分词共现矩阵,采用ochiia系数法计算分词中主题词之间的距离:

7、

8、其中,代表分词中和两词在同一句子中同时出现的频次,代表词出现的总频次,代表词出现的总频次。代表了两个分词之间的距离,该数值越高,说明词语之间的距离越近。

9、根据主题词之间的距离的计算结果将数值由高到低排序,选取前n个排序结果对应的2n个分词组成向量a;根据领域词汇表构建选取2n各个领域高频词汇,组成向量b;

10、运用相似度算法计算向量a和b的相似性:

11、

12、其中,,分别表示向量和的第个元素值,则最大相似度对应的领域即为根据所述源数据的分词结果确定目标领域。

13、基于所述目标领域调用对应的知识图谱,获取知识图谱中对应的三元组得到第一集合。

14、根据所述源数据的分词结果,采用自注意力机制的关系抽取模型,抽取源数据中包含的关系、head实体、tail实体组成的三元组,得到待标准化的第二集合。

15、根据相似度算法计算所述第二集合中的待标准化三元组与所述第一集合的中三元组的相似度;将相似度最高且满足相似度阈值的计算结果所对应的所述第一集合的中三元组标记为所述第二集合中的待标准化三元组对应的标准化结果。

16、进一步的,所述知识图谱中对应的三元组由关系g、head实体h、tail实体t组成,表示为向量,所述待标准化的第二集合中的三元组表示为向量。

17、则,两个三元组向量a和b的语义相似度s计算公式如下:

18、

19、当最大相似度max s满足阈值:max s≥0.8时,则将所述第一集合的中三元组标记为所述待标准化三元组对应的标准化结果。

20、当不满足阈值时,则保持第一集合中对应的三元组不变。

21、建立所述源数据与所述标准化结果之间的映射关系,根据所述映射关系输出所述源数据的标准化结果。

22、进一步的,计算所有待标准化的第二集合中的三元组与第一集合中三元组的相似度,获得所有标记结果,得到所述源数据与所述标准化结果之间的映射关系。

23、根据目标领域待标准化的数据与目标领域知识图谱的映射关系更新所述第一集合中的三元组,将更新后的三元组对应的分词对所述待标准化处理的源数据的分词进行覆盖,得到源数据的标准化结果。

24、进一步的,所述自注意力机制的三元组抽取模型的算法具体为:

25、将所述源数据的分词结果转换为特征向量,将所述特征向量输入到三元组抽取模型;

26、

27、式中,、、为权重矩阵,为激活函数,为聚合运算。

28、每抽取一个关系则对应抽取head实体和tail实体组成的实体对,使用自注意力机制来增强所述实体对之间关联程度,同时增强关系和实体对之间的信息共享。

29、

30、式中,是指输入的特征向量的信息向量。

31、使用平均池化泛化到整个源数据当中完成关系抽取:

32、

33、其中和是权重矩阵,为关系的抽取结果,为整体的模拟实体信息向量,为运算函数。

34、三元组抽取模型包含两个全连接层,输入激活函数,得到head实体和tail实体的位置信息:

35、

36、

37、其中,、、和是权重矩阵,和分别为head实体和tail实体的抽取结果。

38、根据head实体和tail实体的抽取结果和关系抽取结果得到源数据中的三元组。

39、进一步的,所述自注意力机制的三元组抽取模型采用 llama作为语言编码器。

40、本专利技术与现有技术相比,其有益效果是:

41、本专利技术的基于知识本文档来自技高网...

【技术保护点】

1.一种基于知识图谱的标准数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于知识图谱的标准数据处理方法,其特征在于,所述根据所述源数据的分词结果确定目标领域,具体包括:对分词结果进行预处理,剔除 XML 标签,根据常用词表和停用词表进一步去除常用词和停用词,并删除词频小于等于1的分词;

3.根据权利要求2所述的基于知识图谱的标准数据处理方法,其特征在于,所述剔除XML 标签时,采用Python的xml.etree.ElementTree或lxml库来解析所述源数据,所述XML标签包含源数据中的化学式、公式或角标符号。

4.根据权利要求1所述的基于知识图谱的标准数据处理方法,其特征在于,所述知识图谱中对应的三元组由关系G、head实体H、tail实体T组成,表示为向量,所述待标准化的第二集合中的三元组表示为向量;

5.根据权利要求4所述的基于知识图谱的标准数据处理方法,其特征在于,所述自注意力机制的三元组抽取模型的算法具体为:

6.根据权利要求5所述的基于知识图谱的标准数据处理方法,其特征在于,所述自注意力机制的三元组抽取模型采用 LLaMA作为语言编码器。

...

【技术特征摘要】

1.一种基于知识图谱的标准数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于知识图谱的标准数据处理方法,其特征在于,所述根据所述源数据的分词结果确定目标领域,具体包括:对分词结果进行预处理,剔除 xml 标签,根据常用词表和停用词表进一步去除常用词和停用词,并删除词频小于等于1的分词;

3.根据权利要求2所述的基于知识图谱的标准数据处理方法,其特征在于,所述剔除xml 标签时,采用python的xml.etree.elementtree或lxml库来解析所述源数据,所述xml标...

【专利技术属性】
技术研发人员:于钢孙宇宁王静雅王霞赵奇
申请(专利权)人:中国标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1