一种金融标准化领域知识图谱的构建方法及装置制造方法及图纸

技术编号:35877184 阅读:13 留言:0更新日期:2022-12-07 11:15
本申请提供一种金融标准化领域知识图谱的构建方法及装置,基于金融标准文件获取待识别文本;所述待识别文本包括多个实体;对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签;根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。对金融标准文件构建知识图谱,根据知识图谱中包括的命名实体的关系信息,对一种金融标准文件进一步分析金融标准文件以后的改进,提前布局相关领域,抢占先机,通过知识图谱可以获取到仅仅通过阅读金融标准文件无法发现关联的关系信息,提高用户对金融标准文件的理解程度,以便用户正确使用金融标准文件。融标准文件。融标准文件。

【技术实现步骤摘要】
一种金融标准化领域知识图谱的构建方法及装置


[0001]本申请涉及计算机
,特别涉及一种金融标准化领域知识图谱的构建方法及装置。

技术介绍

[0002]标准化领域作为科技领域的最前沿,拥有着不同国家、不同来源却隐含关系的信息,虽然信息来源多样,但其形式以文件资料为主。而各国对于标准化领域的重视也使得领域发展迅速,汇聚了大量高精尖科技,数据呈现爆炸式增长态势。这些数据蕴含着丰富的价值信息,然而,相关人员在面对这些海量的标准化数据时,却无法高效地从中获取关键知识,从而也无法依据数据指导标准化工作,尤其是在金融标准化领域。
[0003]通过调研发现,导致数据中价值信息继续沉睡的首要问题是,这些数据缺乏紧凑有效的组织结构与直观形象的可视化查询方式,没有形成相应的标准化知识体系,难以进行深层次的数据挖掘与应用,因而利用相关数据并提供一个便捷交互的知识图谱具有重要意义。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种金融标准化领域知识图谱的构建方法及装置,通过知识图谱可以获取到仅仅通过阅读金融标准文件无法发现关联的关系信息,提高用户对金融标准文件的理解程度,以便用户正确使用金融标准文件。其具体方案如下:
[0005]第一方面,本申请提供了一种金融标准化领域知识图谱的构建方法,包括:
[0006]基于金融标准文件获取待识别文本;所述待识别文本包括多个实体;
[0007]对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签;
[0008]根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。
[0009]第二方面,本申请实施例还提供了一种金融标准化领域知识图谱的构建装置,包括:
[0010]获取单元,用于基于金融标准文件获取待识别文本;所述待识别文本包括多个实体;
[0011]识别单元,用于对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签;
[0012]构建单元,用于根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。
[0013]第三方面,本申请实施例还提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
[0014]所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0015]所述处理器用于根据所述程序代码中的指令执行所述的方法。
[0016]第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行所述的方法。
[0017]本申请实施例提供了一种金融标准化领域知识图谱的构建方法及装置,基于金融标准文件获取待识别文本;所述待识别文本包括多个实体;对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签;根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。可见,在本申请实施例中,可以对金融标准文件构建知识图谱,根据知识图谱中包括的命名实体的关系信息,对一种金融标准文件进一步分析金融标准文件以后的改进与创新,提前布局相关领域,抢占先机,而且,通过知识图谱可以获取到仅仅通过阅读金融标准文件无法发现关联的关系信息,提高用户对金融标准文件的理解程度,以便用户正确使用金融标准文件。
附图说明
[0018]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0019]图1示出了本申请实施例提供的一种金融标准化领域知识图谱的构建方法的流程示意图;
[0020]图2示出了本申请实施例提供的一种BERT

BiLSTM

CRF模型结构图;
[0021]图3示出了本申请实施例提供的一种基于Bert的输入表示图;
[0022]图4示出了本申请实施例提供的一种BiLSTM

CRF模型结构图;
[0023]图5示出了本申请实施例提供的一种依存句法分析的示意图;
[0024]图6示出了本申请实施例提供的一种PCNN体系结构图;
[0025]图7示出了本申请实施例提供的一种用户查询实体链接任务示意图;
[0026]图8为本申请实施例提供的一种金融标准化领域知识图谱的构建装置的结构框图;
[0027]图9示出了本申请实施例提供的一种计算机设备的结构图。
具体实施方式
[0028]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请的具体实施方式做详细的说明。
[0029]在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
[0030]正如
技术介绍
中的描述,利用相关数据并提供一个便捷交互的知识图谱具有重要意义,在现有技术中,传统的机器学习方法也可以应用在自然语言处理的领域,例如实体识别和关系抽取可以通过SVM,决策树这样的传统机器学习算法进行多分类,然而,机器学习
的主要障碍是特征工程这个步骤,这需要领域专家在进入训练过程之前就要找到非常重要的特征。特征工程步骤是要靠手动完成的,而且需要大量领域专业知识,因此它成为当今大多数机器学习任务的主要瓶颈,大多数机器学习算法的性能依赖于所提取的特征的准确度,因此准确度无法保持稳定。还有一种方式是基于非BERT的深度学习模型,通常使用word2vec对词语进行向量化,接着对向量化的词语进行深度模型的训练,通常也会使用BiLSTM来进行实体识别,然而,Word2vec由词义的分布式假设出发,每一个单词都会被映射到一个唯一的一个稠密向量,但这样的方式无法处理一词多义的问题。也就是说word2vec产生的词是静态的,不考虑上下文的,具有较大的误差。
[0031]随着各个领域向信息化转型的不断深入,各级研究单位都希望能够获得更深入、更全面、更高效、更便捷的数据服务。为了实现金融标准化领域知识的主动推送,帮助科研人员扩展知识发现,揭示数据中蕴含的知识,构建知识中蕴含的关联,降低科研人员之间交流的时间成本,整合各类标准资源,构建金融标准化领域知识图谱势在必行。
[0032]基于以上技术问题,本申请实施例提供了一种金融标准化领域知识图谱的构建方法及装置,基于金融标准文件获取待识别文本;所述待识别文本包括多个实体;对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签;根据所述待本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种金融标准化领域知识图谱的构建方法,其特征在于,包括:基于金融标准文件获取待识别文本;所述待识别文本包括多个实体;对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签;根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。2.根据权利要求1所述的方法,其特征在于,在所述待识别文本的数据量小于第一阈值时,所述对所述待识别文本进行命名实体识别,得到命名实体,包括:将所述待识别文本和预设规则模板进行匹配,得到命名实体。3.根据权利要求2所述的方法,其特征在于,所述金融标准文件为TXT文档格式的论文,所述预设规则模板包括多个标签,所述多个标签包括标题、作者和摘要,所述将所述待识别文本和预设规则模板进行匹配,得到命名实体,包括:获取所述待识别文本中第一个非空行及第一个非空行之后的多个连续非空行的第一文本,作为标签为标题时对应的第一实体;将所述标签为标题时对应的第一实体和标题标签作为第一命名实体;获取所述第一实体的下一个非空行中的第二文本,并以所述第二文本之间的逗号作为分隔符划分得到多个第三文本,将所述多个第三文本作为标签为作者时对应的第二实体;将所述标签为作者时对应的第二实体和作者标签作为第二命名实体;通过正则的方式对所述待识别文本进行abstract字段的匹配,将所述待识别文本中abstract之后的多个连续的非空行的内容,作为标签为摘要时对应的第三实体;将所述标签为摘要时对应的第三实体和所述摘要标签作为第三命名实体。4.根据权利要求1所述的方法,其特征在于,在所述待识别文本的数据量大于或等于第一阈值时,所述对所述待识别文本进行命名实体识别,得到命名实体,包括:基于BERT

BiLSTM

CRF模型对所述待识别文本进行命名实体识别,得到命名实体。5.根据权利要求1

【专利技术属性】
技术研发人员:康嘉玮
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1