面向金融知识图谱的关系抽取方法、装置及存储介质制造方法及图纸

技术编号:31701279 阅读:33 留言:0更新日期:2022-01-01 11:02
本申请公开了一种面向金融知识图谱的关系抽取方法、装置及存储介质,该方法包括:对每篇新闻资讯进行分词和词性标注,得到每篇新闻资讯对应的已知词性的单词列表;对每篇新闻资讯进行重要信息提取,从每篇新闻资讯对应的单词列表中提取得到每篇新闻资讯对应的重要单词列表;将每篇新闻资讯对应的重要单词列表中的重要单词进行两两组合形成关系对,得到每篇新闻资讯对应的关系对列表;根据每篇新闻资讯对应的关系对列表中每对关系对在多篇新闻资讯中共同出现的次数和预设过滤次数,抽取得到共同出现的次数大于或等于预设过滤次数的关系对。通过这种方式,能够全自动和无监督的抽取尽可能多的关系对,避免关系类型的局限和认知盲区的局限。知盲区的局限。知盲区的局限。

【技术实现步骤摘要】
面向金融知识图谱的关系抽取方法、装置及存储介质


[0001]本申请涉及自然语言处理
,尤其涉及一种面向金融知识图谱的关系抽取方法、计算机装置及存储介质。

技术介绍

[0002]知识图谱是一种信息的结构化表示方式,将各个有意义的事务(实体) 之间的联系通过图的方式表示出来。知识图谱可以分为两种:一种是通用领域的知识图谱,它是通用知识的归纳;另一种则是垂直领域的知识图谱,这类知识图谱通常是在一定的产业或者行业背景下的应用。
[0003]关系抽取是知识图谱形成的基础,对于非结构化的文本数据,比如新闻、专利等,只有通过关系抽取,才能得到实体之间的关联关系。现有垂直领域的关系抽取算法,一方面大多基于人工标注数据,这样容易存在主观性,也耗费人力资源;另一方面预先定义好可能的实体关系类型,这样容易依赖先验知识;而且有些算法依赖于触发词,难以捕捉隐藏关系,例如,“张三今年42岁”,在缺乏触发词“年龄”的时候,不会识别出隐藏关系(张三,年龄,42岁)。

技术实现思路

[0004]基于此,本申请提供了一种面向金融知识图谱的关系抽取方法本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向金融知识图谱的关系抽取方法,其特征在于,所述方法包括:对多篇新闻资讯中的每篇新闻资讯进行分词和词性标注,得到每篇新闻资讯对应的已知词性的单词列表;对每篇新闻资讯进行重要信息提取,从每篇新闻资讯对应的单词列表中提取得到每篇新闻资讯对应的重要单词列表;将每篇新闻资讯对应的重要单词列表中的重要单词进行两两组合形成关系对,得到每篇新闻资讯对应的关系对列表;根据每篇新闻资讯对应的关系对列表中每对关系对在所述多篇新闻资讯中共同出现的次数和预设过滤次数,抽取得到共同出现的次数大于或等于所述预设过滤次数的关系对。2.根据权利要求1所述的方法,其特征在于,所述对多篇新闻资讯中的每篇新闻资讯进行分词和词性标注之前,还包括:获取已知的命名实体的名称集合;所述对多篇新闻资讯中的每篇新闻资讯进行分词和词性标注,包括:基于所述名称集合,对多篇新闻资讯中的每篇新闻资讯进行分词和词性标注。3.根据权利要求2所述的方法,其特征在于,所述获取已知的命名实体的名称集合,包括:从券商或数据商提供的数据中获取已知的第一命名实体的名称集合,所述第一命名实体包括概念名称、行业名称以及产品名称中的至少一个;和/或,从已有的数据中提取股票可能存在的所有候选名称,将提取的可能存在的所有候选名称作为所述股票的候选名称集合;在新闻资讯中验证组合形式是否存在,所述组合形式为股票的候选名称和所述股票的股票代码的组合形式;若存在,则保留所述股票的候选名称,若不存在,则删除所述股票的候选名称,将保留下来的候选名称作为所述股票的名称集合;将所述第一命名实体的名称集合和/或所述股票的名称集合合并为所述已知的命名实体的名称集合。4.根据权利要求1所述的方法,其特征在于,所述对每篇新闻资讯进行重要信息提取,从每篇新闻资讯对应的单词列表中提取得到每篇新闻资讯对应的重要单词列表,包括:对每篇新闻资讯的正文进行关键词提取,从每篇新闻资讯对应的单词列表中提取得到每篇新闻资讯对应的关键词列表;将每篇新闻资讯对应的关键词列表作为每篇新闻资讯对应的重要单词列表。5.根据权利要求4所述的方法,其特征在于,所述对每篇新闻资讯的正文进行关键词提取,从每篇新闻资讯对应的单词列表中提取得到每篇新闻资讯对应的关键词列表,包括:对每篇新闻资讯的正文进行关键词提取,从每篇新闻资讯对应的单词列表中提取得到每篇新...

【专利技术属性】
技术研发人员:邱念刘毅丁茂
申请(专利权)人:佳兆业投资咨询深圳有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1