基于图表共现信息的制造技术

技术编号:39756411 阅读:12 留言:0更新日期:2023-12-17 23:55
一种基于图表共现信息的

【技术实现步骤摘要】
基于图表共现信息的EDB指标检索方法、装置、设备及介质


[0001]本专利技术主要涉及到信息检索
,尤其是一种基于图表共现信息的
EDB
指标检索方法

装置

设备及介质


技术介绍

[0002]信息检索是指从大规模的资源集合中获得满足用户信息需求的资源的过程

在经济行业的检索场景中,
EDB(EconomicDatabase)
是经济数据库,包括中国宏观数据

行业经济数据

海外宏观数据等,在资本市场使用广泛,无论研究宏观

行业还是公司,研究股票

期货

债券还是基金,均需使用中宏观数据作为依据

如何根据用户给定的查询,精准的检索出相关指标是一个挑战

[0003]基于词匹配的检索是检索领域最常用的方法之一,如
elasticsearch
等工具
、BM25
等方法,具有速度快

匹配关键词准确的优点

然而,基于词匹配的方法匹配出的相关文本非常多,且包含相同关键词的文本与查询的相关程度基本一致,数据处理量非常大,无法在它们之间进行一个合理的相关性排序,且没有从语义的层面去考虑文本之间的相关程度

[0004]同时,在
EDB
指标检索场景中,起初没有足够的历史数据或用户行为数据的情况下,无法准确了解用户的兴趣和偏好,面临搜索场景下的冷启动问题


技术实现思路

[0005]针对现有技术存在的技术问题,本专利技术提出一种基于图表共现信息的
EDB
指标检索方法

装置

设备及介质

本专利技术能够在用户输入的检索词不够具体时,可以根据研报图表提供的潜在共现信息,确定于检索词密切相关的关键检索词,基于检索词和关键检索词进行组合以进行后续的检索,以便更准确的检索到用户想要的结果

[0006]为实现上述目的,本专利技术采用的技术方案如下:
[0007]一方面,本专利技术提供一种基于图表共现信息的
EDB
指标检索方法,包括:
[0008]获取研报图表;
[0009]提取研报图表中的文本数据,包括图表标题名称

图例标注以及
EDB
指标;
[0010]从研报图表对应的文本数据中抽取关键词,并识别各关键词所对应的
EDB
指标维度类型;
[0011]将研报图表对应的关键词合并在一起作为统计共现语料;
[0012]基于大量研报图表对应的统计共现语料,统计关键词在不同
EDB
指标维度类型下,与其他关键词的共现频次,构建关键词共现情况统计数据表;
[0013]输入待检索词,获得所述待检索词在所述关键词共现情况统计数据表中与不同
EDB
指标维度类型下的各关键词的共现频次排序,基于共现频次排序确定不同
EDB
指标维度类型下的关键检索词;
[0014]基于所述关键检索词构建待检索词

关键检索词组合,以所述待检索词

关键检索词组合进行检索

[0015]由于待检索词和至少一个关键检索词组合,其组合数量是非常多的,为了确保更快

更准的检索到用户感兴趣的答案,进一步缩小检索范围,提炼更精准的检索词用于检索,进一步地,本专利技术还包括:
[0016]确定不同
EDB
指标维度类型下的相关
EDB
指标,将待检索词和不同
EDB
指标维度类型下的相关
EDB
指标组合在一起后向量化,得到待检索词

相关
EDB
指标组合向量;
[0017]获得一系列的待检索词

关键检索词组合,其中待检索词

关键检索词组合由至少一个关键检索词与所述待检索词合并而成,将各待检索词

关键检索词组合向量化,得到一系列的待检索词

关键检索词组合向量;
[0018]计算各待检索词

关键检索词组合向量与待检索词

相关
EDB
指标组合向量的相似度;
[0019]以相似度最高的待检索词

关键检索词组合向量所对应的待检索词

关键检索词组合进行检索

[0020]进一步地,本专利技术基于训练好的
EDB
指标维度识别模型从各研报图表对应的文本数据中抽取关键词,并识别各关键词所对应的
EDB
指标维度类型

将研报图表中的文本数据输入所述训练好的
EDB
指标维度识别模型,得到文本数据中的关键词以及关键词对应的
EDB
指标维度类型

[0021]进一步地,本专利技术所述
EDB
指标维度识别模型的训练方法,包括:
[0022]获取原始研报图表;
[0023]对各原始研报图表进行人工标注,包括:根据原始研报图表中的文本数据,包括图表标题名称

图例标注以及
EDB
指标,提取关键词并标注关键词的
EDB
指标维度类型;
[0024]将文本数据

文本数据中的关键词以及关键词对应的
EDB
指标维度类型作为训练样本输入
UIE
模型进行训练,得到训练好的
EDB
指标维度识别模型

[0025]进一步地,本专利技术所述
EDB
指标维度类型根据检索需求进行划分,包括但不限于主题名称

指标

统计口径

统计期间

统计区域或
/
和企业

[0026]另一方面,本专利技术提供一种基于图表共现信息的
EDB
指标检索装置,包括:
[0027]收集模块,获取研报图表;
[0028]提取模块,提取研报图表中的文本数据,包括图表标题名称

图例标注以及
EDB
指标;
[0029]识别模块,从研报图表对应的文本数据中抽取关键词,并识别各关键词所对应的
EDB
指标维度类型;
[0030]合并模块,将研报图表对应的关键词合并在一起作为统计共现语料;
[0031]统计模块,基于大量研报图表对应的统计共现语料,统计关键词在不同
EDB
...

【技术保护点】

【技术特征摘要】
1.
基于图表共现信息的
EDB
指标检索方法,其特征在于,包括:获取研报图表;提取研报图表中的文本数据,包括图表标题名称

图例标注以及
EDB
指标;从研报图表对应的文本数据中抽取关键词,并识别各关键词所对应的
EDB
指标维度类型;将研报图表对应的关键词合并在一起作为统计共现语料;基于大量研报图表对应的统计共现语料,统计关键词在不同
EDB
指标维度类型下,与其他关键词的共现频次,构建关键词共现情况统计数据表;输入待检索词,获得所述待检索词在所述关键词共现情况统计数据表中与不同
EDB
指标维度类型下的各关键词的共现频次排序,基于共现频次排序确定不同
EDB
指标维度类型下的关键检索词;基于所述关键检索词构建待检索词

关键检索词组合,以所述待检索词

关键检索词组合进行检索
。2.
根据权利要求1所述的基于图表共现信息的
EDB
指标检索方法,其特征在于,基于训练好的
EDB
指标维度识别模型从各研报图表对应的文本数据中抽取关键词,并识别各关键词所对应的
EDB
指标维度类型
。3.
根据权利要求2所述的基于图表共现信息的
EDB
指标检索方法,其特征在于,所述
EDB
指标维度识别模型的训练方法,包括:获取原始研报图表;对各原始研报图表进行人工标注,包括:根据原始研报图表中的文本数据,包括图表标题名称

图例标注以及
EDB
指标,提取关键词并标注关键词的
EDB
指标维度类型;将文本数据

文本数据中的关键词以及关键词对应的
EDB
指标维度类型作为训练样本输入
UIE
模型进行训练,得到训练好的
EDB
指标维度识别模型
。4.
根据权利要求1或2或3所述的基于图表共现信息的
EDB
指标检索方法,其特征在于,基于所述关键检索词构建待检索词

关键检索词组合,以所述待检索词

关键检索词组合进行检索,包括:确定不同
EDB
指标维度类型下的相关
EDB
指标,将待检索词和不同
EDB
指标维度类型下的相关
EDB
指标组合在一起后向量化,得到待检索词

相关
EDB
指标组合向量;获得一系列的待检索词

关键检索词组合,其中待检索词

关键检索词组合由至少一个关键检索词与所述待检索词合并而成,将各待检索词

关键检索词组合向量化,得到一系列的待检索词

关键检索词组合向量;计算各待检索词

关键检索词组合向量与待检索词

相关
EDB
指标组合向量的相似度;以相似度最高的待检索词

关键检索词组合向量所对应的待检索词

关键检索词组合进行检索
。5.
根据权利要求4所述的基于图表共现信息的
EDB
指标检索方法,其特征在于,所述相似度为语义相似度
。6.
基于图表共现信息的
EDB
指标检索装置,其特征在于,包括:收集模块,获取研报图表;提取模块,提取研报图表中的文本数据,包括图表标题名称

图例标注以及
EDB
指标;
识别模块,从研报图表对...

【专利技术属性】
技术研发人员:陈华威白雪孙小强
申请(专利权)人:长沙丹渥智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1