数据分析报告复用方法、装置、设备、介质和程序产品制造方法及图纸

技术编号:36589231 阅读:9 留言:0更新日期:2023-02-04 17:54
本公开提供了一种数据分析报告复用方法,可以应用于人工智能领域及金融技术领域。该方法包括:以段落为单位,提取数据分析报告中的名词;根据名词的出现频率和名词在段落中的位置确定实体对象;获取实体对象对应的标签属性和内容属性,标签属性用于表示分析实体对象的形式,内容属性用于表示分析实体对象的内容;根据标签属性和内容属性构建各段落的段落实体;根据各段落间的层次结构对各段落进行分类,得到分析主题;根据段落实体和分析主题构建知识图谱;根据知识图谱对数据分析报告进行复用。本公开还提供了一种数据分析报告复用装置、设备、存储介质和程序产品。存储介质和程序产品。存储介质和程序产品。

【技术实现步骤摘要】
数据分析报告复用方法、装置、设备、介质和程序产品


[0001]本公开涉及人工智能领域及金融领域,具体地涉及一种数据分析报告复用方法、装置、设备、介质和程序产品。

技术介绍

[0002]伴随数据资产的积累与大数据技术的广泛应用,各行业对数据分析的需求日益旺盛。通过形成科学有效、分析准确的数据报告,可以达到了解事物发展现状、洞察发展趋势等目的。但目前,科学规范、全面准确的数据分析报告仍对撰写人员有一定的知识储备要求,撰写门槛较高,难以满足大量、频繁的数据分析撰写需求。企业等团体培养专门数据分析人才成本较高且以理论居多,产出回报率低。
[0003]目前,相关的数据分析技术方案效率及准确度较低,需要针对特定的业务构建专门的数据分析框架与流程:一方面内容逻辑链相对固化且自动化程度较低,缺乏灵活性。另一方面则无法融合多维分析视角、利用多种工具辅助数据分析。

技术实现思路

[0004]鉴于上述问题,本公开提供了一种数据分析报告复用方法、装置、设备、介质和程序产品,用于至少部分解决以上技术问题。
[0005]根据本公开的第一个方面,提供了一种数据分析报告复用方法,包括:以段落为单位,提取数据分析报告中的名词;根据名词的出现频率和名词在段落中的位置确定实体对象;获取实体对象对应的标签属性和内容属性,标签属性用于表示分析实体对象的形式,内容属性用于表示分析实体对象的内容;根据标签属性和内容属性构建各段落的段落实体;根据各段落间的层次结构对各段落进行分类,得到分析主题;根据段落实体和分析主题构建知识图谱;根据知识图谱对数据分析报告进行复用。
[0006]根据本公开的实施例,以段落为单位,提取数据分析报告中的名词包括:构建词向量;对词向量进行词性标注;提取主语和宾语,得到名词。
[0007]根据本公开的实施例,根据名词的出现频率和名词在段落中的位置确定实体对象包括:获取标签提取模型;将名词输入标签提取模型,得到标签提取模型的节点;根据段落长度设定滑动窗口;根据名词在滑动窗口中的共现次数和名词在段落中的位置计算节点的权重;根据节点的权重确定实体对象。
[0008]根据本公开的实施例,根据名词在滑动窗口中的共现次数和名词在段落中的位置计算节点间边的权重包括:在名词在滑动窗口中共现的情况下,为共现的节点赋予节点间边权重;在名词位于段落的前两句或后两句的情况下,为节点赋予权重。
[0009]根据本公开的实施例,获取实体对象对应的标签属性和内容属性包括:分别获取图表标签属性、数据标签属性、方法标签属性和代码标签属性;其中,图表标签属性为段落对应图表的描述内容、数据维度和可视化方法;数据标签属性为与段落相关联的数据源标签;方法标签属性为段落采用的分析方法和/或分析模型;代码标签属性为段落对应的代码
块。
[0010]根据本公开的实施例,获取图表标签属性包括:建立段落的文本与图表的索引关系;利用卷积神经网络模型对图像进行分类识别,得到图像类别标签;根据索引关系和图像类别标签构建图表标签属性。
[0011]根据本公开的实施例,获取数据标签属性包括:获取预先构建的数据血缘字典;根据段落的文本,从数据血缘字典中匹配出数据源标签,得到数据标签属性。
[0012]根据本公开的实施例,获取方法标签属性包括:采用自然语言处理方法,从段落的文本中获取方法标签属性。
[0013]根据本公开的实施例,获取代码标签属性包括:获取代码注释内容;将段落的文本与代码注释内容进行匹配,得到代码标签属性。
[0014]根据本公开的实施例,根据各段落间的层次结构对各段落进行分类,得到分析主题包括:根据各段落的间隔数计算距离系数,得到上下文关系;抽取目录或大纲,得到各段落的层次关系;根据上下文关系和层次关系对各段落进行分类,得到分析主题。
[0015]根据本公开的实施例,根据知识图谱对数据分析报告进行复用包括:将知识图谱存储到图数据库中;根据图数据库构建搜索引擎;采用搜索引擎搜索数据分析报告的标题,得到与标题对应的段落实体和分析主题;对搜索到的段落实体和分析主题进行直接引用或者生成报告模板。
[0016]本公开的第二方面提供了一种数据分析报告复用装置,包括:名词获取模块,用于以段落为单位,提取数据分析报告中的名词;对象确定模块,用于根据名词的出现频率和名词在段落中的位置确定实体对象;属性获取模块,用于获取实体对象对应的标签属性和内容属性,标签属性用于表示分析实体对象的形式,内容属性用于表示分析实体对象的内容;实体构建模块,用于根据标签属性和内容属性构建各段落的段落实体;主题分类模块,用于根据各段落间的层次结构对各段落进行分类,得到分析主题;图谱构建模块,用于根据段落实体和分析主题构建知识图谱;以及报告复用模块,用于根据知识图谱对数据分析报告进行复用。
[0017]本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例的数据分析报告复用方法。
[0018]本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述任一实施例的数据分析报告复用方法。
[0019]本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一实施例的数据分析报告复用方法。
[0020]与现有技术相比,本公开提供的方法、装置、电子设备、存储介质和程序产品,至少具有以下有益效果:
[0021](1)本公开通过构建结构化的段落实体,并将数据分析报告的各个段落所分析的数据类型进行分类,最终得到结构化的知识图谱,便于后续对数据分析报告的零散化复用。本公开的知识图谱构建方法通用,可以将不同类型的数据分析报告进行结构化整合,降低了数据分析报告的复用门槛,提高了复用效率。
[0022](2)本公开结合数据分析报告的行文特点,将名词的位置信息加入节点间边权重
应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
[0042]本公开实施例提供一种数据分析报告复用方法、装置、设备、介质和程序产品,可用于金融领域或其他领域。需要说明的是本公开的数据分析报告复用方法、装置、设备、介质和程序产品可用于金融领域,也可用于除金融领域之外的任意领域,本公开的数据分析报告复用方法、装置、设备、介质和程序产品的应用领域不做限定。
[0043]在本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
[0044]在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
[0045]图1示意性示出了根据本公开实施例的数据分析报告复用方法、装置、设备、介质和程序产品的应用场景图。
[0046]如图1所示,根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分析报告复用方法,其特征在于,包括:以段落为单位,提取数据分析报告中的名词;根据所述名词的出现频率和所述名词在所述段落中的位置确定实体对象;获取所述实体对象对应的标签属性和内容属性,所述标签属性用于表示分析所述实体对象的形式,所述内容属性用于表示分析所述实体对象的内容;根据所述标签属性和所述内容属性构建各所述段落的段落实体;根据各所述段落间的层次结构对各所述段落进行分类,得到分析主题;根据所述段落实体和所述分析主题构建知识图谱;根据所述知识图谱对所述数据分析报告进行复用。2.根据权利要求1所述的数据分析报告复用方法,其特征在于,所述以段落为单位,提取数据分析报告中的名词包括:构建词向量;对所述词向量进行词性标注;提取主语和宾语,得到所述名词。3.根据权利要求1所述的数据分析报告复用方法,其特征在于,所述根据所述名词的出现频率和所述名词在所述段落中的位置确定实体对象包括:获取标签提取模型;将所述名词输入所述标签提取模型,得到所述标签提取模型的节点;根据段落长度设定滑动窗口;根据所述名词在所述滑动窗口中的共现次数和所述名词在所述段落中的位置计算所述节点的权重;根据所述节点的权重确定所述实体对象。4.根据权利要求3所述的数据分析报告复用方法,其特征在于,所述根据所述名词在所述滑动窗口中的共现次数和所述名词在所述段落中的位置计算节点间边的权重包括:在所述名词在所述滑动窗口中共现的情况下,为共现的所述节点赋予节点间边权重;在所述名词位于所述段落的前两句或后两句的情况下,为所述节点赋予权重。5.根据权利要求1所述的数据分析报告复用方法,其特征在于,所述获取所述实体对象对应的标签属性和内容属性包括:分别获取图表标签属性、数据标签属性、方法标签属性和代码标签属性;其中,所述图表标签属性为所述段落对应图表的描述内容、数据维度和可视化方法;所述数据标签属性为与所述段落相关联的数据源标签;所述方法标签属性为所述段落采用的分析方法和/或分析模型;所述代码标签属性为所述段落对应的代码块。6.根据权利要求5所述的数据分析报告复用方法,其特征在于,所述获取图表标签属性包括:建立所述段落的文本与图表的索引关系;利用卷积神经网络模型对图像进行分类识别,得到图像类别标签;根据所述索引关系和所述图像类别标签构建所述图表标签属性。7.根据权利要求5所述的数据分析报告复用方法,其特征在于,所述获取数据标签属性
包括:获取预先构建的数据血缘字典;根据所述段落的文本,从所述数据血缘字典中匹配出数据源标签,得到所述...

【专利技术属性】
技术研发人员:高兰天胡屹
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1