一种基于检索式的指标数据图表解读方法技术

技术编号:24683306 阅读:73 留言:0更新日期:2020-06-27 07:57
本发明专利技术公开了一种基于检索式的指标数据图表解读方法,包括:制定指标本体数据格式,并按指定的格式将收集的指标数据统一入库;提取各种指标的图表数据与图表解读信息,并将指标信息中相关信息构建成指标信息结构体,用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,将图表信息、指标信息与指标信息的多阶指纹特征值和指标的相关解读存储入库形成指标本体图表数据解读资源库;从指标数据库中查找指标相关数据构建指标图表模型,根据指标的相关信息构建指标信息结构体,使用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,使用多阶指纹特征值去指标本体图表数据解读资源库中进行检索匹配。

An index data chart interpretation method based on Retrieval

【技术实现步骤摘要】
一种基于检索式的指标数据图表解读方法
本专利技术涉及机器学习和计算机信息处理领域的
,尤其涉及一种基于检索式的指标数据图表解读方法。
技术介绍
随着数据爆炸式增长,每日产生数据不断的增多,以及数据存储的多样化和异构性,数据解读变得越来越困难,面临当今社会日益复杂的需求,如何从这些海量异构性的数据中抽取相关指标的数据,并进行有效、规范化的表示变得越来越困难。另外,信息获取后,传统指标信息的解读是通过人力将相关信息收集到一起,制作成相关指标图表数据,并依靠人的观察和计算来解读指标,这种指标数据图表解读方法需要消耗巨大的人力、物力,且大批量的指标数据解读周期较长,成本较高。因此,对指标数据图表进行智能解读成了越来越迫切的需求。为解决这些问题,本文研制了一套基于指标本体模型的图表解读方法。首先将各种指标数据按统一格式入库,然后根据用户需求生成指标数据图表,并对指标数据图表进行自动解读。
技术实现思路
为解决上述技术问题,本专利技术的目的是提供一种基于检索式的指标数据图表解读方法,该方法对于待解读的指标数据图表,通过计算数据图表相关指标信息多阶指纹特征值,从预先指定的指标数据图表解读库中进行特征匹配,获取与多阶指纹特征值相匹配的指标解读记录,然后从匹配到的指标解读记录中取最优的指标解读记录,将此指标解读记录的图表解读作为最优解读。本专利技术的目的通过以下的技术方案来实现:一种基于检索式的指标数据图表解读方法,包括:A制定指标本体数据格式,并按指定的格式将收集的指标数据统一入库;B提取各种指标的图表数据与图表解读信息,并将指标信息中相关信息构建成指标信息结构体,用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,将图表信息、指标信息与指标信息的多阶指纹特征值和指标的相关解读存储入库形成指标本体图表数据解读资源库;C从指标数据库中查找指标相关数据构建指标图表模型,根据指标的相关信息构建指标信息结构体,使用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,使用多阶指纹特征值去指标本体图表数据解读资源库中进行检索匹配。与现有技术相比,本专利技术的一个或多个实施例可以具有如下优点:该方法对指标数据图表进行智能解读,来解决现有指标数据图表解读耗时费力且无法自动化的问题。附图说明图1是基于检索式的指标数据图表解读方法流程图;图2是实施例提供的贝类产量走势图;图3是实施例提供的贝类产量呈现了上升趋势图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本专利技术作进一步详细的描述。如图1所示,为基于检索式的指标数据图表解读方法,该方法包括以下步骤:步骤10制定指标本体数据格式,并按指定的格式将收集的指标数据统一入库;步骤20从公开出版物中提取各种指标的图表数据与图表解读信息,并将指标信息中相关信息构建成指标信息结构体,使用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,并将图表信息、指标信息与指标信息的多阶指纹特征值和指标的相关解读存储入库形成指标本体图表数据解读资源库;上述Simhash算法分为五个步骤:分词,hash,加权,合并,降维;具体包括:(1)对文本进行分词并去除对全文内容没有影响的词汇,例如介词,副词等。为每个词赋予权重,权重采用词频来计算。权重越大说明该词汇在文中出现次数越多。(2)通过hash函数计算每个词的特征值,并用二进制的0和1组成n-bit签名,使字符串变成一系列数字。(3)在hash值的基础上,给所有特征值进行加权,即W=hash*weight,且遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘。(4)将上述各个特征值的加权结果累加,变成只有一个序列串。(5)对于n-bit签名的累加结果,如果大于0则置1,否则置0,从而得到该语句的Simhash值。步骤30从指标数据库中查找指标相关数据构建指标图表模型,然后根据指标的相关信息构建指标信息结构体,再使用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,使用计算出的多阶指纹特征值去指标本体图表数据解读资源库中进行检索匹配。对匹配的多条指标解读记录取前几条再通过余弦相似度算法进行指标相似度匹配,取相似度最近的记录的解读信息为指标图表模型的解读信息。上述余弦相似度算法主要步骤如下:(1)列出两个指标结构体中的属性值。(2)计算词频。(3)写出词频向量(4)计算两个指标结构体的向量余弦值,其公式如下::上述收集指标本体数据,并将指标本体数据存储在数据库中。制定指标本体数据的格式为:指标名称、类别、地域、时间、单位、数量,并以此结构构建数据库;指标本体数据库结构如下表1;数据库指标记录如表2所示:表1表2上述构建指标本体图表数据解读资源库,制定图表数据解读资源库的结构为:图表名称、指标信息、多阶指纹特征值、解读信息;如表3为图表数据解读资源库数据库结构。表3从公开出版物等资源中提取各种指标的图表数据与图表解读信息,并将相关指标信息计算多阶指纹特征值后一起将解读信息入库。如表4为图表数据解读资源库记录,记录信息如下:表4查看某个指标的数据信息时,从指标数据库中获取指标的相关数据进行建模。比如查看全国贝类产量从2013年到2016年的走势,则根据年份信息、地域信息和指标信息获取相关数据构建折线图。效果图如图2所示:然后,根据指标相关信息构建指标信息结构体:{"名称":"贝类产量","地域":"全国","年份":"2013-2016","单位":"吨"}。然后使用Simhash算法计算此指标信息结构体的多阶指纹特征值。根据计算出的多阶指纹特征值在指标本体图表数据解读资源库中进行记录检索;如表5为特征匹配记录:表5对匹配的记录,我们再取最优解,使用记录中的指标信息结构体和我们构建的指标信息结构体通过余弦相似度算法进行相似度匹配。取最优匹配的解读信息为我们图表的解读信息如图3所示。虽然本专利技术所揭露的实施方式如上,但所述的内容只是为了便于理解本专利技术而采用的实施方式,并非用以限定本专利技术。任何本专利技术所属
内的技术人员,在不脱离本专利技术所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本专利技术的专利保护范围,仍须以所附的权利要求书所界定的范围为准。本文档来自技高网
...

【技术保护点】
1.一种基于检索式的指标数据图表解读方法,其特征在于,所述方法包括:/nA制定指标本体数据格式,并按指定的格式将收集的指标数据统一入库;/nB提取各种指标的图表数据与图表解读信息,并将指标信息中相关信息构建成指标信息结构体,用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,将图表信息、指标信息与指标信息的多阶指纹特征值和指标的相关解读存储入库形成指标本体图表数据解读资源库;/nC从指标数据库中查找指标相关数据构建指标图表模型,根据指标的相关信息构建指标信息结构体,使用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,使用多阶指纹特征值去指标本体图表数据解读资源库中进行检索匹配。/n

【技术特征摘要】
1.一种基于检索式的指标数据图表解读方法,其特征在于,所述方法包括:
A制定指标本体数据格式,并按指定的格式将收集的指标数据统一入库;
B提取各种指标的图表数据与图表解读信息,并将指标信息中相关信息构建成指标信息结构体,用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,将图表信息、指标信息与指标信息的多阶指纹特征值和指标的相关解读存储入库形成指标本体图表数据解读资源库;
C从指标数据库中查找指标相关数据构建指标图表模型,根据指标的相关信息构建指标信息结构体,使用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,使用多阶指纹特征值去指标本体图表数据解读资源库中进行检索匹配。


2.如权利要求1所述的基于检索式的指标数据图表解读方法,其特征在于,所述Simhash算法包括分词,hash,加权,合并与降维;具体包括如下:
(1)对文本进行分词并去除对全文内容...

【专利技术属性】
技术研发人员:申强宾段飞虎陈峰涛赵霖星冯自强张宏伟
申请(专利权)人:同方知网北京技术有限公司同方知网数字出版技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1