数据源搜索方法、装置和电子设备制造方法及图纸

技术编号:25948859 阅读:26 留言:0更新日期:2020-10-17 03:40
本发明专利技术提供了一种数据源搜索方法、装置和电子设备,涉及数据处理的技术领域,包括获取目标专家业务领域树和目标机器业务领域树,利用目标专家业务领域树和目标机器业务领域树对目标数据源进行搜索,得到目标数据源的搜索结果。该方法提供了预先构建的目标专家业务领域树和目标机器业务领域树,利用树的结构按照业务逻辑逐层对目标数据源进行搜索,即可得到目标数据源的搜索结果,从而减少了设计人员的计算量,加快了目标数据源的搜索速度,从而有效的缓解了现有技术中的数据源搜索方法存在的搜索效率低的技术问题。

【技术实现步骤摘要】
数据源搜索方法、装置和电子设备
本专利技术涉及数据处理的
,尤其是涉及一种数据源搜索方法、装置和电子设备。
技术介绍
现有技术中的数据源搜索技术依托业务应用为核心进行展开,一般地,若新增业务的数据要求与其它业务无关,则需要分析业务规律,定义数据范围,载入新数据源;如果是数据源已有,则需考虑数据合并过程中是否丢弃现有业务所需数据特征部分,如没有则需要重新载入数据源;或者,若新增业务依托于已有业务的中间数据或输出,则需要各个应用的负责人进行沟通,设计接口,进行调用。显然,上述数据源搜索方法严重依赖设计人员经验,设计人员需要足够专业并经过大量计算才能准确定位所需数据来源,如果数据规模小,人工计算尚且可以完成,但是对于大数据应用场景,上述方法显然不能轻易实现数据源的定位。综上所述,现有技术中的数据源搜索方法存在搜索效率低的技术问题。
技术实现思路
本专利技术的目的在于提供一种数据源搜索方法、装置和电子设备,以缓解了现有技术中的数据源搜索方法存在的搜索效率低的技术问题。第一方面,本专利技术实施例提供一种数据源搜索方法,包括:获取目标专家业务领域树和目标机器业务领域树,其中,所述目标专家业务领域树为基于初始专家业务领域树结合多分类训练得到的树状的数据业务化解释,所述目标机器业务领域树为基于用户的数据搜索行为得到的网状的数据业务化解释;利用所述目标专家业务领域树和目标机器业务领域树对目标数据源进行搜索,得到所述目标数据源的搜索结果。在可选的实施方式中,获取目标专家业务领域树和目标机器业务领域树,包括:获取初始专家业务领域树、所述初始专家业务领域树的所有初始标注对象和用户的数据搜索行为;基于所述初始专家业务领域树和预设数量个初始标注对象构建基础数据分类模型;基于所述基础数据分类模型、目标初始标注对象和专家意见确定目标专家业务领域树,其中,所述目标初始标注对象为所述所有初始标注对象中除所述预设数量个初始标注对象之外的初始标注对象;基于所述用户的数据搜索行为将点击跳转关系转换为数据对象之间的直接相似度;基于所述数据对象之间的直接相似度构建目标机器业务领域树。在可选的实施方式中,基于所述初始专家业务领域树和预设数量个初始标注对象构建基础数据分类模型,包括:基于所述初始专家业务领域树的索引结构中的特征项计算不同数据分类之间的区别特征和相同数据分类的固有特征;基于所述区别特征和所述固有特征对所述初始专家业务领域树的所有树杈节点进行特征标注,得到标注后的专家业务领域树;利用所述标注后的专家业务领域树和预设数量个初始标注对象对初始多分类的逻辑回归模型进行训练,得到目标多分类的逻辑回归模型,其中,所述目标多分类的逻辑回归模型用于确定树杈节点的特征和权重;基于所述树杈节点的特征和权重构建每个数据分类的基础数据分类模型。在可选的实施方式中,基于所述基础数据分类模型、目标初始标注对象和专家意见确定目标专家业务领域树,包括:利用所述基础数据分类模型对所述目标初始标注对象进行特征提取并预测分类,统计每个数据分类条件的命中次数;基于所述每个数据分类条件的命中次数对每个树杈节点的权重进行调整,得到第一数据分类模型;将所述基础数据分类模型和所述第一数据分类模型进行合并,得到第二数据分类模型;基于所述第二数据分类模型中每个树杈节点权重的大小对所述第二数据分类模型进行重构,得到第三数据分类模型;基于专家意见对所述第三数据分类模型进行调整,得到第四数据分类模型;基于所述第四数据分类模型构建对应的专家业务领域树,并对所述对应的专家业务领域树上的所有树杈节点进行特征标注,得到目标专家业务领域树。在可选的实施方式中,基于专家意见对所述第三数据分类模型进行调整,得到第四数据分类模型,包括:去除所述目标初始标注对象的分类标注,得到目标未标注对象;基于所述第三数据分类模型对所述目标未标注对象进行分类预测,得到数据分类结果;基于专家意见对所述数据分类结果进行调整,得到所述第四数据分类模型,其中,所述调整包括:修正树杈节点的特征标注。在可选的实施方式中,基于所述用户的数据搜索行为将点击跳转关系转换为数据对象之间的直接相似度,包括:基于所述用户的数据搜索行为统计展示的数据对象的数量;利用算式计算每个数据对象被随机点击的总次数,其中,n表示所述数据对象的数量,表示用户点击数据对象a跳转后再点击数据对象bi的次数;利用算式计算数据对象之间的直接相似度,其中,f(a,b)表示数据对象a和数据对象b的直接相似度。在可选的实施方式中,基于所述数据对象之间的直接相似度构建目标机器业务领域树,包括:利用算式dist(a,b)=1-ln(f(a,b))将所述数据对象之间的直接相似度转换为数据对象之间的距离;基于所述数据对象之间的距离构建目标机器业务领域树。第二方面,本专利技术实施例提供一种数据源搜索装置,包括:获取模块,用于获取目标专家业务领域树和目标机器业务领域树,其中,所述目标专家业务领域树为基于初始专家业务领域树结合多分类训练得到的树状的数据业务化解释,所述目标机器业务领域树为基于用户的数据搜索行为得到的网状的数据业务化解释;搜索模块,用于利用所述目标专家业务领域树和目标机器业务领域树对目标数据源进行搜索,得到所述目标数据源的搜索结果。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述前述实施方式中任一项所述的方法的步骤。第四方面,本专利技术实施例提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,述程序代码使所述处理器执行前述实施方式中任一项所述的方法。本专利技术提供的数据源搜索方法,包括:获取目标专家业务领域树和目标机器业务领域树,其中,目标专家业务领域树为基于初始专家业务领域树结合多分类训练得到的树状的数据业务化解释,目标机器业务领域树为基于用户的数据搜索行为得到的网状的数据业务化解释;利用目标专家业务领域树和目标机器业务领域树对目标数据源进行搜索,得到目标数据源的搜索结果。现有技术中的数据源搜索方法严重依赖设计人员的专业经验,并且需要大量计算才能准确定位所需数据来源,对于大数据应用场景,将出现搜索时间长,搜索效率低的技术问题。与现有技术相比,本专利技术提供的数据源搜索方法,提供了预先构建的目标专家业务领域树和目标机器业务领域树,利用树的结构按照业务逻辑逐层对目标数据源进行搜索,即可得到目标数据源的搜索结果,从而减少了设计人员的计算量,加快了目标数据源的搜索速度,从而有效的缓解了现有技术中的数据源搜索方法存在的搜索效率低的技术问题。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种数据源搜索方法的流程图;图2为本发本文档来自技高网...

【技术保护点】
1.一种数据源搜索方法,其特征在于,包括:/n获取目标专家业务领域树和目标机器业务领域树,其中,所述目标专家业务领域树为基于初始专家业务领域树结合多分类训练得到的树状的数据业务化解释,所述目标机器业务领域树为基于用户的数据搜索行为得到的网状的数据业务化解释;/n利用所述目标专家业务领域树和目标机器业务领域树对目标数据源进行搜索,得到所述目标数据源的搜索结果。/n

【技术特征摘要】
1.一种数据源搜索方法,其特征在于,包括:
获取目标专家业务领域树和目标机器业务领域树,其中,所述目标专家业务领域树为基于初始专家业务领域树结合多分类训练得到的树状的数据业务化解释,所述目标机器业务领域树为基于用户的数据搜索行为得到的网状的数据业务化解释;
利用所述目标专家业务领域树和目标机器业务领域树对目标数据源进行搜索,得到所述目标数据源的搜索结果。


2.根据权利要求1所述的方法,其特征在于,获取目标专家业务领域树和目标机器业务领域树,包括:
获取初始专家业务领域树、所述初始专家业务领域树的所有初始标注对象和用户的数据搜索行为;
基于所述初始专家业务领域树和预设数量个初始标注对象构建基础数据分类模型;
基于所述基础数据分类模型、目标初始标注对象和专家意见确定目标专家业务领域树,其中,所述目标初始标注对象为所述所有初始标注对象中除所述预设数量个初始标注对象之外的初始标注对象;
基于所述用户的数据搜索行为将点击跳转关系转换为数据对象之间的直接相似度;
基于所述数据对象之间的直接相似度构建目标机器业务领域树。


3.根据权利要求2所述的方法,其特征在于,基于所述初始专家业务领域树和预设数量个初始标注对象构建基础数据分类模型,包括:
基于所述初始专家业务领域树的索引结构中的特征项计算不同数据分类之间的区别特征和相同数据分类的固有特征;
基于所述区别特征和所述固有特征对所述初始专家业务领域树的所有树杈节点进行特征标注,得到标注后的专家业务领域树;
利用所述标注后的专家业务领域树和预设数量个初始标注对象对初始多分类的逻辑回归模型进行训练,得到目标多分类的逻辑回归模型,其中,所述目标多分类的逻辑回归模型用于确定树杈节点的特征和权重;
基于所述树杈节点的特征和权重构建每个数据分类的基础数据分类模型。


4.根据权利要求2所述的方法,其特征在于,基于所述基础数据分类模型、目标初始标注对象和专家意见确定目标专家业务领域树,包括:
利用所述基础数据分类模型对所述目标初始标注对象进行特征提取并预测分类,统计每个数据分类条件的命中次数;
基于所述每个数据分类条件的命中次数对每个树杈节点的权重进行调整,得到第一数据分类模型;
将所述基础数据分类模型和所述第一数据分类模型进行合并,得到第二数据分类模型;
基于所述第二数据分类模型中每个树杈节点权重的大小对所述第二数据分类模型进行重构,得到第三数据...

【专利技术属性】
技术研发人员:戴曦
申请(专利权)人:华青融天北京软件股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1