目标数据的生成方法、装置、介质、设备及产品制造方法及图纸

技术编号:37548541 阅读:24 留言:0更新日期:2023-05-12 16:25
本说明书实施例提供一种目标数据的生成方法、目标数据的生成装置、计算机可读存储介质、电子设备以及计算机程序产品,该方法包括:通过计算设备获取包含关于行业发展观点的语义特征的目标语句,然后从目标语句中获取目标实体,其中,目标实体的类型包括:主体类、观点类以及趋势类中的一种或多种。进一步地,根据不同类型的目标实体之间的关系,确定目标实体元组,其中,目标实体元组中的观点类实体与景气语义相关。接下来根据目标实体元组中所包含的主体类实体和趋势类实体,生成上述目标数据。据。据。

【技术实现步骤摘要】
目标数据的生成方法、装置、介质、设备及产品


[0001]本说明书涉及数据分析
,尤其涉及一种目标数据的生成方法、目标数据的生成装置、计算机可读存储介质、电子设备以及计算机程序产品。

技术介绍

[0002]企业与其所在的行业是点与面的关系,行业的现状及前景很大程度上决定了企业的收益与发展。如何量化行业当前发展的景气状况,对于任何进行行业研究的机构都极为重要。
[0003]相关技术中,根据企业家对本企业所在行业当前经济运行态势作出的定性判断,以及对未来发展变化作出的定性预期,进而根据导航树定性判断以及定性预期编制的该行业的景气指数
[0004]但是,该相关技术提供的行业景气指数生成方案中,需要通过对企业主进行问卷调查或者当面访谈,耗时耗力,不具有拓展性,且极度依赖企业主的主观判断。可见,通过该方案编制景气指数所需周期长,不具备时效性,同时准确度不能保证。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本说明书的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本说明书的目的在于提供一种目标数据的生成方法、目标数据的生成装置、计算机可读存储介质、电子设备以及计算机程序产品,具有时效性强且准确度高的技术效果。
[0007]本说明书的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本说明书的实践而习得。
[0008]根据本说明书的一个方面,提供一种目标数据的生成方法,该方法包括:获取目标语句,其中,上述目标语句中包含关于行业发展观点的语义特征;获取上述目标语句所包含的目标实体,上述目标实体的类型包括:主体类、观点类以及趋势类中的一种或多种;根据不同类型的目标实体之间的关系,确定目标实体元组,其中,上述目标实体元组中的观点类实体与景气语义相关;以及,根据上述目标实体元组中所包含的主体类实体和趋势类实体,生成上述目标数据。
[0009]在示例性的实施例中,基于前述方案,上述获取目标语句,包括:收集行业分析文件作为原始文件,并从上述原始文件中提取原始文本;对上述原始文本进行切分,得到多个原始语句;以及,基于语义识别模型,从上述多个原始语句中确定出目标语句。
[0010]在示例性的实施例中,基于前述方案,上述获取上述目标语句所包含的目标实体,包括:将上述目标语句进行表征化处理,得到上述目标语句对应的目标向量;以及,将上述目标向量分别输入至第一命名实体识别NER模型、第二NER模型以及第三NER模型,分别得到上述目标语句中包含的主体类实体、观点类实体和趋势类实体。
[0011]在示例性的实施例中,基于前述方案,上述根据不同类型的目标实体之间的关系,
确定目标实体元组,包括:通过拼接和/或覆盖的方式,处理上述目标语句中包含多个目标实体,得到上述目标语句对应的多个子组,其中,每个上述子组中包含两个类别不同的实体;通过要素关系预测模型,确定上述多个子组分别对应的关系值;根据上述多个子组分别对应的关系值,确定多个实体元组,其中,每个实体元组中包括:主体类实体、观点类实体以及趋势类实体;以及,根据上述实体元组中的观点类实体的语义特征,在上述多个实体元组筛选出目标实体元组。
[0012]在示例性的实施例中,基于前述方案,上述根据上述目标实体元组中所包含的主体类实体和趋势类实体,生成上述目标数据,包括:根据上述目标实体元组中所包含的主体类实体,对上述目标实体元组进行聚合处理,得到N个行业分别对应的N个类,N取值为正整数;以及,根据第i个类中目标实体元组中所包含的趋势类实体,确定关于第i个行业的目标数据,i取值为不大于N的正整数。
[0013]在示例性的实施例中,基于前述方案,上述根据上述目标实体元组中所包含的主体类实体,对上述目标实体元组进行聚合处理,得到N个行业分别对应的N个类,包括:将上述目标实体元组中所包含的主体类实体进行链指,得到被链指的N个标准行业实体;以及,根据上述N个标准行业实体,对上述目标实体元组进行聚合处理,得到N个行业分别对应的N个类。
[0014]在示例性的实施例中,基于前述方案,上述根据第i个类中目标实体元组中所包含的趋势类实体,确定关于第i个行业的目标数据,包括:将上述第i类中目标实体元组所包含的趋势类实体,与预设趋势实体词典中的标准趋势实体进行链指,其中,上述预设趋势实体词典中的每个标准趋势实体均对应一量化分数;以及,根据被联指的标准趋势实体分别对应的量化分数,确定关于第i个行业的目标数据。
[0015]在示例性的实施例中,基于前述方案,上述根据上述目标实体元组中所包含的主体类实体和趋势类实体,生成上述目标数据,包括:根据上述目标实体元组中所包含的主体类实体,对上述目标实体元组进行聚合处理,得到M个子行业分别对应的M个类,M取值为正整数,上述M个子行业均属于目标行业;根据第j个类中目标实体元组中所包含的趋势类实体,确定关于第j个子行业的目标数据,j取值为1至M之间且包括1和M的整数;以及,根据M个子行业的目标数据,确定关于上述目标行业的目标数据。
[0016]根据本说明书的另一个方面,提供一种目标数据的生成装置,该装置包括:语句获取模块、实体获取模块、元组确定模块,以及目标数据生成模块。
[0017]其中,上述语句获取模块,用于获取目标语句,其中,上述目标语句中包含关于行业发展观点的语义特征;上述实体获取模块,用于获取上述目标语句所包含的目标实体,上述目标实体的类型包括:主体类、观点类以及趋势类中的一种或多种;上述元组确定模块,用于根据不同类型的目标实体之间的关系,确定目标实体元组,其中,上述目标实体元组中的观点类实体与景气语义相关;以及,上述目标数据生成模块,用于根据上述目标实体元组中所包含的主体类实体和趋势类实体,生成目标数据。
[0018]根据本说明书的另一个方面,提供一种电子设备,包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述实施例中的目标数据的生成方法。
[0019]根据本说明书的一个方面,提供一种计算机可读存储介质,上述计算机可读存储
介质中存储有指令,当上述指令在计算机或处理器上运行时,使得上述计算机或处理器执行如上述实施例中的目标数据的生成方法。
[0020]根据本说明书的另一个方面,提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或处理器执行如上述实施例中的目标数据的生成方法。
[0021]本说明书的实施例所提供的目标数据的生成方法、目标数据的生成装置、计算机可读存储介质、电子设备以及计算机程序产品,具备以下技术效果:
[0022]本说明书示例性的实施例提供的方案基于自然语言处理实现关于行业的目标数据(如行业景气指数)的生成,具体地,通过计算设备获取包含关于行业发展观点的语义特征的目标语句,然后从目标语句中获取目标实体,其中,目标实体的类型包括:主体类、观点类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标数据的生成方法,其中,所述方法包括:获取目标语句,其中,所述目标语句中包含关于行业发展观点的语义特征;获取所述目标语句所包含的目标实体,所述目标实体的类型包括:主体类、观点类以及趋势类中的一种或多种;根据不同类型的目标实体之间的关系,确定目标实体元组,其中,所述目标实体元组中的观点类实体与景气语义相关;根据所述目标实体元组中所包含的主体类实体和趋势类实体,生成所述目标数据。2.根据权利要求1所述的方法,其中,所述获取目标语句,包括:收集行业分析文件作为原始文件,并从所述原始文件中提取原始文本;对所述原始文本进行切分,得到多个原始语句;基于语义识别模型,从所述多个原始语句中确定出目标语句。3.根据权利要求1所述的方法,其中,所述获取所述目标语句所包含的目标实体,包括:将所述目标语句进行表征化处理,得到所述目标语句对应的目标向量;将所述目标向量分别输入至第一命名实体识别NER模型、第二NER模型以及第三NER模型,分别得到所述目标语句中包含的主体类实体、观点类实体和趋势类实体。4.根据权利要求1所述的方法,其中,所述根据不同类型的目标实体之间的关系,确定目标实体元组,包括:通过拼接和/或覆盖的方式,处理所述目标语句中包含多个目标实体,得到所述目标语句对应的多个子组,其中,每个所述子组中包含两个类别不同的实体;通过要素关系预测模型,确定所述多个子组分别对应的关系值;根据所述多个子组分别对应的关系值,确定多个实体元组,其中,每个实体元组中包括:主体类实体、观点类实体以及趋势类实体;根据所述实体元组中的观点类实体的语义特征,在所述多个实体元组筛选出目标实体元组。5.根据权利要求1至4中任意一项所述的方法,其中,所述根据所述目标实体元组中所包含的主体类实体和趋势类实体,生成所述目标数据,包括:根据所述目标实体元组中所包含的主体类实体,对所述目标实体元组进行聚合处理,得到N个行业分别对应的N个类,N取值为正整数;根据第i个类中目标实体元组中所包含的趋势类实体,确定关于第i个行业的目标数据,i取值为不大于N的正整数。6.根据权利要求5所述的方法,其中,所述根据所述目标实体元组中所包含的主体类实体,对所述目标实体元组进行聚合处理,得到N个行业分别对应的N个类,包括:将所述目标实体元组中所包含的主体类实体进行链指,得到被链...

【专利技术属性】
技术研发人员:孙牧遥
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1