一种企业主体属性识别方法、装置及设备制造方法及图纸

技术编号:30692210 阅读:30 留言:0更新日期:2021-11-06 09:26
本说明书实施例公开了一种企业主体属性识别方法、装置及设备。方法包括:获取包含至少一个待识别企业名称的待识别文本;按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;在所述压缩后的文本中定位出所述待识别企业名称的位置信息;基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;确定所述上下文信息中的主体属性关键信息;根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。待识别企业的主体属性信息。待识别企业的主体属性信息。

【技术实现步骤摘要】
一种企业主体属性识别方法、装置及设备


[0001]本申请涉及计算机
,尤其涉及一种企业主体属性识别方法、装置及设备。

技术介绍

[0002]随着社会经济的快速发展,目前,企业数量数以万计,数量众多。企业类型多样化,随着国家对社会信用体系建设的重视,越来越多的企业、金融机构开始重视企业信息的掌握。通过企业信息,调查企业经营状况和企业征信等情况。例如:当前市场上有很多基于企业信息进行企业风险查询、评估、预测以及监测的产品。
[0003]而在基于企业数据为企业进行评估的产品,需要先为各个企业/公司/机构建立企业画像,基于企业画像确定企业的运营情况,在建立企业画像时,需要记录企业有关的事件以及企业在这些事件中的所扮演的“角色”,“角色”可以理解为企业在各个事件中的主体属性。例如,某企业发生了招投标事件,需要知道该企业是采购人还是中标人,或是候选人。再或者某企业与一件处罚事件有关,需要确定该企业是被处罚人还是无关企业。可见,识别企业在各个事件中的“角色”是非常重要的信息。
[0004]因此,需要提供一种更为可靠的企业主体属性识别方案。

技术实现思路

[0005]本说明书实施例提供一种企业主体属性识别方法、装置及设备,以解决现有的企业主体属性识别方法存在的识别效率低以及识别准确率低的问题。
[0006]为解决上述技术问题,本说明书实施例是这样实现的:
[0007]本说明书实施例提供的一种企业主体属性识别方法,包括:
[0008]获取待识别文本;所述待识别文本中包括至少一个待识别企业名称;
[0009]按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;
[0010]在所述压缩后的文本中定位出所述待识别企业名称的位置信息;
[0011]基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;
[0012]确定所述上下文信息中的主体属性关键信息;
[0013]根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。
[0014]本说明书实施例提供的一种企业主体属性识别装置,包括:
[0015]待识别文本获取模块,用于获取待识别文本;所述待识别文本中包括至少一个待识别企业名称;
[0016]文本压缩模块,用于按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;
[0017]待识别企业名称定位模块,用于在所述压缩后的文本中定位出所述待识别企业名称的位置信息;
[0018]上下文信息选取模块,用于基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;
[0019]主体属性关键信息确定模块,用于确定所述上下文信息中的主体属性关键信息;
[0020]主体属性信息识别模块,用于根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。
[0021]本说明书实施例提供的一种企业主体属性识别设备,包括:
[0022]至少一个处理器;以及,
[0023]与所述至少一个处理器通信连接的存储器;其中,
[0024]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
[0025]获取待识别文本;所述待识别文本中包括至少一个待识别企业名称;
[0026]按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;
[0027]在所述压缩后的文本中定位出所述待识别企业名称的位置信息;
[0028]基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;
[0029]确定所述上下文信息中的主体属性关键信息;
[0030]根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。
[0031]本说明书实施例提供的一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现一种企业主体属性识别方法。
[0032]本说明书至少一个实施例能够达到以下有益效果:通过获取包含至少一个待识别企业名称的待识别文本;按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;在所述压缩后的文本中定位出所述待识别企业名称的位置信息;基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;确定所述上下文信息中的主体属性关键信息;根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。通过上述方法,预先对待会识别文本按照预设压缩规则进行压缩,得到压缩后的文本,并在压缩后的文本中选取上下文,能够在保证上下文信息中包含识别待识别企业主体属性的关键信息的同时,减少上下文的内容信息,即选取出一个较少字数范围内并包含判断待识别企业的主体属性的关键信息的上下文,避免资源内存占用较大的缺陷,提升企业主体属性识别效率以及识别准确率。
附图说明
[0033]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0034]图1为本说明书实施例提供的一种企业主体属性识别方法的流程示意图;
[0035]图2为本说明书实施例提供的一种上下文选取方法的流程示意图;
[0036]图3为本说明书实施例提供的一种企业主体属性识别装置的结构示意图;
[0037]图4为本说明书实施例提供的一种企业主体属性识别设备的结构示意图。
具体实施方式
[0038]为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合
本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
[0039]以下结合附图,详细说明本说明书各实施例提供的技术方案。
[0040]对于用于企业识别的产品,例如:一些用于识别企业风险、信用、运营情况等信息的应用程序或者小程序。这些产品需要先识别各企业在各个事件中的主体属性。前述提到的事件,可以包括:招投标事件、处罚事件、风险事件、舆情事件等等。可以识别出企业在这些事件中所扮演的“角色”,即主体属性。
[0041]现有技术中,常用的主体属性识别方案分两步,第一步做命名实体识别,用规则或算法的方法把一篇事件文章中的所有企业识别出来;第二步是做企业“角色”分类,在事件文章中定位到该企业,选取上下文,基于上下文使用规则或算法来判断该企业的主体属性。
[0042]但是,在选择上下文时,一般会使用全文作为该企业的上下文进行分类判断。这类选取上下文的方法,一定可以包含判断企业角色的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业主体属性识别方法,包括:获取待识别文本;所述待识别文本中包括至少一个待识别企业名称;按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;在所述压缩后的文本中定位出所述待识别企业名称的位置信息;基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;确定所述上下文信息中的主体属性关键信息;根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。2.根据权利要求1所述的方法,所述按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本,具体包括:将所述待识别文本中的数字与标点符号替换为第一标识符;判断是否存在连续的第一标识符;当存在连续的第一标识符时,将所述连续的第一标识符替换为一个第一标识符,得到压缩后的文本。3.根据权利要求2所述的方法,所述判断是否存在连续的第一标识符之后,还包括:当不存在所述连续的第一标识符时,判断任意两个所述第一标识符之间的内容是否是无效信息;所述无效信息包括文字数词、助词或连词;当任意两个所述第一标识符之间的内容是无效信息时,去除所述无效信息,得到所述连续的第一标识符;将所述连续的第一标识符替换为一个第一标识符,得到压缩后的文本。4.根据权利要求1所述的方法,所述按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本,具体包括:确定所述待识别文本中的全部企业名称;将除所述待识别企业名称外的其他企业名称替换为第二标识符;判断是否存在连续的第二标识符;当存在所述连续的第二标识符时,将所述连续的第二标识符替换为一个第二标识符,得到压缩后的文本。5.根据权利要求4所述的方法,所述判断是否存在连续的第二标识符之后,还包括:当不存在所述连续的第二标识符时,判断任意两个所述第二标识符之间的内容是否是无效信息;所述无效信息包括文字数词、助词或连词;当任意两个所述第二标识符之间的内容是无效信息时,去除无效信息,得到所述连续的第二标识符;将所述连续的第二标识符替换为一个第二标识符,得到压缩后的文本。6.根据权利要求1所述的方法,所述按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本,具体包括:将所述待识别文本中的数字与标点符号替换为第一标识符,得到第一压缩文本;确定所述第一压缩文本中的全部企业名称;将所述第一压缩文本中除所述待识别企业名称外的其他企业名称替换为第二标识符,得到第二压缩文本;将所述第二压缩文本中的无效信息去除,得到第三压缩文本;所述无效信息包括文字
数词、助词或连词;将所述第三压缩文本中连续的第一标识符替换为一个第一标识符,得到第四压缩文本;将所述第四压缩文本中连续的第二标识符替换为一个第二标识符,得到压缩后的文本。7.根据权利要求1所述的方法,所述基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息,具体包括:在所述压缩后的文本中,基于所述待识别文本的所在位置,向前连续选取预设字数的文本,向后连续选取预设字数的文本,得到上下文信息;所述上下文信息中包含待识别企业名称。8.根据权利要求1所述的方法,所述确定所述上下文信息中的主体属性关键信息,具体包括:确定所述待识别文本的文本类型信息;基于所述文本类型信息确定预存的所述文本类型信息对应的主体属性关键信息集合;遍历所述上下文信息,确定与所述主体属性关键信息集合匹配的主体属性关键信息。9.根据权利要求3、5

6中任一项所述的方法,所述无效信息预先存储在服务器中,所述无效信息为预先训练的词性标注工具或字典中包含的信息。10.一种企业主体属性识别装置,包括:待识别文本获取模块,用于获取待识别文本;所述待识别文本中包括至少一个待识别企业名称;文本压缩模块,用于按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;待识别企业名称定位模块,用于在所述压缩后的文本中定位出所述待识别企业名称的位置信息;上下文信息选取模块,用于基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;主体属性关键信息确定模块,用于确定所述上下文信息中的主体属性关键信息;主体属性信息识别模块,用于根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。11.根据权利...

【专利技术属性】
技术研发人员:罗晓天
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1