【技术实现步骤摘要】
一种企业主体属性识别方法、装置及设备
[0001]本申请涉及计算机
,尤其涉及一种企业主体属性识别方法、装置及设备。
技术介绍
[0002]随着社会经济的快速发展,目前,企业数量数以万计,数量众多。企业类型多样化,随着国家对社会信用体系建设的重视,越来越多的企业、金融机构开始重视企业信息的掌握。通过企业信息,调查企业经营状况和企业征信等情况。例如:当前市场上有很多基于企业信息进行企业风险查询、评估、预测以及监测的产品。
[0003]而在基于企业数据为企业进行评估的产品,需要先为各个企业/公司/机构建立企业画像,基于企业画像确定企业的运营情况,在建立企业画像时,需要记录企业有关的事件以及企业在这些事件中的所扮演的“角色”,“角色”可以理解为企业在各个事件中的主体属性。例如,某企业发生了招投标事件,需要知道该企业是采购人还是中标人,或是候选人。再或者某企业与一件处罚事件有关,需要确定该企业是被处罚人还是无关企业。可见,识别企业在各个事件中的“角色”是非常重要的信息。
[0004]因此,需要提供一种更为可靠的企业主体属性识别方案。
技术实现思路
[0005]本说明书实施例提供一种企业主体属性识别方法、装置及设备,以解决现有的企业主体属性识别方法存在的识别效率低以及识别准确率低的问题。
[0006]为解决上述技术问题,本说明书实施例是这样实现的:
[0007]本说明书实施例提供的一种企业主体属性识别方法,包括:
[0008]获取待识别文本;所述待识别文本中包括至少 ...
【技术保护点】
【技术特征摘要】
1.一种企业主体属性识别方法,包括:获取待识别文本;所述待识别文本中包括至少一个待识别企业名称;按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;在所述压缩后的文本中定位出所述待识别企业名称的位置信息;基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;确定所述上下文信息中的主体属性关键信息;根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。2.根据权利要求1所述的方法,所述按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本,具体包括:将所述待识别文本中的数字与标点符号替换为第一标识符;判断是否存在连续的第一标识符;当存在连续的第一标识符时,将所述连续的第一标识符替换为一个第一标识符,得到压缩后的文本。3.根据权利要求2所述的方法,所述判断是否存在连续的第一标识符之后,还包括:当不存在所述连续的第一标识符时,判断任意两个所述第一标识符之间的内容是否是无效信息;所述无效信息包括文字数词、助词或连词;当任意两个所述第一标识符之间的内容是无效信息时,去除所述无效信息,得到所述连续的第一标识符;将所述连续的第一标识符替换为一个第一标识符,得到压缩后的文本。4.根据权利要求1所述的方法,所述按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本,具体包括:确定所述待识别文本中的全部企业名称;将除所述待识别企业名称外的其他企业名称替换为第二标识符;判断是否存在连续的第二标识符;当存在所述连续的第二标识符时,将所述连续的第二标识符替换为一个第二标识符,得到压缩后的文本。5.根据权利要求4所述的方法,所述判断是否存在连续的第二标识符之后,还包括:当不存在所述连续的第二标识符时,判断任意两个所述第二标识符之间的内容是否是无效信息;所述无效信息包括文字数词、助词或连词;当任意两个所述第二标识符之间的内容是无效信息时,去除无效信息,得到所述连续的第二标识符;将所述连续的第二标识符替换为一个第二标识符,得到压缩后的文本。6.根据权利要求1所述的方法,所述按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本,具体包括:将所述待识别文本中的数字与标点符号替换为第一标识符,得到第一压缩文本;确定所述第一压缩文本中的全部企业名称;将所述第一压缩文本中除所述待识别企业名称外的其他企业名称替换为第二标识符,得到第二压缩文本;将所述第二压缩文本中的无效信息去除,得到第三压缩文本;所述无效信息包括文字
数词、助词或连词;将所述第三压缩文本中连续的第一标识符替换为一个第一标识符,得到第四压缩文本;将所述第四压缩文本中连续的第二标识符替换为一个第二标识符,得到压缩后的文本。7.根据权利要求1所述的方法,所述基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息,具体包括:在所述压缩后的文本中,基于所述待识别文本的所在位置,向前连续选取预设字数的文本,向后连续选取预设字数的文本,得到上下文信息;所述上下文信息中包含待识别企业名称。8.根据权利要求1所述的方法,所述确定所述上下文信息中的主体属性关键信息,具体包括:确定所述待识别文本的文本类型信息;基于所述文本类型信息确定预存的所述文本类型信息对应的主体属性关键信息集合;遍历所述上下文信息,确定与所述主体属性关键信息集合匹配的主体属性关键信息。9.根据权利要求3、5
‑
6中任一项所述的方法,所述无效信息预先存储在服务器中,所述无效信息为预先训练的词性标注工具或字典中包含的信息。10.一种企业主体属性识别装置,包括:待识别文本获取模块,用于获取待识别文本;所述待识别文本中包括至少一个待识别企业名称;文本压缩模块,用于按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;待识别企业名称定位模块,用于在所述压缩后的文本中定位出所述待识别企业名称的位置信息;上下文信息选取模块,用于基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;主体属性关键信息确定模块,用于确定所述上下文信息中的主体属性关键信息;主体属性信息识别模块,用于根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。11.根据权利...
【专利技术属性】
技术研发人员:罗晓天,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。