The invention discloses a business change analysis method based on entity extraction, which includes the following steps: defining the entity category and attribute structure of training samples; preparing and bidding the training sample corpus; using the combination of bidirectional long-term and short-term memory network and conditional random field to train entity attribute extraction model; extracting entity attributes before and after the change of the target user; and extracting entity attributes before and after the change of the target user; The present invention adopts the combination of bidirectional long-term and short-term memory network and conditional random field to construct the entity attribute extraction model and extract the entity information of the target enterprise, so as to realize the analysis of the business change of the target enterprise; it avoids the traditional method. Rules and probabilistic statistics have the disadvantages of incomplete coverage of rules, heavy workload of preparing corpus and inability to analyze long text.
【技术实现步骤摘要】
一种基于实体抽取的工商变更分析方法
本专利技术属于数据处理
,具体涉及一种基于实体抽取的工商变更分析方法。
技术介绍
根据《中华人民共和国公司法》规定,企业在经营期间有信息变动的可向公司登记机关申请变更登记,因此,当我们想了解一个企业或者公司的真实经营状况,可以从这个企业或者公司的工商变更情况入手。例如,当这个企业或者公司高管纷纷离职,就有可能说明这个企业或者公司正遭遇人事变动危机,可以对其进行关注和预警。现有技术主要采用基于规则工商变更分析。其使用纯规则的方法进行工商变更信息的抽取,但是由于目前工商变更的数据源比较多,数据本身比较混乱,没有一个统一的规范,同一种变更类型可能有很多种数据格式。这就对规则的覆盖有很大的要求,而我们的规则往往不能覆盖所有的样例,这就使得利用纯规则的方法进行分析会产生很多问题,比如:抽取出来的人名或者机构名错误,漏抽数据等,这样对最后的结果会有很大的影响。再者就是这个规则的复杂度会很高,因为会涉及到人名、机构名的识别,所以使用纯规则进行分析会导致效率低下。
技术实现思路
为了解决现有技术存在的上述问题,本专利技术目的在于提供一种基于实体抽取的工商变更分析方法。本专利技术所采用的技术方案为:一种基于实体抽取的工商变更分析方法包括如下步骤:定义训练样本的实体类别和属性结构;训练样本语料的准备和打标;采用双向长短期记忆网络和条件随机场的结合,训练实体属性抽取模型;将目标用户变更前和变更后的工商文本数据输入实体属性抽取模型中,抽取出目标用户变更前和变更后的实体属性;对抽取出的目标用户变更前和变更后的实体属性进行横向分析,获得该目标用户 ...
【技术保护点】
1.一种基于实体抽取的工商变更分析方法,其特征在于,包括如下步骤:定义训练样本的实体类别和属性结构;训练样本语料的准备和打标;采用双向长短期记忆网络和条件随机场的结合,训练实体属性抽取模型;将目标用户变更前和变更后的工商文本数据输入实体属性抽取模型中,抽取出目标用户变更前和变更后的实体属性;对抽取出的目标用户变更前和变更后的实体属性进行横向分析,获得该目标用户的工商变更情况。
【技术特征摘要】
1.一种基于实体抽取的工商变更分析方法,其特征在于,包括如下步骤:定义训练样本的实体类别和属性结构;训练样本语料的准备和打标;采用双向长短期记忆网络和条件随机场的结合,训练实体属性抽取模型;将目标用户变更前和变更后的工商文本数据输入实体属性抽取模型中,抽取出目标用户变更前和变更后的实体属性;对抽取出的目标用户变更前和变更后的实体属性进行横向分析,获得该目标用户的工商变更情况。2.根据权利要求1所述的基于实体抽取的工商变更分析方法,其特征在于,所述定义训练样本的实体类别和属性结构包括:定义实体类别包括机构名和人名;定义属性字段为类型字段、起始位字段、截止位字段和主体字段中的一种或多种。3.根据权利要求1所述的基于实体抽取的工商变更分析方法,其特征在于,所述训练样本语料的准备和打标包括标注机构名起始位标签、机构名中间标签、机构名结束位标签、人名起始位标签、人名中间标签、人名结束位标签、其他文字标签。4.根据权利要求1所述的基于实体抽取的工商变更分析方法,其特征在于,所述训练实体属性抽取模型包括如下步骤:1)将训练样本语料按字进行标注,作为输入文本进行one-hot编码,得到one-hot编码后的输入文本矩阵[N*max_seq];2)将one-hot编码后的输入...
【专利技术属性】
技术研发人员:刘德彬,陈玮,孙世通,严维,严开,
申请(专利权)人:重庆誉存大数据科技有限公司,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。