一种基于实体抽取的工商变更分析方法技术

技术编号:20448888 阅读:31 留言:0更新日期:2019-02-27 02:58
本发明专利技术公开了一种基于实体抽取的工商变更分析方法包括如下步骤:定义训练样本的实体类别和属性结构;训练样本语料的准备和打标;采用双向长短期记忆网络和条件随机场的结合,训练实体属性抽取模型;抽取出目标用户变更前和变更后的实体属性;对抽取出的目标用户变更前和变更后的实体属性进行横向分析,获得该目标用户的工商变更情况;本发明专利技术采用双向长短期记忆网络和条件随机场的结合,构建实体属性抽取模型,对目标企业实体信息进行抽取,从而实现对目标企业工商变更情况进行分析;避免了采用传统的规则和概率统计方法而出现规则覆盖不全、准备语料工作量大且无法对长文本进行分析的缺点。

A Business Change Analysis Method Based on Entity Extraction

The invention discloses a business change analysis method based on entity extraction, which includes the following steps: defining the entity category and attribute structure of training samples; preparing and bidding the training sample corpus; using the combination of bidirectional long-term and short-term memory network and conditional random field to train entity attribute extraction model; extracting entity attributes before and after the change of the target user; and extracting entity attributes before and after the change of the target user; The present invention adopts the combination of bidirectional long-term and short-term memory network and conditional random field to construct the entity attribute extraction model and extract the entity information of the target enterprise, so as to realize the analysis of the business change of the target enterprise; it avoids the traditional method. Rules and probabilistic statistics have the disadvantages of incomplete coverage of rules, heavy workload of preparing corpus and inability to analyze long text.

【技术实现步骤摘要】
一种基于实体抽取的工商变更分析方法
本专利技术属于数据处理
,具体涉及一种基于实体抽取的工商变更分析方法。
技术介绍
根据《中华人民共和国公司法》规定,企业在经营期间有信息变动的可向公司登记机关申请变更登记,因此,当我们想了解一个企业或者公司的真实经营状况,可以从这个企业或者公司的工商变更情况入手。例如,当这个企业或者公司高管纷纷离职,就有可能说明这个企业或者公司正遭遇人事变动危机,可以对其进行关注和预警。现有技术主要采用基于规则工商变更分析。其使用纯规则的方法进行工商变更信息的抽取,但是由于目前工商变更的数据源比较多,数据本身比较混乱,没有一个统一的规范,同一种变更类型可能有很多种数据格式。这就对规则的覆盖有很大的要求,而我们的规则往往不能覆盖所有的样例,这就使得利用纯规则的方法进行分析会产生很多问题,比如:抽取出来的人名或者机构名错误,漏抽数据等,这样对最后的结果会有很大的影响。再者就是这个规则的复杂度会很高,因为会涉及到人名、机构名的识别,所以使用纯规则进行分析会导致效率低下。
技术实现思路
为了解决现有技术存在的上述问题,本专利技术目的在于提供一种基于实体抽取的工商变更分析方法。本专利技术所采用的技术方案为:一种基于实体抽取的工商变更分析方法包括如下步骤:定义训练样本的实体类别和属性结构;训练样本语料的准备和打标;采用双向长短期记忆网络和条件随机场的结合,训练实体属性抽取模型;将目标用户变更前和变更后的工商文本数据输入实体属性抽取模型中,抽取出目标用户变更前和变更后的实体属性;对抽取出的目标用户变更前和变更后的实体属性进行横向分析,获得该目标用户的工商变更情况。进一步,所述定义训练样本的实体类别和属性结构包括:定义实体类别包括机构名和人名;定义属性字段为类型字段、起始位字段、截止位字段和主体字段中的一种或多种。更进一步,所述训练样本语料的准备和打标包括标注机构名起始位标签、机构名中间标签、机构名结束位标签、人名起始位标签、人名中间标签、人名结束位标签、其他文字标签。更进一步,所述训练实体属性抽取模型包括如下步骤:1)将训练样本语料按字进行标注,作为输入文本进行one-hot编码,得到one-hot编码后的输入文本矩阵[N*max_seq];2)将one-hot编码后的输入文本矩阵[N*max_seq]输入到Embedding层中,得到词向量三维矩阵[N*max_seq*embedding_size];3)将词向量三维矩阵[N*max_seq*embedding_size]输入到BiLSTM网络中,得到关于标签类别的概率分布发射矩阵[N*max_seq*num_tag];4)将关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]输入到条件随机场中,训练出状态转移矩阵[num_tag*num_tag]。更进一步,所述实体属性包括人名、机构名和职位信息。更进一步,所述目标用户的工商变更情况包括:1)若某个人或机构在变更前存在,但在变更后不再存在,则定义该个人或机构退出了该公司。2)若某个人或机构在变更前不存在,但在变更后存在,则定义该个人可机构加入了该公司。3)若某个人在变更前和变更后均存在,但其职位信息发生了变化,则定义该个人属于信息变更。更进一步,所述训练实体属性抽取模型步骤中,还包括对所训练的实体属性抽取模型进行模型评分和模型优化的步骤。本专利技术的有益效果为:本专利技术采用双向长短期记忆网络(BidirectionalLSTM,BiLSTM)和条件随机场(conditionalrandomfields)的结合,构建实体属性抽取模型,对目标企业实体信息进行抽取,从而实现对目标企业工商变更情况进行分析;BiLSTM可自己学习文本之间的信息,不再需要复杂的特征工程,且对长文本有很好的支持,避免了采用传统的规则和概率统计方法而出现规则覆盖不全、准备语料工作量大且无法对长文本进行分析的缺点;而加入条件随机场则更能够利用文本这间的相互信息,使其生成的结果更可靠。附图说明图1为本专利技术流程图。具体实施方式下面结合附图及具体实施例对本专利技术作进一步阐述。一种基于实体抽取的工商变更分析方法,包括如下步骤:S101、定义训练样本的实体类别和属性结构。实体类别可以是机构名(ORG)和人名(PER)。针对每一类实体,定义其标准化的属性结构。在一示例性实施例中,定义人名/机构名的属性结构为:S102、训练样本语料的准备和打标。在一示例性实施例中,字标注规范和含义如下:B-ORG代表机构名起始位标签I-ORG代表机构名中间标签E-ORG代表机构名结束位标签B-PER代表人名起始位标签I-PER代表人名中间标签E-PER代表人名结束位标签B-POS代表职位起始位标签I-POS代表职位中间标签E-POS代表职位结束位标签O代表其他文字按以上规范,完成训练样本每个字的打标。语料打标完成后,后续程序可以理解文本中实体的含义,方便机器对文本进行处理。S103、训练实体属性抽取模型。采用双向长短期记忆网络(BidirectionalLSTM,BiLSTM)和条件随机场(conditionalrandomfields)的结合,构建实体属性抽取模型。双向长短期记忆网络(BidirectionalLSTM,BiLSTM)包含前向LSTM与后向LSTM两组模块,可获取上下文长时间长范围的相关联依赖关系,捕获前后文实体特征,获取更多实体之间的时空相关性,并能从两个方向上排除干扰实体等噪声对神经网络模型的影响,极大助力对长期依赖关系的挖掘,提取出对信息抽取及实体关系识别等至关重要的高层语义特征。相对贝叶斯网络,LSTM及其变种的优势是能捕捉到实体间的长序列关系,但其推理能力和可解释性较差。条件随机场(conditionalrandomfields)是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。如马尔可夫随机场,条件随机场为具有无向的图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场中,随机变量Y的分布为条件机率,给定的观察值则为随机变量X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链结式的架构,链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在效率较高的算法可供演算。BiLSTM的优势是能够记住上下文信息,极大助力对长期依赖关系的挖掘,对语义理解有很大的帮助,但如果直接用它来进行标注任务,就会有一个问题,BiLSTM属于时序模型,所以它的输出只针对当前字符,属于局部最优解。而条件随机场则对模板的要求很高,覆盖全面的模板才能够让模型学到很多上下文的信息,但往往会有模板覆盖不全的情况出现。BiLSTM可以获取上下文的信息,但需要的是一个求解的模型,而条件随机场可以生成全局最优解,但它需要上下文的信息,因此,本专利技术结合BiLSTM和条件随机场这两个模型,来构建一个优势互补的完整模型。训练实体属性抽取模型包括如下步骤:1)将训练样本语料按字进行标注,作为输入文本进行one-hot编码,得到one-hot编码后的输入文本矩阵[N*max_seq]。[N*max_seq]矩阵用来训练词向量,本文档来自技高网...

【技术保护点】
1.一种基于实体抽取的工商变更分析方法,其特征在于,包括如下步骤:定义训练样本的实体类别和属性结构;训练样本语料的准备和打标;采用双向长短期记忆网络和条件随机场的结合,训练实体属性抽取模型;将目标用户变更前和变更后的工商文本数据输入实体属性抽取模型中,抽取出目标用户变更前和变更后的实体属性;对抽取出的目标用户变更前和变更后的实体属性进行横向分析,获得该目标用户的工商变更情况。

【技术特征摘要】
1.一种基于实体抽取的工商变更分析方法,其特征在于,包括如下步骤:定义训练样本的实体类别和属性结构;训练样本语料的准备和打标;采用双向长短期记忆网络和条件随机场的结合,训练实体属性抽取模型;将目标用户变更前和变更后的工商文本数据输入实体属性抽取模型中,抽取出目标用户变更前和变更后的实体属性;对抽取出的目标用户变更前和变更后的实体属性进行横向分析,获得该目标用户的工商变更情况。2.根据权利要求1所述的基于实体抽取的工商变更分析方法,其特征在于,所述定义训练样本的实体类别和属性结构包括:定义实体类别包括机构名和人名;定义属性字段为类型字段、起始位字段、截止位字段和主体字段中的一种或多种。3.根据权利要求1所述的基于实体抽取的工商变更分析方法,其特征在于,所述训练样本语料的准备和打标包括标注机构名起始位标签、机构名中间标签、机构名结束位标签、人名起始位标签、人名中间标签、人名结束位标签、其他文字标签。4.根据权利要求1所述的基于实体抽取的工商变更分析方法,其特征在于,所述训练实体属性抽取模型包括如下步骤:1)将训练样本语料按字进行标注,作为输入文本进行one-hot编码,得到one-hot编码后的输入文本矩阵[N*max_seq];2)将one-hot编码后的输入...

【专利技术属性】
技术研发人员:刘德彬陈玮孙世通严维严开
申请(专利权)人:重庆誉存大数据科技有限公司
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1