当前位置: 首页 > 专利查询>南京大学专利>正文

一种面向纯文本的企业实体分类方法技术

技术编号:16270072 阅读:219 留言:0更新日期:2017-09-22 21:44
本发明专利技术公开一种面向纯文本的企业实体分类方法,包括如下步骤:S1、对采集到的纯文本数据中的企业实体进行类别标注,作为企业实体识别模块的训练集;对采集到的纯文本数据中的企业实体按照行业性质进行类别标注,以作为企业实体分类模块的训练样本集;S2、通过条件随机场模型进行企业实体识别模型训练,并得到企业实体识别模型;S3、对原始训练集的文本数据进行语义向量化构建;S4、将经语义向量化后的有类别标注的训练集数据作为训练参数训练出企业实体分类模型;S5、利用企业实体分类模型对待预测文本中的企业实体进行分类。该方法用得到的语义向量作为实体的特征,减少对人工特征和外部数据的依赖,并且通用性和健壮性得到保证。

【技术实现步骤摘要】
一种面向纯文本的企业实体分类方法
本专利技术属于命名实体识别和细粒度实体分类
,具体涉及一种面向纯文本的企业实体分类方法。
技术介绍
近年来,随着“互联网金融”的热潮,越来越多的企业决策者迫切需要利用更先进的信息处理方式来对海量的互联网数据进行抽取和分析,以便做出更好的决策。在这些海量数据之中,法院文书类、新闻舆情类等纯文本数据成为企业获取高价值信息的首要来源。命名实体识别技术是企业进行实体语义分析,实体关系抽取等工作的基础。目前主流的命名实体识别技术只是将实体分为人名、地名、机构名等,这使得实体的类型缺乏语义。同时,进行实体分类时过多依赖于人工特征和外部数据,使其通用性和健壮性得不到保证。
技术实现思路
本专利技术针对目前主流的命名实体识别技术只是将实体分为人名、地名、机构名等,使得实体的类型缺乏语义。此外,进行实体分类时过多依赖于人工特征和外部数据,使其通用性和健壮性得不到保证。为解决上述问题,本专利技术提出一种面向纯文本的企业实体分类方法,采用企业实体更细粒度的划分方式,并且使用文本本身的语义构建特征,最后进行企业实体的分类。其中,纯文本,即包含企业活动信息的文本,譬如新闻文本、法院文书等。如图1所示,本专利技术所公开的面向纯文本的企业实体分类方法,包括如下步骤:S1、对采集到的纯文本数据中的企业实体进行类别标注,将标注完成的数据作为企业实体识别模块的训练集;对采集到的纯文本数据中的企业实体按照行业性质进行类别标注,将标注完成的数据作为企业实体分类模块的训练样本集;S2、通过条件随机场模型进行企业实体识别模型训练,并得到企业实体识别模型;S3、对原始训练集的文本数据进行语义向量化构建;S4、将经语义向量化后的有类别标注的训练集数据作为训练参数训练出企业实体分类模型;S5、利用企业实体分类模型对待预测文本中的企业实体进行分类。进一步的,S1中,将采集到的纯文本数据进行分句、分词和词性标注,采用人工标注的方法对纯文本数据中的企业实体和行业类别进行标注。进一步的,使用开源的分词和词性标注软件HanLP对纯文本数据进行分句、分词和词性标注。进一步的,对纯文本数据中的企业实体标注方式为“BIO”标记形式,其中,企业实体的起始词标记为“B”,企业实体非起始词的其他部分词语标记为“I”,与企业实体无关的词语标记为“O”。进一步的,采用人工标注的方法中,对纯文本数据中的企业实体依据上下文内容按照行业性质对其进行类别标注。进一步的,S2中,通过引入边界特征的条件随机场模型进行企业实体识别模型训练。进一步的,引入边界特征的条件随机场模型包括:通过HanLP将企业名称分词后整理得到左、右边界词典;使用开源的libSVM训练得到左、右边界的预测模型;依次从训练集中取出词语并通过左、右边界的预测模型来判断该词语是否是左、右边界词;将包括词语本身、词性标注、左右边界标记、实体标注的训练集数据输入开源的条件随机场工具进行企业实体识别模型的训练并得到企业实体的识别模型。进一步的,S3中,使用词向量计算工具得到训练样本集中所有词的词向量,计算训练样本集中所有词的逆文本频率(IDF)值,利用词向量和TF-IDF值计算包含有企业实体语句中的企业实体的向量和上下文向量,将企业实体的向量和上下文向量进行拼接,以得到包含上下文语义的企业实体语义向量。进一步的,使用开源的word2vec工具计算训练集中所有词的词向量。进一步的,S4中,对已经有类别标注的训练集数据使用softmax模型训练出企业实体的分类模型。本专利技术所具有的有益效果如下所述:1)使用词典规则和SVM分类器来预先确定实体的左右边界,之后将判定的左右边界的结果作为新特征引入到条件随机场模型中,本专利技术改进的方法在召回率和F1值上有很大提升。2)使用词嵌入加权的方式,对实体及其上下文进行语义向量化表示,从而使得实体之间的语义可以通过语义向量距离来度量。用得到的语义向量作为实体的特征,减少对人工特征和外部数据的依赖。3)在现有的条件随机场模型中引入实体边界特征,而实体边界特征的引入加强了条件随机场模型对实体边界的控制能力,如识别的召回率有了非常明显的提高,也使其通用性和健壮性得到保证。附图说明图1为本专利技术所公开的面向纯文本的企业实体分类方法流程框图。图2为实施例中的训练集构建流程图。图3为实施例中的基于改进条件随机场的企业实体识别模型训练流程图。图4为实施例中的基于词向量和TF-IDF值加权的实体语义向量构建流程图。图5为企业实体分类模型训练流程图。图6为企业实体分类流程图。具体实施方式为了更了解本专利技术的
技术实现思路
,特举一具体的面向法院文书的企业实体分类方法实施例并配合所附图式说明如下。如图2所示,本专利技术在实施之前先构建训练样本集。实施例中构建训练样本集的过程如下:步骤1-0、建立训练集的起始状态。步骤1-1、使用网络爬虫工具从互联网中采集法院文书,作为原始语料库。步骤1-2、对采集得到的文书数据,使用开源的分词和词性标注软件HanLP对文书文本进行分句、分词和词性标注。当然,一般的开源分词软件都可以使用,譬如中科院分词等等,实施例中选用的HanLP软件相较于目前的开源分词软件来说分词的效果相对更好,并且可以人工定制词典,也更方便。步骤1-3、由于文本中的企业实体词(即是企业的名称,主要包括全称和简称两种形式)经分词后会切分为多个词,所以需要通过人工标注的方法,将文书文本中的企业实体标注出来,标注的方式为“BIO”标记形式,即企业实体的起始词标记为“B”,企业实体非起始词的其他部分词语标记为“I”,与企业实体无关的词语标记为“O”,如“被告(O)江苏(B)欧亚(I)薄膜(I)有限公司(I)”。标注完成的数据作为企业实体识别模型的训练集。同时,对采集到的文书文本中的企业实体依据上下文内容按照行业性质对其进行类别标注。标注完成的数据作为企业实体分类模型的训练集,标注完成的数据即包括一句包含企业名称的语句和该企业所属行业的类标,而整个训练集就是若干条这样的句子+类标的集合。其中,类别标注的标准可以选用具有准确性和权威性的国民经济行业分类(GB/T4754-2011)中的划分方式。步骤1-4、建立训练集的结束。如图3所示,在构建完训练集之后,使用改进的条件随机场方法,即,通过引入边界特征的条件随机场模型进行企业实体识别模型训练。步骤2-0、企业实体识别模型训练的开始。步骤2-1、输入经过分句、分词、词性标注和实体标注后的训练集数据(即步骤1-3中的标注完成数据)。步骤2-2、从互联网中爬取一些企业名录,将这些企业名称通过HanLP分词后整理得到左、右边界词典。左边界词指的是企业名称分词后的第一个词,右边界词指的是企业名称分词后的最后一个词。将所有的左、右边界词整理成为左、右边界词词典。步骤2-3、使用开源的libSVM训练得到左、右边界的预测模型。左边界预测模型训练过程中选择的特征为:当前词以及后两个词的词语本身和词性;右边界预测模型训练过程中选择的特征为:当前词以及前两个词的词语本身和词性。其中,使用的开源的libSVM具有较好的健壮性和更好的分类边界步骤2-4、依次从训练集中取出词语并通过左、右边界的预测模型来判断该词语是否是左、右边界词。当前词语是否是左边界词的判断方法为:如果该词语出现本文档来自技高网
...
一种面向纯文本的企业实体分类方法

【技术保护点】
一种面向纯文本的企业实体分类方法,其特征在于,包括如下步骤:S1、对采集到的纯文本数据中的企业实体进行类别标注,将标注完成的数据作为企业实体识别模块的训练集;对采集到的纯文本数据中的企业实体按照行业性质进行类别标注,将标注完成的数据作为企业实体分类模块的训练样本集;S2、通过条件随机场模型进行企业实体识别模型训练,并得到企业实体识别模型;S3、对原始训练集的文本数据进行语义向量化构建;S4、将经语义向量化后的有类别标注的训练集数据作为训练参数训练出企业实体分类模型;S5、利用企业实体分类模型对待预测文本中的企业实体进行分类。

【技术特征摘要】
1.一种面向纯文本的企业实体分类方法,其特征在于,包括如下步骤:S1、对采集到的纯文本数据中的企业实体进行类别标注,将标注完成的数据作为企业实体识别模块的训练集;对采集到的纯文本数据中的企业实体按照行业性质进行类别标注,将标注完成的数据作为企业实体分类模块的训练样本集;S2、通过条件随机场模型进行企业实体识别模型训练,并得到企业实体识别模型;S3、对原始训练集的文本数据进行语义向量化构建;S4、将经语义向量化后的有类别标注的训练集数据作为训练参数训练出企业实体分类模型;S5、利用企业实体分类模型对待预测文本中的企业实体进行分类。2.如权利要求1所述的企业实体分类方法,其特征在于,S1中,将采集到的纯文本数据进行分句、分词和词性标注,采用人工标注的方法对纯文本数据中的企业实体和行业类别进行标注。3.如权利要求2所述的企业实体分类方法,其特征在于,使用开源的分词和词性标注软件HanLP对纯文本数据进行分句、分词和词性标注。4.如权利要求2所述的企业实体分类方法,其特征在于,对纯文本数据中的企业实体标注方式为“BIO”标记形式,其中,企业实体的起始词标记为“B”,企业实体非起始词的其他部分词语标记为“I”,与企业实体无关的词语标记为“O”。5.如权利要求2所述的企业实体分类方法,其特征在于,采用人工标注的方法中,对纯文本数据中的...

【专利技术属性】
技术研发人员:张雷陈嘉伟谢璐遥王崇骏
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1