一种面向纯文本的企业实体分类方法技术

技术编号：16270072 阅读：219 留言：0更新日期：2017-09-22 21:44

本发明专利技术公开一种面向纯文本的企业实体分类方法，包括如下步骤：S1、对采集到的纯文本数据中的企业实体进行类别标注，作为企业实体识别模块的训练集；对采集到的纯文本数据中的企业实体按照行业性质进行类别标注，以作为企业实体分类模块的训练样本集；S2、通过条件随机场模型进行企业实体识别模型训练，并得到企业实体识别模型；S3、对原始训练集的文本数据进行语义向量化构建；S4、将经语义向量化后的有类别标注的训练集数据作为训练参数训练出企业实体分类模型；S5、利用企业实体分类模型对待预测文本中的企业实体进行分类。该方法用得到的语义向量作为实体的特征，减少对人工特征和外部数据的依赖，并且通用性和健壮性得到保证。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向纯文本的企业实体分类方法
本专利技术属于命名实体识别和细粒度实体分类
，具体涉及一种面向纯文本的企业实体分类方法。
技术介绍
近年来，随着“互联网金融”的热潮，越来越多的企业决策者迫切需要利用更先进的信息处理方式来对海量的互联网数据进行抽取和分析，以便做出更好的决策。在这些海量数据之中，法院文书类、新闻舆情类等纯文本数据成为企业获取高价值信息的首要来源。命名实体识别技术是企业进行实体语义分析，实体关系抽取等工作的基础。目前主流的命名实体识别技术只是将实体分为人名、地名、机构名等，这使得实体的类型缺乏语义。同时，进行实体分类时过多依赖于人工特征和外部数据，使其通用性和健壮性得不到保证。
技术实现思路
本专利技术针对目前主流的命名实体识别技术只是将实体分为人名、地名、机构名等，使得实体的类型缺乏语义。此外，进行实体分类时过多依赖于人工特征和外部数据，使其通用性和健壮性得不到保证。为解决上述问题，本专利技术提出一种面向纯文本的企业实体分类方法，采用企业实体更细粒度的划分方式，并且使用文本本身的语义构建特征，最后进行企业实体的分类。其中，纯文本，即包含企业活动信息的文本，譬如新闻文本、法院文书等。如图1所示，本专利技术所公开的面向纯文本的企业实体分类方法，包括如下步骤：S1、对采集到的纯文本数据中的企业实体进行类别标注，将标注完成的数据作为企业实体识别模块的训练集；对采集到的纯文本数据中的企业实体按照行业性质进行类别标注，将标注完成的数据作为企业实体分类模块的训练样本集；S2、通过条件随机场模型进行企业实体识别模型训练，并得到企业实体识别模型；S3、对原...
一种面向纯文本的企业实体分类方法

【技术保护点】
一种面向纯文本的企业实体分类方法，其特征在于，包括如下步骤：S1、对采集到的纯文本数据中的企业实体进行类别标注，将标注完成的数据作为企业实体识别模块的训练集；对采集到的纯文本数据中的企业实体按照行业性质进行类别标注，将标注完成的数据作为企业实体分类模块的训练样本集；S2、通过条件随机场模型进行企业实体识别模型训练，并得到企业实体识别模型；S3、对原始训练集的文本数据进行语义向量化构建；S4、将经语义向量化后的有类别标注的训练集数据作为训练参数训练出企业实体分类模型；S5、利用企业实体分类模型对待预测文本中的企业实体进行分类。

【技术特征摘要】
1.一种面向纯文本的企业实体分类方法，其特征在于，包括如下步骤：S1、对采集到的纯文本数据中的企业实体进行类别标注，将标注完成的数据作为企业实体识别模块的训练集；对采集到的纯文本数据中的企业实体按照行业性质进行类别标注，将标注完成的数据作为企业实体分类模块的训练样本集；S2、通过条件随机场模型进行企业实体识别模型训练，并得到企业实体识别模型；S3、对原始训练集的文本数据进行语义向量化构建；S4、将经语义向量化后的有类别标注的训练集数据作为训练参数训练出企业实体分类模型；S5、利用企业实体分类模型对待预测文本中的企业实体进行分类。2.如权利要求1所述的企业实体分类方法，其特征在于，S1中，将采集到的纯文本数据进行分句、分词和词性标注，采用人工标注的方法对纯文本数据中的企业实体和行业类别进行标注。3.如权利要求2所述的企业实体分类方法，其特征在于，使用开源的分词和词性标注软件HanLP对纯文本数据进行分句、分词和词性标注。4.如权利要求2所述的企业实体分类方法，其特征在于，对纯文本数据中的企业实体标注方式为“BIO”标记形式，其中，企业实体的起始词标记为“B”，企业实体非起始词的其他部分词语标记为“I”，与企业实体无关的词语标记为“O”。5.如权利要求2所述的企业实体分类方法，其特征在于，采用人工标注的方法中，对纯文本数据中的...

【专利技术属性】
技术研发人员：张雷，陈嘉伟，谢璐遥，王崇骏，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人