一种用于公司名称的提取方法和系统技术方案

技术编号：32014957 阅读：19 留言：0更新日期：2022-01-22 18:32

公开了一种用于公司名称的提取方法和系统，包括获取公司名称样本，对公司名称样本进行分词处理和词性判断；基于公司名称样本的词性组成结构提取若干词性结构特征的正则表达式；对待提取文本中进行分词处理和词性判断，利用正则表达式提取待提取文本中的公司名称。还公开了一种用于公司名称的提取系统，该方法和系统能够准确快速的在海量资讯中定位公司名称，可以运用于在资讯中嵌入公司详情信息，或大数据的关联分析场景中。或大数据的关联分析场景中。或大数据的关联分析场景中。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于公司名称的提取方法和系统

[0001]本专利技术涉及计算机技术应用领域，尤其是一种用于公司名称的提取方法和系统。

技术介绍

[0002]在如今飞速发展的互联网时代下，信息量也越来越大，各种不同的信息资讯通过各种媒介进行传播。公司是参与商业活动的主体。商业资讯和财经资讯中经常会出现公司名称。如果能够准确快速的从资讯中提取其中的公司名称，就可以提供给第三方系统用于他途，包括但不仅限于搜索引擎、舆情分析、数据关联分析等应用场景。因此，提取公司名称的方法是非常重要的。另外，由于新闻资讯数据量巨大，因此这些数据的分析速度也是需要重视的。同时根据国家有关法律、法规的规定，公司名称一般由四部分组成:行政区划、字号、行业(经营特点)和组织形式。由于公司字号的复杂性和多样性，导致利用数据处理技术提取公司名称的难度加大。
[0003]在公司名称挖掘的现有技术中，有一种方案是通过爬虫或其他方式构建有限的公司名称据集，再基于这些数据集使用AC
‑
BM等搜索算法定位原始文档中的公司名称。另一现有方案是基于词性标注的公司名称数据集训练的神经网络模型，对公司名称进行识别。这些技术具有如下问题：
[0004]1、基于有限的公司名称数据集进行搜索，具有数据覆盖不全的问题。
[0005]2、基于神经网络模型的方案，需要采集一定量的训练样本对网络模型进行训练，过程较为复杂。

技术实现思路

[0006]为了解决现有技术中基于有限的公司名称数据集进行搜索，具有数据覆盖不全的问题、基于神经网络模...

【技术保护点】

【技术特征摘要】
1.一种用于公司名称的提取方法，其特征在于，包括：S1：获取公司名称样本，对所述公司名称样本进行分词处理和词性判断；S2：基于所述公司名称样本的词性组成结构提取若干词性结构特征的正则表达式；以及S3：对待提取文本中进行分词处理和词性判断，利用所述正则表达式提取所述待提取文本中的公司名称。2.根据权利要求1所述的用于公司名称的提取方法，其特征在于，所述步骤S1中采用自然语言处理算法进行分词处理和词性判断。3.根据权利要求1所述的用于公司名称的提取方法，其特征在于，所述分词处理和词性判断获取的词性结构包括名词、地名、人名、其他专名、标点符号和机构后缀。4.根据权利要求1所述的用于公司名称的提取方法，其特征在于，所述公司名称的词性结构特征的正则表达式以分词为单位进行匹配。5.根据权利要求4所述的用于公司名称的提取方法，其特征在于，每个分词的正则表达式规则为分词位置+词性标注+结束记号，其中分词位置以数字序号表示。6.根据权利要求1所述的用于公司名称的提取方法，其特征在于，所述步骤S3具体包括：S31：在待提取文本中定位和提取可能存在公司名称的段落集合；S32：对所述段落集...

【专利技术属性】
技术研发人员：许全聪，吴少华，吴江煌，彭玄宁，吴仁均，连慧奇，
申请(专利权)人：厦门美亚亿安信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人