一种企业名称关键字提取方法技术

技术编号:17387951 阅读:40 留言:0更新日期:2018-03-04 13:16
本发明专利技术公开了一种企业名称关键字提取方法,包括以下步骤:搭建与企业名称相关的基础热词库;对用户输入的企业名称进行中文分词处理,输出分词结果;声明新的数组arrs_a,遍历所述分词结果,若遍历过程中分词结果中的某个分词匹配到所述基础热词库中的热词,则将该分词加入到数组arrs_a;依次根据分词词长、分词位置对数组arrs_a进行排序;对排序后的数组arrs_a中进行遍历,针对数组arrs_a中的每个分词,依序对企业名称进行替空操作,将得到的最终词作为企业名称关键字。本发明专利技术本发明专利技术能够根据企业名称快速提取出企业名称关键字,便于实现大数据量的、高覆盖率的企业名称关键字数据的获得。

An enterprise name keyword extraction method

The invention discloses a method for extracting enterprise name keyword, which comprises the following steps: building the foundation of heat associated with the corporate name of the base; the user input the name of the enterprise Chinese for word processing, the output results of segmentation; arrs_a = new array, traversing the segmentation results, if a segmentation results in the traversal process to match the hot hot words in the lexicon, the word added to the array arrs_a; are sorted based on the array arrs_a participle word length, word position; to traverse the sorted array in arrs_a, for each word in the arrs_a array, in order for operation of enterprise names that will eventually get the name of the enterprise as a keyword. The invention can extract the key name of the enterprise quickly according to the enterprise name, and is easy to realize the acquisition of the enterprise name and key data with large amount of data and high coverage.

【技术实现步骤摘要】
一种企业名称关键字提取方法
本专利技术涉及数据处理
,特别涉及一种企业名称关键字提取方法。
技术介绍
企业名称关键字是企业名称的最重要组成部分,也是企业核心数据资产,企业名称关键字在对企业数据进行处理过程中具有重要的作用。如果能够根据搜集到的企业名称,快速提取出企业名称关键字,就可以提供给第三方系统用于他途,包括但不仅限于搜索引擎,爬虫,舆情分析等应用场景。企业名称通常包括行政区划、字号、行业、组织形式四个要素构成,其中字号是构成企业名称关键字的核心部分。由于企业字号的复杂性和多样性,导致利用数据处理技术提取企业名称关键字的难度加大。目前,对于企业名称关键字数据,还只能通过人工去甄别、补充,要想获得大数据量的、高覆盖率的企业名称关键字数据,在实际操作中需要投入大量的人力才能完成。
技术实现思路
本专利技术的目的在于提供一种企业名称关键字提取方法,其能够根据企业名称快速提取出企业名称关键字,便于实现大数据量的、高覆盖率的企业名称关键字数据的获得。为实现上述目的,本专利技术采用以下技术方案:一种企业名称关键字提取方法,包括以下步骤:S1、搭建与企业名称相关的基础热词库;S2、对用户输入的企业名称进行中文分词处理,输出分词结果;S3、声明新的数组arrs_a,遍历所述分词结果,若遍历过程中分词结果中的某个分词匹配到所述基础热词库中的热词,则将该分词加入到数组arrs_a;S4、依次根据分词词长、分词位置对数组arrs_a进行排序;S5、对排序后的数组arrs_a中进行遍历,针对数组arrs_a中的每个分词,依序对企业名称进行替空操作,将得到的最终词作为企业名称关键字。进一步地,还包括以下步骤:S6、设定关键字长度阈值,判断所述步骤S5中得到的企业名称关键字长度是否达到关键字长度阈值,若达到,则判定企业名称关键字的提取结果正确,若为达到,则执行步骤S7;S7、针对S5中得到的企业名称关键字与相邻词进行拼接,获得达到关键字长度阈值的企业名称关键字。更进一步地,所述步骤S1还包括以下步骤:对所述基础热词库中的热词进行打标签处理,用以定义热词的标签类别;所述步骤S7包括以下分步骤:S71、依次根据分词位置、分词词长对所述数组arrs_a进行重新排序;S72、找到步骤S5中得到的企业名称关键字的前、后位置的相邻词,并根据相邻词的标签类型选择是否拼接,拼接后记录拼接结果的词长和位置偏移量;S73、判断拼接结果的词长是否达到关键字长度阈值,若达到,则停止拼接并认定该拼接结果为正确的企业名称关键字,若未达到,则基于拼接结果的词长和位置偏移量继续向后遍历。优选地,步骤S1中的搭建与企业名称相关的基础热词库通过以下步骤实现:S11、预先准备企业名称数据;S12、对所述企业名称数据进行中文分词处理;S13、对中文分词处理后获得分词进行词频分析;S14、设定阈值,剔除出现词频低于阈值的分词,保留出现词频高于阈值的分词并构成所述基础热词库。优选地,步骤S12中的所述中文分词处理,利用IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器进行中文分词处理。优选地,步骤S13中的所述词频分析,利用传统关系型数据库或搜索引擎框架进行词频分析。优选地,所述步骤S4具体为:针对数组arrs_a中的分词,优先按分词词长进行排序,相同词长的按照分词位置进行排序。优选地,所述步骤S71具体为:针对数组arrs_a中的分词,优先按分词位置进行排序,分词位置相同的,按照分词词长进行排序。优选地,所述标签类别至少包括热词、地域词、桥接词,当数组arrs_a中分词的类别为热词时,在拼接处理时选择拼接,当数组arrs_a中分词的类别为地域词时,在拼接处理时选择不拼接并找到下一个分词进行拼接,当数组arrs_a中分词的类别为桥接词时,在拼接处理时找到下一个分词进行拼接。优选地,步骤S14中,对于基础热词库中的某些有干扰作用的属于企业关键字的热词,对这些热词进行禁用操作或者额外配置标签类型。采用上述技术方案后,本专利技术与
技术介绍
相比,具有如下优点:本专利技术能够根据企业名称快速提取出企业名称关键字,便于实现大数据量的、高覆盖率的企业名称关键字数据的获得,而无需投入过多的人力。利用本专利技术获得的企业名称关键字数据,能够提供给第三方系统使用,有助于企业数据处理工作的开展。附图说明图1为本专利技术的流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施例请参阅图1,本专利技术公开了一种企业名称关键字提取方法,包括以下步骤:S1、搭建与企业名称相关的基础热词库,对所述基础热词库中的热词进行打标签处理,用以定义热词的标签类别。基础热词库通过以下方法进行搭建:S11、预先准备企业名称数据。本实施例中,企业名称数据通过网络爬虫采集,企业名称数据包含的企业名称数量在4000万条以上。S12、对所述企业名称数据进行中文分词处理。中文分词处理是利用IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器进行中文分词处理,当然也可以采用其他分词器,本专利技术不做具体限定。S13、对中文分词处理后获得分词进行词频分析。词频分析可以利用传统关系型数据库或搜索引擎框架进行词频分析,也可利用主流Mapreduce框架,如Hadoop,Spark,ElasticSearch进行热词排行分析统计。S14、设定阈值,剔除出现词频低于阈值的分词,保留出现词频高于阈值的分词并构成所述基础热词库。对于基础热词库中的某些有干扰作用的属于企业关键字的热词,原因在于数千万个企业名称中有不少相近的名称,这些相近的名称出现频次高于阈值。对这些热词可进行禁用操作或者额外配置标签类型。步骤S1中,标签可以扩展,可对标签进行编程。标签类别包括热词、地域词、桥接词,当数组arrs_a中分词的类别为热词时,在后续的拼接处理时选择拼接,当数组arrs_a中分词的类别为地域词时,在后续的拼接处理时选择不拼接并找到下一个分词进行拼接,当数组arrs_a中分词的类别为桥接词时,在后续的拼接处理时找到下一个分词进行拼接。标签类别还可以包括后缀词、特征词等标签类型。为便于更直观的理解,对各个标签类别进行举例说明:地域词:如“厦门”,“厦门市”,“福建”,“福建省”等。热词:如“冷冻食品”,“机电厂”,“建筑设计院”,“家具制造”,“有限公司”,“股份有限公司”等,其中热词又包含但不仅限于(可扩展):地域词,后缀词,特征词,桥接词等。地域+热词:如“安居”,“六合”,“东海”,“乐业”,“龙游”,“北辰”,等即是地域词,又属于企业核心热词的双重属性的词。后缀词:如“公司”,“有限公司”,“门市部”,“责任有限公司”等。特征词:如“信息”,“系统”,“生物”,“科技”等。桥接词:如“方中”,“中资”,“房地”等。S2、对用户输入的企业名称进行中文分词处理,输出分词结果。S3、声明新的数组arrs_a,遍历所述分词结果,若遍历过程中分词结果中的某个分词匹配到所述基础热词库中的热词,则将该分词加入到数组arrs_a。S4、依次根据分词词长、分词位置对数组arrs_本文档来自技高网
...
一种企业名称关键字提取方法

【技术保护点】
一种企业名称关键字提取方法,其特征在于,包括以下步骤:S1、搭建与企业名称相关的基础热词库;S2、对用户输入的企业名称进行中文分词处理,输出分词结果;S3、声明新的数组arrs_a,遍历所述分词结果,若遍历过程中分词结果中的某个分词匹配到所述基础热词库中的热词,则将该分词加入到数组arrs_a;S4、依次根据分词词长、分词位置对数组arrs_a进行排序;S5、对排序后的数组arrs_a中进行遍历,针对数组arrs_a中的每个分词,依序对企业名称进行替空操作,将得到的最终词作为企业名称关键字。

【技术特征摘要】
1.一种企业名称关键字提取方法,其特征在于,包括以下步骤:S1、搭建与企业名称相关的基础热词库;S2、对用户输入的企业名称进行中文分词处理,输出分词结果;S3、声明新的数组arrs_a,遍历所述分词结果,若遍历过程中分词结果中的某个分词匹配到所述基础热词库中的热词,则将该分词加入到数组arrs_a;S4、依次根据分词词长、分词位置对数组arrs_a进行排序;S5、对排序后的数组arrs_a中进行遍历,针对数组arrs_a中的每个分词,依序对企业名称进行替空操作,将得到的最终词作为企业名称关键字。2.如权利要求1所述的一种企业名称关键字提取方法,其特征在于,还包括以下步骤:S6、设定关键字长度阈值,判断所述步骤S5中得到的企业名称关键字长度是否达到关键字长度阈值,若达到,则判定企业名称关键字的提取结果正确,若为达到,则执行步骤S7;S7、针对S5中得到的企业名称关键字与相邻词进行拼接,获得达到关键字长度阈值的企业名称关键字。3.如权利要求2所述的一种企业名称关键字提取方法,其特征在于:所述步骤S1还包括以下步骤:对所述基础热词库中的热词进行打标签处理,用以定义热词的标签类别;所述步骤S7包括以下分步骤:S71、依次根据分词位置、分词词长对所述数组arrs_a进行重新排序;S72、找到步骤S5中得到的企业名称关键字的前、后位置的相邻词,并根据相邻词的标签类型选择是否拼接,拼接后记录拼接结果的词长和位置偏移量;S73、判断拼接结果的词长是否达到关键字长度阈值,若达到,则停止拼接并认定该拼接结果为正确的企业名称关键字,若未达到,则基于拼接结果的词长和位置偏移量继续向后遍历。4.如权利要求1所述的一种企业名称关键字提取方法,其特征在于,步骤S1...

【专利技术属性】
技术研发人员:郑旭王志永郭建辉林文东吴少茂
申请(专利权)人:厦门美亚商鼎信息科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1