The invention discloses a method for extracting enterprise name keyword, which comprises the following steps: building the foundation of heat associated with the corporate name of the base; the user input the name of the enterprise Chinese for word processing, the output results of segmentation; arrs_a = new array, traversing the segmentation results, if a segmentation results in the traversal process to match the hot hot words in the lexicon, the word added to the array arrs_a; are sorted based on the array arrs_a participle word length, word position; to traverse the sorted array in arrs_a, for each word in the arrs_a array, in order for operation of enterprise names that will eventually get the name of the enterprise as a keyword. The invention can extract the key name of the enterprise quickly according to the enterprise name, and is easy to realize the acquisition of the enterprise name and key data with large amount of data and high coverage.
【技术实现步骤摘要】
一种企业名称关键字提取方法
本专利技术涉及数据处理
,特别涉及一种企业名称关键字提取方法。
技术介绍
企业名称关键字是企业名称的最重要组成部分,也是企业核心数据资产,企业名称关键字在对企业数据进行处理过程中具有重要的作用。如果能够根据搜集到的企业名称,快速提取出企业名称关键字,就可以提供给第三方系统用于他途,包括但不仅限于搜索引擎,爬虫,舆情分析等应用场景。企业名称通常包括行政区划、字号、行业、组织形式四个要素构成,其中字号是构成企业名称关键字的核心部分。由于企业字号的复杂性和多样性,导致利用数据处理技术提取企业名称关键字的难度加大。目前,对于企业名称关键字数据,还只能通过人工去甄别、补充,要想获得大数据量的、高覆盖率的企业名称关键字数据,在实际操作中需要投入大量的人力才能完成。
技术实现思路
本专利技术的目的在于提供一种企业名称关键字提取方法,其能够根据企业名称快速提取出企业名称关键字,便于实现大数据量的、高覆盖率的企业名称关键字数据的获得。为实现上述目的,本专利技术采用以下技术方案:一种企业名称关键字提取方法,包括以下步骤:S1、搭建与企业名称相关的基础热词库;S2、对用户输入的企业名称进行中文分词处理,输出分词结果;S3、声明新的数组arrs_a,遍历所述分词结果,若遍历过程中分词结果中的某个分词匹配到所述基础热词库中的热词,则将该分词加入到数组arrs_a;S4、依次根据分词词长、分词位置对数组arrs_a进行排序;S5、对排序后的数组arrs_a中进行遍历,针对数组arrs_a中的每个分词,依序对企业名称进行替空操作,将得到的最终词作为企业名称 ...
【技术保护点】
一种企业名称关键字提取方法,其特征在于,包括以下步骤:S1、搭建与企业名称相关的基础热词库;S2、对用户输入的企业名称进行中文分词处理,输出分词结果;S3、声明新的数组arrs_a,遍历所述分词结果,若遍历过程中分词结果中的某个分词匹配到所述基础热词库中的热词,则将该分词加入到数组arrs_a;S4、依次根据分词词长、分词位置对数组arrs_a进行排序;S5、对排序后的数组arrs_a中进行遍历,针对数组arrs_a中的每个分词,依序对企业名称进行替空操作,将得到的最终词作为企业名称关键字。
【技术特征摘要】
1.一种企业名称关键字提取方法,其特征在于,包括以下步骤:S1、搭建与企业名称相关的基础热词库;S2、对用户输入的企业名称进行中文分词处理,输出分词结果;S3、声明新的数组arrs_a,遍历所述分词结果,若遍历过程中分词结果中的某个分词匹配到所述基础热词库中的热词,则将该分词加入到数组arrs_a;S4、依次根据分词词长、分词位置对数组arrs_a进行排序;S5、对排序后的数组arrs_a中进行遍历,针对数组arrs_a中的每个分词,依序对企业名称进行替空操作,将得到的最终词作为企业名称关键字。2.如权利要求1所述的一种企业名称关键字提取方法,其特征在于,还包括以下步骤:S6、设定关键字长度阈值,判断所述步骤S5中得到的企业名称关键字长度是否达到关键字长度阈值,若达到,则判定企业名称关键字的提取结果正确,若为达到,则执行步骤S7;S7、针对S5中得到的企业名称关键字与相邻词进行拼接,获得达到关键字长度阈值的企业名称关键字。3.如权利要求2所述的一种企业名称关键字提取方法,其特征在于:所述步骤S1还包括以下步骤:对所述基础热词库中的热词进行打标签处理,用以定义热词的标签类别;所述步骤S7包括以下分步骤:S71、依次根据分词位置、分词词长对所述数组arrs_a进行重新排序;S72、找到步骤S5中得到的企业名称关键字的前、后位置的相邻词,并根据相邻词的标签类型选择是否拼接,拼接后记录拼接结果的词长和位置偏移量;S73、判断拼接结果的词长是否达到关键字长度阈值,若达到,则停止拼接并认定该拼接结果为正确的企业名称关键字,若未达到,则基于拼接结果的词长和位置偏移量继续向后遍历。4.如权利要求1所述的一种企业名称关键字提取方法,其特征在于,步骤S1...
【专利技术属性】
技术研发人员:郑旭,王志永,郭建辉,林文东,吴少茂,
申请(专利权)人:厦门美亚商鼎信息科技有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。