关键词提取方法和装置及设备制造方法及图纸

技术编号:34974782 阅读:37 留言:0更新日期:2022-09-21 14:15
本申请涉及一种关键词提取方法和装置,其中方法包括:读取待提取关键词的文本文件,使用分词器对文本文件中的内容进行分词,得到文本文件中的词语;基于预料库统计各词语的逆文档频率;对逆文档频率进行平滑处理,并根据平滑处理后的逆文档频率,使用TF

【技术实现步骤摘要】
关键词提取方法和装置及设备


[0001]本申请涉及中文分词
,尤其涉及一种关键词提取方法和装置及设备。

技术介绍

[0002]中文分词是中文文本处理的一个基础步骤,也是在中文环境下的人机自然语言交互的基础模块。中文环境下的机器翻译,语音合成,自动分类,自动摘要,自动校对等,都需要用到中文分词。在进行中文自然语言处理时,通常需要先进行分词,为了更好地完成分词,需要预设的自定义词典支持,来增强分词的歧义纠错和新词识别能力。在使用预设的自定义词典来实现中文分词时,需要对自定义词典进行维护,以不断完善自定义词典的更新。在相关技术中,通常采用人工维护的方式,由相关人员定期将一段时间内使用频率较高的词汇加入到自定义词典中。但是,采用人工维护的方式,使得维护效率较低。

技术实现思路

[0003]有鉴于此,本申请提出了一种关键词提取方法,可以有效提高自定义词典的维护效率。
[0004]根据本申请的一方面,提供了一种关键词提取方法,包括:
[0005]读取待提取关键词的文本文件,使用分词器对所述文本文件中的内容进行分词,得到所述文本文件中的词语;
[0006]基于预料库统计各所述词语的逆文档频率;
[0007]对所述逆文档频率进行平滑处理,并根据平滑处理后的逆文档频率,使用TF

IDF抽取出关键词;
[0008]将所述关键词添加至自定义词典中。
[0009]在一种可能的实现方式中,使用分词器对所述文本文件中的内容进行分词,得到所述文本文件中的词语后,还包括使用全切分模式方式对各所述词语进行增益处理,得到各词语的信息增益值;
[0010]其中,所述信息增益值表征各词语在当前关键词提取中的权重。
[0011]在一种可能的实现方式中,根据平滑处理后的逆文档频率,使用TF

IDF抽取出关键词时,包括:
[0012]根据所述平滑处理后的逆文档频率和所述信息增益值,由划分出的词语中提取出所述关键词。
[0013]在一种可能的实现方式中,基于语料库统计各所述词语的逆文档频率时,基于所述文本文件的总数量,以及包含有所述词语的文本文件的数量进行统计。
[0014]在一种可能的实现方式中,统计各所述词语的逆文档频率时,根据公式:进行统计;
[0015]其中,IDF(w)表征当前统计的词语w的所述逆文档频率,D表征所述文本文件的总
数量,D
w
表征包含有当前正在统计的词语w的文本文件的数量。
[0016]在一种可能的实现方式中,对所述逆文档频率进行平滑处理时,根据公式:进行。
[0017]在一种可能的实现方式中,根据平滑处理后的逆文档频率,使用TF

IDF抽取出关键词后,还包括:
[0018]检索所述自定义词典,由提取出的关键词中删除与所述自定义词典中相重复的关键词。
[0019]在一种可能的实现方式中,检索所述自定义词典,由提取出的关键词中删除与所述自定义词典中相重复的关键词,包括:
[0020]遍历各所述关键词,对于当前正在遍历的关键词,通过二分法对所述自定义词典进行检索;
[0021]在所述自定义词典中检索出与当前正在遍历的关键词重复的词语时,删除当前正在遍历的关键词;
[0022]在所述自定义词典中未检索出与当前正在遍历的关键词相重复的词语时,保留当前正在遍历的关键词并将保留的关键词添加至所述自定义词典中。
[0023]根据本申请的一方面,还提供了一种关键词提取装置,包括分词模块、统计模块、处理模块、提取模块和添加模块;
[0024]所述分词模块,被配置为读取文本文件,使用分词器对所述文本文件中的内容进行分词,得到所述语料库中各所述文本文件中的词语;
[0025]所述统计模块,被配置为基于语料库,统计各所述词语的逆文档频率;
[0026]所述处理模块,被配置为对所述逆文档频率进行平滑处理;
[0027]所述提取模块,被配置为根据平滑处理后的逆文档频率,使用TF

IDF抽取出关键词;
[0028]所述添加模块,被配置为将所述关键词添加至自定义词典中。
[0029]根据本申请的另一方面,还提供了一种关键词提取设备,包括:
[0030]处理器;
[0031]用于存储处理器可执行指令的存储器;
[0032]其中,所述处理器被配置为执行所述可执行指令时实现前面任一所述的方法。
[0033]通过对文本文件进行分词,得到各文本文件中的词语后,基于语料库统计出各词语的逆文档频率,然后再对各逆文档频率进行平滑处理,根据平滑处理后的逆文档频率使用TF

IDF抽取出关键词,实现了关键词的自动提取。然后,再将提取出的关键词添加至自定义词典中,实现了自定义词典的自动维护,不需要人工定期将关键词添加到自定义词典中,这就有效提高了自定义词典的维护效率。
[0034]根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。
附图说明
[0035]包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的
示例性实施例、特征和方面,并且用于解释本申请的原理。
[0036]图1示出本申请一实施例的关键词提取方法的流程图;
[0037]图2示出本申请另一实施例的关键词提取方法的流程图;
[0038]图3示出本申请一实施例的关键词提取装置的结构框图;
[0039]图4示出本申请一实施例的关键词提取设备的结构框图。
具体实施方式
[0040]以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
[0041]在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
[0042]另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
[0043]图1示出根据本申请一实施例的关键词提取方法的流程图。如图1所示,该方法包括:步骤S100,读取文本文件,使用分词器对文本文件中的内容进行分词,得到语料库中各文本文件中的词语。此处,需要说明的是,使用分词器对文本文件中的内容进行分词时,可以采用本领域常规的分词器进行划分。同时,本领域技术人员还可以理解的是,所读取的文本文件可以为多件,在对文本文件中的内容进行分词时,可以逐一对文本文件的内容进行分词,也可以设置多线程并行方式同时对各文本文件的内容进行分词。步骤S200,基于语料库,统计各词语的逆文档频率。步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词提取方法,其特征在于,包括:读取待提取关键词的文本文件,使用分词器对所述文本文件中的内容进行分词,得到所述文本文件中的词语;基于预料库统计各所述词语的逆文档频率;对所述逆文档频率进行平滑处理,并根据平滑处理后的逆文档频率,使用TF

IDF抽取出关键词;将所述关键词添加至自定义词典中。2.根据权利要求1所述的方法,其特征在于,使用分词器对所述文本文件中的内容进行分词,得到所述文本文件中的词语后,还包括使用全切分模式方式对各所述词语进行增益处理,得到各词语的信息增益值;其中,所述信息增益值表征各词语在当前关键词提取中的权重。3.根据权利要求2所述的方法,其特征在于,根据平滑处理后的逆文档频率,使用TF

IDF抽取出关键词时,包括:根据所述平滑处理后的逆文档频率和所述信息增益值,由划分出的词语中提取出所述关键词。4.根据权利要求1所述的方法,其特征在于,基于语料库统计各所述词语的逆文档频率时,基于所述文本文件的总数量,以及包含有所述词语的文本文件的数量进行统计。5.根据权利要求1所述的方法,其特征在于,统计各所述词语的逆文档频率时,根据公式:进行统计;其中,IDF(w)表征当前统计的词语w的所述逆文档频率,D表征所述文本文件的总数量,D
w
表征包含有当前正在统计的词语w的文本文件的数量。6.根据权利要求5所述的方法,其特征在于,对所述逆文档频率进行平滑处理时,根据公式:进行。7.根据权利要求1至...

【专利技术属性】
技术研发人员:荣继
申请(专利权)人:北京锐马视讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1