【技术实现步骤摘要】
关键词提取方法和装置及设备
[0001]本申请涉及中文分词
,尤其涉及一种关键词提取方法和装置及设备。
技术介绍
[0002]中文分词是中文文本处理的一个基础步骤,也是在中文环境下的人机自然语言交互的基础模块。中文环境下的机器翻译,语音合成,自动分类,自动摘要,自动校对等,都需要用到中文分词。在进行中文自然语言处理时,通常需要先进行分词,为了更好地完成分词,需要预设的自定义词典支持,来增强分词的歧义纠错和新词识别能力。在使用预设的自定义词典来实现中文分词时,需要对自定义词典进行维护,以不断完善自定义词典的更新。在相关技术中,通常采用人工维护的方式,由相关人员定期将一段时间内使用频率较高的词汇加入到自定义词典中。但是,采用人工维护的方式,使得维护效率较低。
技术实现思路
[0003]有鉴于此,本申请提出了一种关键词提取方法,可以有效提高自定义词典的维护效率。
[0004]根据本申请的一方面,提供了一种关键词提取方法,包括:
[0005]读取待提取关键词的文本文件,使用分词器对所述文本文件中 ...
【技术保护点】
【技术特征摘要】
1.一种关键词提取方法,其特征在于,包括:读取待提取关键词的文本文件,使用分词器对所述文本文件中的内容进行分词,得到所述文本文件中的词语;基于预料库统计各所述词语的逆文档频率;对所述逆文档频率进行平滑处理,并根据平滑处理后的逆文档频率,使用TF
‑
IDF抽取出关键词;将所述关键词添加至自定义词典中。2.根据权利要求1所述的方法,其特征在于,使用分词器对所述文本文件中的内容进行分词,得到所述文本文件中的词语后,还包括使用全切分模式方式对各所述词语进行增益处理,得到各词语的信息增益值;其中,所述信息增益值表征各词语在当前关键词提取中的权重。3.根据权利要求2所述的方法,其特征在于,根据平滑处理后的逆文档频率,使用TF
‑
IDF抽取出关键词时,包括:根据所述平滑处理后的逆文档频率和所述信息增益值,由划分出的词语中提取出所述关键词。4.根据权利要求1所述的方法,其特征在于,基于语料库统计各所述词语的逆文档频率时,基于所述文本文件的总数量,以及包含有所述词语的文本文件的数量进行统计。5.根据权利要求1所述的方法,其特征在于,统计各所述词语的逆文档频率时,根据公式:进行统计;其中,IDF(w)表征当前统计的词语w的所述逆文档频率,D表征所述文本文件的总数量,D
w
表征包含有当前正在统计的词语w的文本文件的数量。6.根据权利要求5所述的方法,其特征在于,对所述逆文档频率进行平滑处理时,根据公式:进行。7.根据权利要求1至...
【专利技术属性】
技术研发人员:荣继,
申请(专利权)人:北京锐马视讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。