一种提取关键词的方法、装置及电子设备制造方法及图纸

技术编号:18256438 阅读:78 留言:0更新日期:2018-06-20 08:14
本发明专利技术实施例提供了一种提取关键词的方法、装置及电子设备,其中,所述方法包括:通过获取指定领域的文章;使用预设分词方法及经训练得到的迭代关键词词库,对所述指定领域的文章进行分词,获得第一分词结果;利用关键词提取算法,从所述第一分词结果中提取出指定关键词。通过该方法,提高了提取关键词的准确性。

Method, device and electronic device for extracting key words

An embodiment of the present invention provides a method, device and electronic device for extracting key words, in which the method includes: by obtaining an article in the specified field, using a presupposed word segmentation method and an iterative keyword word library trained, the articles in the specified domain are divided and the results of the first participle are obtained; The keyword extraction algorithm extracts the specified keywords from the results of the first participle. Through this method, the accuracy of keyword extraction is improved.

【技术实现步骤摘要】
一种提取关键词的方法、装置及电子设备
本专利技术涉及计算机
,特别是一种提取关键词的方法、装置及电子设备。
技术介绍
程序员在使用python开发作中文分词常常使用结巴(jieba)词库及分词算法进行分词。在分词过程中,先将句子进行分词处理,再根据jieba停用词词库排除分词结果中的停用词后,之后使用词频-逆向文件频率(TF-IDF,termfrequency–inversedocumentfrequency)算法提取分词结果中的关键词。对于指定领域的词语,结巴词库中没有指定领域的词语,结巴分词结果会分成单个字的词语。为了改变这种情况,开发人员会在分词时,利用隐马尔可夫模型(HMM)-维特比(Viterbi),将一个待分词的句子标记开始位置、结束位置、中间位置及单独成词位置,然后找到句子中概率最大的开始和结束位置,将开始与结束位置之间所有字组成一个新的词语,完成分词。现有技术利用隐马尔可夫模型-维特比算法,仅仅依靠开始与结束位置之间组合的词语并不准确,因此提取分词结果中关键词的准确率较低。
技术实现思路
本专利技术实施例的目的在于一种提取关键词的方法、装置及电子设备,提高提取指定领域关键词的准确性。具体技术方案如下:第一方面,本专利技术实施例提供了一种提取关键词的方法,所述方法包括:获取指定领域的文章;使用预设分词方法及经训练得到的迭代关键词词库,对所述指定领域的文章进行分词,获得第一分词结果;利用关键词提取算法,从所述第一分词结果中提取出指定关键词;其中,所述迭代关键词词库,通过针对指定领域的文章样本,循环训练预设关键词词库得到,循环训练的步骤包括:使用预设分词方法及预设关键词词库,对所述指定领域的文章进行分词,获得第二分词结果;将所述第二分词结果中的词与已设置的停用词词库中的词进行匹配,去除所述第二分词结果中与所述停用词词库中相匹配的词语,获得第三分词结果;获取所有在所述第三分词结果中存在的词语,构成词语集;判断所述词语集中的所有词语是否符合预设要求,如果是,则将符合预设要求的词语加入所述预设关键词词库,如果否,将所述词语集中不符合预设要求的词语经修正后加入所述预设关键词词库。可选的,所述预设分词方法包括:结巴分词方法;所述预设关键词词库包括:结巴词库。可选的,所述预设关键词词库至少包括:词语名称,词语的词频及词语的词性。可选的,所述判断所述词语集中的所有词语是否符合预设要求,如果是,则将符合预设要求的词语加入所述预设关键词词库,如果否,将所述词语集中不符合预设要求的词语经修正后加入所述预设关键词词库,包括:判断所述词语集中的所有词语是否符合语法要求,如果是,则将符合语法要求的词语加入所述预设关键词词库,如果否,将所述词语集中不符合语法要求的词语,修改为人为指定的词语加入所述预设关键词词库。可选的,如果所述词语集为中文词语集,则所述语法要求为中文语法要求;如果所述词语集为英文词语集,则所述语法要求为英文语法要求和拼写要求。可选的,所述方法还包括:定期更新停用词词库。第二方面,本专利技术实施例提供了一种提取关键词的装置,所述装置包括:文章获取模块,用于获取指定领域的文章;文章分词模块,用于使用预设分词方法及经训练得到的迭代关键词词库,对所述指定领域的文章进行分词,获得第一分词结果;其中,所述预设分词方法包括:结巴分词方法;所述预设关键词词库包括:结巴词库。关键词提取模块,用于利用关键词提取算法,从所述第一分词结果中提取出指定关键词;循环训练模块,用于针对指定领域的文章样本,循环训练预设关键词词库得到所述迭代关键词词库;其中,所述预设关键词词库至少包括:词语名称,词语的词频及词语的词性。其中,所述循环训练模块,包括:分词子模块,用于用预设分词方法及预设关键词词库,对所述指定领域的文章进行分词,获得第二分词结果;停用词子模块,用于将所述第二分词结果中的词与已设置的停用词词库中的词进行匹配,去除所述第二分词结果中与所述停用词词库中相匹配的词语,获得第三分词结果;词语集子模块,用于获取所有在所述第三分词结果中存在的词语,构成词语集;关键词库子模块,用于判断所述词语集中的所有词语是否符合预设要求,如果是,则将符合预设要求的词语加入所述预设关键词词库,如果否,将所述词语集中不符合预设要求的词语经修正后加入所述预设关键词词库。可选的,所述关键词库子模块具体用于:判断所述词语集中的所有词语是否符合语法要求,如果是,则将符合语法要求的词语加入所述预设关键词词库,如果否,将所述词语集中不符合语法要求的词语,修改为人为指定的词语加入所述预设关键词词库。其中,如果所述词语集为中文词语集,则所述语法要求为中文语法要求;如果所述词语集为英文词语集,则所述语法要求为英文语法要求和拼写要求。可选的,所述装置还包括:更新模块,用于定期更新停用词词库。第三方面,本专利技术实施例还提供了一种电子设备,如图3所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301、通信接口302、存储器303通过通信总线304完成相互间的通信,存储器303,用于存放计算机程序;处理器301,用于执行处理器301上所存放的程序时,实现如下步骤:获取指定领域的文章;使用预设分词方法及经训练得到的迭代关键词词库,对所述指定领域的文章进行分词,获得第一分词结果;利用关键词提取算法,从所述第一分词结果中提取出指定关键词;其中,所述迭代关键词词库,通过针对指定领域的文章样本,循环训练预设关键词词库得到,循环训练的步骤包括:使用预设分词方法及预设关键词词库,对所述指定领域的文章进行分词,获得第二分词结果;将所述第二分词结果中的词与已设置的停用词词库中的词进行匹配,去除所述第二分词结果中与所述停用词词库中相匹配的词语,获得第三分词结果;获取所有在所述第三分词结果中存在的词语,构成词语集;判断所述词语集中的所有词语是否符合预设要求,如果是,则将符合预设要求的词语加入所述预设关键词词库,如果否,将所述词语集中不符合预设要求的词语经修正后加入所述预设关键词词库。在本专利技术实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的一种提取关键词的方法。在本专利技术实施的又一方面,本专利技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的一种提取关键词的方法。本专利技术实施例提供的一种提取关键词的方法及装置,通过获取指定领域的文章;使用预设分词方法及经训练得到的迭代关键词词库,对所述指定领域的文章进行分词,获得第一分词结果;利用关键词提取算法,从所述第一分词结果中提取出指定关键词;所述迭代关键词词库,通过针对指定领域的文章样本,使用预设分词方法及预设关键词词库,对所述指定领域的文章进行分词,获得第二分词结果;将所述第二分词结果中的词与已设置的停用词词库中的词进行匹配,去除所述第二分词结果中与所述停用词词库中相匹配的词语,获得第三分词结果;获取所有在所述第三分词结果中存在词语,构成词语集;判断所述词语集中的词语是否符合预设要求,如果是,则将符合预设要求的词语加入所述预设关键词词库,如果否,将所述词语集中不符合预设要求的词语经修正后加入所述预设关键词本文档来自技高网...
一种提取关键词的方法、装置及电子设备

【技术保护点】
1.一种提取关键词的方法,其特征在于,所述方法包括:获取指定领域的文章;使用预设分词方法及经训练得到的迭代关键词词库,对所述指定领域的文章进行分词,获得第一分词结果;利用关键词提取算法,从所述第一分词结果中提取出指定关键词;其中,所述迭代关键词词库,通过针对指定领域的文章样本,循环训练预设关键词词库得到,循环训练的步骤包括:使用预设分词方法及预设关键词词库,对所述指定领域的文章进行分词,获得第二分词结果;将所述第二分词结果中的词与已设置的停用词词库中的词进行匹配,去除所述第二分词结果中与所述停用词词库中相匹配的词语,获得第三分词结果;获取所有在所述第三分词结果中存在的词语,构成词语集;判断所述词语集中的所有词语是否符合预设要求,如果是,则将符合预设要求的词语加入所述预设关键词词库,如果否,将所述词语集中不符合预设要求的词语经修正后加入所述预设关键词词库。

【技术特征摘要】
1.一种提取关键词的方法,其特征在于,所述方法包括:获取指定领域的文章;使用预设分词方法及经训练得到的迭代关键词词库,对所述指定领域的文章进行分词,获得第一分词结果;利用关键词提取算法,从所述第一分词结果中提取出指定关键词;其中,所述迭代关键词词库,通过针对指定领域的文章样本,循环训练预设关键词词库得到,循环训练的步骤包括:使用预设分词方法及预设关键词词库,对所述指定领域的文章进行分词,获得第二分词结果;将所述第二分词结果中的词与已设置的停用词词库中的词进行匹配,去除所述第二分词结果中与所述停用词词库中相匹配的词语,获得第三分词结果;获取所有在所述第三分词结果中存在的词语,构成词语集;判断所述词语集中的所有词语是否符合预设要求,如果是,则将符合预设要求的词语加入所述预设关键词词库,如果否,将所述词语集中不符合预设要求的词语经修正后加入所述预设关键词词库。2.根据权利要求1所述的方法,其特征在于,所述预设分词方法包括:结巴分词方法;所述预设关键词词库包括:结巴词库。3.根据权利要求1所述的方法,其特征在于,所述预设关键词词库至少包括:词语名称,词语的词频及词语的词性。4.根据权利要求1所述的方法,其特征在于,所述判断所述词语集中的所有词语是否符合预设要求,如果是,则将符合预设要求的词语加入所述预设关键词词库,如果否,将所述词语集中不符合预设要求的词语经修正后加入所述预设关键词词库,包括:判断所述词语集中的所有词语是否符合语法要求,如果是,则将符合语法要求的词语加入所述预设关键词词库,如果否,将所述词语集中不符合语法要求的词语,修改为人为指定的词语加入所述预设关键词词库。5.根据权利要求4所述的方法,其特征在于,如果所述词语集为中文词语集,则所述语法要求为中文语法要求;如果所述词语集为英文词语集,则所述语法要求为英文语法要求和拼写要求。6.根...

【专利技术属性】
技术研发人员:沈文策
申请(专利权)人:福建中金在线信息科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1