本发明专利技术公开了一种关键词提取方法及系统,该方法包括:对新闻文本进行分词从而将所述新闻文本切分成以词为最小语义单元的序列;对所述新闻文本进行实体识别;对所述序列中的位置相邻的至少两个词进行组合,获得组合后的词汇,判断所述组合后的词汇是否为某个实体词汇,若组合后的词汇是所述某个实体词汇,则在所述序列中采用所述某个实体词汇代替所述某个实体词汇组合前的各词;基于词图模型的关键词提取算法从所述序列中提取出第一候选关键词词汇集合,并且基于统计特征的关键词提取算法从所述序列中提取出第二候选关键词词汇集合;求取交集。本发明专利技术的关键词提取方法及系统能够快速准确地提取出关键词。
【技术实现步骤摘要】
关键词提取方法及系统
本专利技术是关于自然语言处理
,特别是关于一种关键词提取方法及系统。
技术介绍
随着网络的普及,越来越多的人通过上网来获取资讯。阅读新闻成为了人们日常生活中的一部分,但是网络上充斥着大量的文本数据,如何帮助人们快速浏览新闻,让人们快速获知新闻的大意一直是研究的热点。关键词提取是NLP(自然语言处理)领域常见的任务,它可以提取与文章意义最相关的若干词汇,用户通过读取文章的关键词即可快速获知文本的大意,这一技术的发展一定程度上减少了人们浏览信息的用时。目前常见的关键词提取方法可以分为两类,分别为无监督的关键词提取方法和有监督的关键词提取方法。基于无监督的关键词提取方法是先抽取出候选词,然后对各个候选词进行打分,最后输出分值较高的多个候选词作为关键词。根据打分的策略不同,可以分为基于词图模型的关键词提取,基于统计特征的关键词提取,以及基于主题模型的关键词提取;具体来说,基于词图模型的关键词提取首先要构建文档的词汇网络图,然后对词汇在网络图中进行分析,在这个图上寻找具有重要作用的词或者短语,这些词(或者短语)就是文档的关键词;基于统计特征的关键词提取算法的思想是利用文档中词语的统计信息抽取文档的关键词;基于主题关键词提取算法主要利用的是主题模型中关于主题分布的性质进行关键词提取。基于有监督的关键词提取方法是将关键词提取任务视为分类任务或序列标注任务。在分类任务中,先提取出候选词,然后对每个候选词进行二分类,判断其是否为关键词。在序列标注任务中,算法对文本的最小语义单元(字、词等)打标签,通过标签的组合提取文本中的关键词。专利技术人在实现本专利技术的过程中发现,基于有监督学习的关键词提取方法,需要高昂的人工成本来标注语料,故此方法难以展开大规模的应用。基于无监督学习的方法,不需要人工标注训练集合的过程,因此更加快捷,但由于存在分词错误,无法有效综合利用多种信息筛选关键词,关键词的排序不具有逻辑性等问题,使得无监督的关键词提取方法效果欠佳。公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
技术实现思路
本专利技术的目的在于提供一种关键词提取方法及系统,其能够快速准确地提取出关键词。为实现上述目的,本专利技术提供了一种关键词提取方法,其包括:对新闻文本进行分词从而将所述新闻文本切分成以词为最小语义单元的序列;对所述新闻文本进行实体识别并且提取出各个实体词汇;对所述序列中的位置相邻的至少两个词进行组合,获得组合后的词汇,判断所述组合后的词汇是否为某个实体词汇,若组合后的词汇是所述某个实体词汇,则在所述序列中采用所述某个实体词汇代替所述某个实体词汇组合前的各词;基于词图模型的关键词提取算法从所述序列中提取出候选的各个关键词词汇,从而得到第一候选关键词词汇集合,并且基于统计特征的关键词提取算法从所述序列中提取出候选的关键词词汇,从而得到第二候选关键词词汇集合;求取所述第一候选关键词词汇集合和所述第二候选关键词词汇集合的交集。在本专利技术的一实施方式中,所述关键词提取方法还包括:将所述交集中的各个候选的关键词词汇按照所述各个候选的关键词词汇在所述新闻文本中出现的先后顺序进行排序,从而得到第三候选关键词词汇集合。在本专利技术的一实施方式中,所述关键词提取方法还包括:将所述交集中的各个候选的关键词词汇按照语言学规律进行排序,从而得到第三候选关键词词汇集合。在本专利技术的一实施方式中,所述关键词提取方法还包括:计算所述第三候选关键词词汇集合中的相邻的两个词的互信息,将互信息值大于预设阈值的所述相邻的两个词进行组合,组合为一个词,从而得到最终的关键词词汇集合。基于同样的专利技术构思,本专利技术还提供了一种关键词提取系统,其特征在于,包括:分词模块、实体识别模块、第一组合模块、第一关键词提取算法模块、第二关键词提取算法模块、交集求取模块。分词模块用于对新闻文本进行分词从而将所述新闻文本切分成以词为最小语义单元的序列;实体识别模块与所述分词模块相耦合,用于对所述新闻文本进行实体识别并且提取出各个实体词汇;第一组合模块与所述分词模块以及所述实体识别模块均相耦合,用于对所述序列中的位置相邻的至少两个词进行组合,获得组合后的词汇,判断所述组合后的词汇是否为某个实体词汇,若组合后的词汇是所述某个实体词汇,则在所述序列中采用所述某个实体词汇代替所述某个实体词汇组合前的各词;第一关键词提取算法模块与所述第一组合模块相耦合,用于基于词图模型的关键词提取算法从所述序列中提取出候选的各个关键词词汇,从而得到第一候选关键词词汇集合;第二关键词提取算法模块与所述第一组合模块相耦合,用于基于统计特征的关键词提取算法从所述序列中提取出候选的关键词词汇,从而得到第二候选关键词词汇集合;交集求取模块与所述第一关键词提取算法模块以及所述第二关键词提取算法模块均相耦合,用于求取所述第一候选关键词词汇集合和所述第二候选关键词词汇集合的交集。在本专利技术的一实施方式中,所述关键词提取系统还包括:排序模块,其与所述交集求取模块相耦合,用于将所述交集中的各个候选的关键词词汇按照所述各个候选的关键词词汇在所述新闻文本中出现的先后顺序进行排序,从而得到第三候选关键词词汇集合。在本专利技术的一实施方式中,所述关键词提取系统还包括:排序模块,其与所述交集求取模块相耦合,用于将所述交集中的各个候选的关键词词汇按照语言学规律进行排序,从而得到第三候选关键词词汇集合。在本专利技术的一实施方式中,所述关键词提取系统还包括:第二组合模块,第二组合模块与所述排序模块相耦合,用于计算所述第三候选关键词词汇集合中的相邻的两个词的互信息,将互信息值大于预设阈值的所述相邻的两个词进行组合,组合为一个词,从而得到最终的关键词词汇集合。基于同样的专利技术构思,本专利技术还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上述任一实施方式所述的关键词提取方法的步骤。基于同样的专利技术构思,本专利技术还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一实施方式所述的关键词提取方法的步骤。与现有技术相比,根据本专利技术的关键词提取方法及系统,不需要标注语料,且利用实体识别来修复分错的词汇,利用词图模型和统计特征分别筛选出关键词集合,对两个集合求取交集,可以快速且准确地提取出关键词。优选地,还对交集中的关键词进行排序,并借助互信息组合词汇,进一步地提高了关键词的提取准确性。附图说明图1是根据本专利技术一实施方式的关键词提取方法的步骤组成;图2是根据本专利技术一实施方式的关键词提取方法的步骤组成;图3是根据本专利技术一实施方式的关键词提取系统的模块组成;图4是根据本专利技术一实施方式的关键词提取系统的模块组成。具体实施方式下面结合附图,对本专利技术的具体实施方式进行详细描述,但应当理解本发本文档来自技高网...
【技术保护点】
1.一种关键词提取方法,其特征在于,包括:/n对新闻文本进行分词从而将所述新闻文本切分成以词为最小语义单元的序列;/n对所述新闻文本进行实体识别并且提取出各个实体词汇;/n对所述序列中的位置相邻的至少两个词进行组合,获得组合后的词汇,判断所述组合后的词汇是否为某个实体词汇,若组合后的词汇是所述某个实体词汇,则在所述序列中采用所述某个实体词汇代替所述某个实体词汇组合前的各词;/n基于词图模型的关键词提取算法从所述序列中提取出候选的各个关键词词汇,从而得到第一候选关键词词汇集合,并且基于统计特征的关键词提取算法从所述序列中提取出候选的关键词词汇,从而得到第二候选关键词词汇集合;以及/n求取所述第一候选关键词词汇集合和所述第二候选关键词词汇集合的交集。/n
【技术特征摘要】
1.一种关键词提取方法,其特征在于,包括:
对新闻文本进行分词从而将所述新闻文本切分成以词为最小语义单元的序列;
对所述新闻文本进行实体识别并且提取出各个实体词汇;
对所述序列中的位置相邻的至少两个词进行组合,获得组合后的词汇,判断所述组合后的词汇是否为某个实体词汇,若组合后的词汇是所述某个实体词汇,则在所述序列中采用所述某个实体词汇代替所述某个实体词汇组合前的各词;
基于词图模型的关键词提取算法从所述序列中提取出候选的各个关键词词汇,从而得到第一候选关键词词汇集合,并且基于统计特征的关键词提取算法从所述序列中提取出候选的关键词词汇,从而得到第二候选关键词词汇集合;以及
求取所述第一候选关键词词汇集合和所述第二候选关键词词汇集合的交集。
2.如权利要求1所述的关键词提取方法,其特征在于,所述关键词提取方法还包括:
将所述交集中的各个候选的关键词词汇按照所述各个候选的关键词词汇在所述新闻文本中出现的先后顺序进行排序,从而得到第三候选关键词词汇集合。
3.如权利要求1所述的关键词提取方法,其特征在于,所述关键词提取方法还包括:
将所述交集中的各个候选的关键词词汇按照语言学规律进行排序,从而得到第三候选关键词词汇集合。
4.如权利要求2或3所述的关键词提取方法,其特征在于,所述关键词提取方法还包括:
计算所述第三候选关键词词汇集合中的相邻的两个词的互信息,将互信息值大于预设阈值的所述相邻的两个词进行组合,组合为一个词,从而得到最终的关键词词汇集合。
5.一种关键词提取系统,其特征在于,包括:
分词模块,用于对新闻文本进行分词从而将所述新闻文本切分成以词为最小语义单元的序列;
实体识别模块,与所述分词模块相耦合,用于对所述新闻文本进行实体识别并且提取出各个实体词汇;
第一组合模块,与所述分词模块以及所述实体识别模块均相耦合,用于对所述序列中的位置相邻的至少两个词进行组合,获得组合后的词汇,判断所述组合后的...
【专利技术属性】
技术研发人员:郑志军,程国艮,
申请(专利权)人:中译语通科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。