一种关键词提取方法和装置制造方法及图纸

技术编号:22295632 阅读:25 留言:0更新日期:2019-10-15 04:45
本申请实施例公开了一种关键词提取方法和装置,所述方法包括:获取文本集,对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词,根据候选关键词对文本单元重要程度的文本单元度量参数,获取候选关键词针对文本单元的单元频率信息,根据单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词,根据单元关键词对文本集重要程度的文本集度量参数,获取单元关键词针对文本集的文本频率信息,根据文本频率信息,从文本集的多个单元关键词中提取出关键词。该方案可以提高文本集中关键词提取的准确性。

A Method and Device for Keyword Extraction

【技术实现步骤摘要】
一种关键词提取方法和装置
本申请涉及计算机
,具体涉及一种关键词提取方法和装置。
技术介绍
关键词为能够反应文本主题或者文本主要内容的词语。比如,用户在查询书籍文本时,可以通过书籍文本对应的关键词,了解到该书籍文本的主题或者书籍文本中主要叙述的内容,进而判断该书籍文本是否为用户需要的书籍文本,因此,对于文本而言,准确的提取关键词可以提升用户针对性获取信息的效率。而现在对于书籍文本中关键词的提取方法不够准确。
技术实现思路
本申请实施例提供一种关键词提取方法和装置,可以根据关键词针对文本单元的单元频率信息、以及关键词针对文本集的文本频率信息,提取出文本集中的关键词,从而提高文本集中关键词提取的准确性。本申请实施例提供一种关键词提取方法,包括:获取文本集,所述文本集中包括多个呈一定排序关系的文本单元;对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词;根据所述候选关键词对所述文本单元重要程度的文本单元度量参数,获取所述候选关键词针对所述文本单元的单元频率信息;根据所述单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词;根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取所述单元关键词针对所述文本集的文本频率信息;根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。相应的,本申请实施例还提供一种关键词提取装置,包括:文本集获取模块,用于获取文本集,所述文本集中包括多个呈一定排序关系的文本单元;第一提取模块,用于对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词;第一信息获取模块,用于根据所述候选关键词对所述文本单元重要程度的文本单元度量参数,获取所述候选关键词针对所述文本单元的单元频率信息;选取模块,用于根据所述单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词;第二信息获取模块,用于根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取所述单元关键词针对所述文本集的文本频率信息;第二提取模块,用于根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。可选的,在一些实施例中,所述第一信息获取模块可以包括单元主题概率获取子模块、相关信息获取子模块、单元频率子信息获取子模块、词语长度信息获取子模块和单元频率信息获取子模块,如下:所述单元主题概率获取子模块,可以用于获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率;所述相关信息获取子模块,可以用于根据所述候选关键词对应的关键词主题概率、以及所述候选关键词所在文本单元对应的单元主题概率,获取所述候选关键词与所述文本单元之间的主题相关信息;所述单元频率子信息获取子模块,可以用于根据所述候选关键词在相应文本单元中出现的频次,获取所述候选关键词针对文本单元的单元频率子信息;所述词语长度信息获取子模块,可以用于基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;所述单元频率信息获取子模块,可以用于将主题相关信息、单元频率子信息以及词语长度信息进行融合,得到所述候选关键词针对所述文本单元的单元频率信息。所述单元频率子信息获取子模块可以用于:获取所述文本单元中所述候选关键词出现的频次占所述文本单元中所有候选关键词数量的单元词语占比子信息,从所述文本集的多个文本单元中选取包括所述候选关键词的候选目标文本单元,获取候选目标文本单元数量占所述文本集中所有文本单元数量的文本单元占比子信息,基于所述单元词语占比子信息和所述文本单元占比子信息,获取所述候选关键词针对文本单元的单元频率子信息。所述单元主题概率获取子模块可以用于:确定每个候选关键词对应预设主题的初始关键词主题概率、以及每个文本单元对应预设主题的初始单元主题概率,基于所述初始关键词主题概率和所述初始单元主题概率,通过预设采样算法对主题概率分布进行采样,得到每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率,当所述关键词主题概率和所述单元主题概率满足概率调整条件时,将所述初始关键词主题概率调整为关键词主题概率,并将所述初始单元主题概率调整为单元主题概率,返回执行基于所述初始关键词主题概率和所述初始单元主题概率,通过预设采样算法对主题概率分布进行采样,得到每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率的步骤,当所述关键词主题概率和所述单元主题概率不满足概率调整条件时,获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率。可选的,在一些实施例中,所述第二信息获取模块可以包括第一文本频率子信息获取子模块、第二文本频率子信息获取子模块和文本频率信息获取子模块,如下:所述第一文本频率子信息获取子模块,可以用于根据所述单元关键词的单元频率信息、以及所述单元关键词在所述文本集中出现的频次,获取所述单元关键词对应的第一文本频率子信息;所述第二文本频率子信息获取子模块,可以用于根据所述文本集的文本单元中所述单元关键词对应的单元频率信息,获取所述单元关键词对应的第二文本频率子信息;所述文本频率信息获取子模块,可以用于将所述第一文本频率子信息和所述第二文本频率子信息进行融合,得到所述单元关键词针对所述文本集的文本频率信息。所述第一文本频率子信息获取子模块可以用于:将所述单元关键词的单元频率信息、以及所述单元关键词在所述文本集中出现的频次进行融合,得到所述单元关键词在所述文本集中的融合频率子信息,根据所述文本集中每个单元关键词的单元频率信息,获取所述文本集中所有单元关键词的累计频率子信息,根据所述融合频率子信息占所述累计频率子信息的比值,获取所述单元关键词对应的第一文本频率子信息。所述第二文本频率子信息获取子模块可以用于:获取所述文本集的每个文本单元中单元频率信息值最大的最大频率关键词,将所述文本集中所有最大频率关键词对应的单元频率信息进行累加,得到综合累计频率子信息,从所述文本集的多个文本单元中选取包括所述单元关键词的目标文本单元,获取每个目标文本单元中所述单元关键词对应值最大的单元频率信息,将所有目标文本单元中所述单元关键词对应值最大的单元频率信息进行累加,得到指定累计频率子信息,根据所述综合累计频率子信息、以及所述指定累计频率子信息获取所述单元关键词对应的第二文本频率子信息。可选的,在一些实施例中,所述第一提取模块可以包括原始关键词获取子模块和候选关键词获取子模块,如下:所述原始关键词获取子模块,可以用于对每个文本单元的文本内容进行文本分词处理,将所述文本单元的文本内容分为多个原始关键词;所述候选关键词获取子模块,可以用于根据预设词语合并规则对所述原始关键词进行词语合并,得到每个文本单元对应的候选关键词。所述候选关键词获取子模块可以用于:根据预设词语合并规则对所述原始关键词进行词语合并,得到每个文本单元对应的原始候选关键词,当所述原始候选关键词满足预设拆分条件时,将所述原始候选关键词拆分为至少一个候选关键词,当所述原始候选关键词不满足预设拆分条件时,将所述原始候选关键词确定为候选关键词。可选的,在一些实施例中,所述关键词提本文档来自技高网...

【技术保护点】
1.一种关键词提取方法,其特征在于,包括:获取文本集,所述文本集中包括多个呈一定排序关系的文本单元;对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词;根据所述候选关键词对所述文本单元重要程度的文本单元度量参数,获取所述候选关键词针对所述文本单元的单元频率信息;根据所述单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词;根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取所述单元关键词针对所述文本集的文本频率信息;根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。

【技术特征摘要】
1.一种关键词提取方法,其特征在于,包括:获取文本集,所述文本集中包括多个呈一定排序关系的文本单元;对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词;根据所述候选关键词对所述文本单元重要程度的文本单元度量参数,获取所述候选关键词针对所述文本单元的单元频率信息;根据所述单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词;根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取所述单元关键词针对所述文本集的文本频率信息;根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。2.根据权利要求1所述的关键词提取方法,其特征在于,所述文本单元度量参数包括主题相关信息、单元频率子信息以及词语长度信息;根据所述候选关键词对所述文本单元重要程度的文本单元度量参数,获取所述候选关键词针对所述文本单元的单元频率信息,包括:获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率;根据所述候选关键词对应的关键词主题概率、以及所述候选关键词所在文本单元对应的单元主题概率,获取所述候选关键词与所述文本单元之间的主题相关信息;根据所述候选关键词在相应文本单元中出现的频次,获取所述候选关键词针对文本单元的单元频率子信息;基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;将主题相关信息、单元频率子信息以及词语长度信息进行融合,得到所述候选关键词针对所述文本单元的单元频率信息。3.根据权利要求2所述的关键词提取方法,其特征在于,根据所述候选关键词在相应文本单元中出现的频次,获取所述候选关键词针对文本单元的单元频率子信息,包括:获取所述文本单元中所述候选关键词出现的频次占所述文本单元中所有候选关键词数量的单元词语占比子信息;从所述文本集的多个文本单元中选取包括所述候选关键词的候选目标文本单元;获取候选目标文本单元数量占所述文本集中所有文本单元数量的文本单元占比子信息;基于所述单元词语占比子信息和所述文本单元占比子信息,获取所述候选关键词针对文本单元的单元频率子信息。4.根据权利要求2所述的关键词提取方法,其特征在于,获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率,包括:确定每个候选关键词对应预设主题的初始关键词主题概率、以及每个文本单元对应预设主题的初始单元主题概率;基于所述初始关键词主题概率和所述初始单元主题概率,通过预设采样算法对主题概率分布进行采样,得到每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率;当所述关键词主题概率和所述单元主题概率满足概率调整条件时,将所述初始关键词主题概率调整为关键词主题概率,并将所述初始单元主题概率调整为单元主题概率;返回执行基于所述初始关键词主题概率和所述初始单元主题概率,通过预设采样算法对主题概率分布进行采样,得到每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率的步骤;当所述关键词主题概率和所述单元主题概率不满足概率调整条件时,获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率。5.根据权利要求1所述的关键词提取方法,其特征在于,所述文本集度量参数包括第一文本频率子信息和第二文本频率子信息;根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取所述单元关键词针对所述文本...

【专利技术属性】
技术研发人员:王兴光许阳寅牛成
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1