【技术实现步骤摘要】
一种关键词提取方法和装置
本申请涉及计算机
,具体涉及一种关键词提取方法和装置。
技术介绍
关键词为能够反应文本主题或者文本主要内容的词语。比如,用户在查询书籍文本时,可以通过书籍文本对应的关键词,了解到该书籍文本的主题或者书籍文本中主要叙述的内容,进而判断该书籍文本是否为用户需要的书籍文本,因此,对于文本而言,准确的提取关键词可以提升用户针对性获取信息的效率。而现在对于书籍文本中关键词的提取方法不够准确。
技术实现思路
本申请实施例提供一种关键词提取方法和装置,可以根据关键词针对文本单元的单元频率信息、以及关键词针对文本集的文本频率信息,提取出文本集中的关键词,从而提高文本集中关键词提取的准确性。本申请实施例提供一种关键词提取方法,包括:获取文本集,所述文本集中包括多个呈一定排序关系的文本单元;对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词;根据所述候选关键词对所述文本单元重要程度的文本单元度量参数,获取所述候选关键词针对所述文本单元的单元频率信息;根据所述单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词;根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取所述单元关键词针对所述文本集的文本频率信息;根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。相应的,本申请实施例还提供一种关键词提取装置,包括:文本集获取模块,用于获取文本集,所述文本集中包括多个呈一定排序关系的文本单元;第一提取模块,用于对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词;第一 ...
【技术保护点】
1.一种关键词提取方法,其特征在于,包括:获取文本集,所述文本集中包括多个呈一定排序关系的文本单元;对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词;根据所述候选关键词对所述文本单元重要程度的文本单元度量参数,获取所述候选关键词针对所述文本单元的单元频率信息;根据所述单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词;根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取所述单元关键词针对所述文本集的文本频率信息;根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。
【技术特征摘要】
1.一种关键词提取方法,其特征在于,包括:获取文本集,所述文本集中包括多个呈一定排序关系的文本单元;对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词;根据所述候选关键词对所述文本单元重要程度的文本单元度量参数,获取所述候选关键词针对所述文本单元的单元频率信息;根据所述单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词;根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取所述单元关键词针对所述文本集的文本频率信息;根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。2.根据权利要求1所述的关键词提取方法,其特征在于,所述文本单元度量参数包括主题相关信息、单元频率子信息以及词语长度信息;根据所述候选关键词对所述文本单元重要程度的文本单元度量参数,获取所述候选关键词针对所述文本单元的单元频率信息,包括:获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率;根据所述候选关键词对应的关键词主题概率、以及所述候选关键词所在文本单元对应的单元主题概率,获取所述候选关键词与所述文本单元之间的主题相关信息;根据所述候选关键词在相应文本单元中出现的频次,获取所述候选关键词针对文本单元的单元频率子信息;基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;将主题相关信息、单元频率子信息以及词语长度信息进行融合,得到所述候选关键词针对所述文本单元的单元频率信息。3.根据权利要求2所述的关键词提取方法,其特征在于,根据所述候选关键词在相应文本单元中出现的频次,获取所述候选关键词针对文本单元的单元频率子信息,包括:获取所述文本单元中所述候选关键词出现的频次占所述文本单元中所有候选关键词数量的单元词语占比子信息;从所述文本集的多个文本单元中选取包括所述候选关键词的候选目标文本单元;获取候选目标文本单元数量占所述文本集中所有文本单元数量的文本单元占比子信息;基于所述单元词语占比子信息和所述文本单元占比子信息,获取所述候选关键词针对文本单元的单元频率子信息。4.根据权利要求2所述的关键词提取方法,其特征在于,获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率,包括:确定每个候选关键词对应预设主题的初始关键词主题概率、以及每个文本单元对应预设主题的初始单元主题概率;基于所述初始关键词主题概率和所述初始单元主题概率,通过预设采样算法对主题概率分布进行采样,得到每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率;当所述关键词主题概率和所述单元主题概率满足概率调整条件时,将所述初始关键词主题概率调整为关键词主题概率,并将所述初始单元主题概率调整为单元主题概率;返回执行基于所述初始关键词主题概率和所述初始单元主题概率,通过预设采样算法对主题概率分布进行采样,得到每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率的步骤;当所述关键词主题概率和所述单元主题概率不满足概率调整条件时,获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率。5.根据权利要求1所述的关键词提取方法,其特征在于,所述文本集度量参数包括第一文本频率子信息和第二文本频率子信息;根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取所述单元关键词针对所述文本...
【专利技术属性】
技术研发人员:王兴光,许阳寅,牛成,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。