文本的关键词提取方法、装置、设备及存储介质制造方法及图纸

技术编号:32235785 阅读:31 留言:0更新日期:2022-02-09 17:40
本申请提供一种文本的关键词提取方法、装置、设备及存储介质,涉及游戏技术领域。该方法包括:根据预先构建的关键词库中各关键词在各游戏所关联的样本文本中出现的频次,确定各关键词的歧义先验概率,该歧义先验概率用于指示关键词出现歧义的可能性,该关键词库中的关键词包括游戏领域相关实体的标准名以及别名,该游戏包括:与关键词关联的关联游戏以及不与关键词关联的非关联游戏;对待分析文本进行分词处理,得到词序列,该词序列中包括多个初始关键词;根据各初始关键词的歧义先验概率以及预设歧义先验概率,确定待分析文本中的目标关键词。应用本申请实施例,可以使获取到的待分析文本中的目标关键词精确度得到提高。文本中的目标关键词精确度得到提高。文本中的目标关键词精确度得到提高。

【技术实现步骤摘要】
文本的关键词提取方法、装置、设备及存储介质


[0001]本申请涉及游戏
,具体而言,涉及一种文本的关键词提取方法、装置、设备及存储介质。

技术介绍

[0002]游戏社区主要由玩家组成,在游戏社区内,玩家可通过分享游戏体验、攻略等文本内容进行互动,文本关键词提取技术能够系统性的获取游戏社区文本中讨论的主要对象,通常可包括关键词抽取和关键词分配这两种关键词提取方式,其中,由于关键词分配技术在提取关键词时具有更高的可控性,使其在新闻、搜索、信息流推荐等领域中有着广泛的应用。
[0003]目前,利用关键词分配技术对待分析文本中的关键词进行提取时,可将待分析文本与预先构建的关键词库进行匹配,将匹配得到的关键词直接作为候选关键词,然后再根据无监督算法或者有监督算法从候选关键词中确定待分析文本中的目标关键词。
[0004]然而,待分析文本中通常会有一些口语化表达的词,即使该关键词库中存储有口语化的关键词,这样也会导致获取到的待分析文本中的目标关键词精确度降低。

技术实现思路

[0005]本申请的目的在于,针对上述现有技术本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本的关键词提取方法,其特征在于,所述方法包括:根据预先构建的关键词库中各关键词在各游戏所关联的样本文本中出现的频次,确定各所述关键词的歧义先验概率,所述歧义先验概率用于指示关键词出现歧义的可能性,所述关键词库中的关键词包括游戏领域相关实体的标准名以及别名,所述游戏包括:与所述关键词关联的关联游戏以及不与所述关键词关联的非关联游戏;对待分析文本进行分词处理,得到词序列,所述词序列中包括多个初始关键词;根据各所述初始关键词的歧义先验概率以及预设歧义先验概率,确定所述待分析文本中的目标关键词。2.根据权利要求1所述的方法,其特征在于,所述根据预先构建的关键词库中各关键词在各游戏所关联的样本文本中出现的频次,确定各所述关键词的歧义先验概率,包括:对各所述游戏所关联的样本文本进行分词处理,得到样本词序列,所述样本词序列中包括多个关键词,所述样本文本包括:所述关联游戏涉及的文本,以及,所述非关联游戏涉及的文本;从所述样本词序列中筛选出属于所述关键词库的关键词;根据各所述关键词在各所述游戏所关联的样本文本中出现的频次以及各所述游戏所关联的样本文本数量,得到各所述关键词在各所述游戏下出现的第一概率集合,所述第一概率集合中包括多个概率,每个概率用于标识一个关键词在一个游戏下出现的概率;从各所述关键词对应的所述第一概率集合中筛选所述关联游戏对应的概率,得到各所述关键词在各所述关联游戏下出现的第二概率集合,所述第二概率集合中包括多个概率,每个概率用于标识一个关键词在一个所述关联游戏下出现的概率;根据所述第一概率集合以及所述第二概率集合,确定各所述关键词的歧义先验概率。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一概率集合以及所述第二概率集合,确定各所述关键词的歧义先验概率,包括:确定所述第一概率集合中的第一最大概率以及第一最小概率;确定所述第二概率集合中的第一最大概率;根据所述第一概率集合中的第一最大概率和第一最小概率以及所述第二概率集合中的第一最大概率,确定各所述关键词的歧义先验概率。4.根据权利要求1所述的方法,其特征在于,所述关键词库中的各所述关键词关联有游戏标识,所述根据各所述初始关键词的歧义先验概率以及预设歧义先验概率,确定所述待分析文本中的目标关键词,包括:根据所述待分析文本所属的游戏标识以及所述关键词库中各所述关键词对应的游戏标识,从各所述初始关键词中筛选出中间关键词,所述中间关键词对应的游戏标识与所述待分析文本所属的游戏标识的标识一致;根据所述中间关键词的歧义先验概率以及预设歧义先验概率,确定所述待分析文本中的目标关键词。5.根据权利要求1所述的方法,其特征在于,所述根据各所述初始关键词的歧义先验概率以及预设歧义先验概率,确定所述待分析文本中的目标关键词,包括:从所述关键词库中筛选出歧义先验概率小于第一预设歧义先验概率的关键词,并生成筛选出的各所述关键词对应的映射向量;
将所述词序列输入预先训练得到的向量生成模型中,得到各所述初始关键词对应的语义向量;根据所述筛选出的各所述关键词对应的映射向量以及各候选关键词对应的语义向量,确定与所述筛选出的各所述关键词匹配的各所述候选关键词对应的平均向量,所述候选关键词用于指示歧义先验概率大于所述预设歧义先验概率的初始关键词;将各所述候选关键词对应的语义向量以及各所述候选关键词对应的平均向量进行相似度分析,得到各所述候选关键词与所述游戏领域的关联度;将各所述候选关键词与所述游戏领域的关联度和预设关联度进行对比,得到参考关键词集合,所述参考关键词集合包括至少一个候选关键词;根据所述参考关键词集合中的各所述候选关键词以及与所述待分析文本关联的各评论文本,确定所述待分析文本中的目标关键词。6.根据权利要求5所述的方法,其特征在于,所述将各所述候选关键词对应的语义向量以及各所述候选关键词对应的平均向量进行相似度分析,得到各所述候选关键词与所述游戏领域的关联度,包括:将各所述候选关键词对应的语义向量以及各所述候选关键词对应的平均向量进行相似度分析,得到相似度满足预设条件的目标平均向量;根据各所述候选关键词对应的语义向量与所述目标语义向量之间的相似度,得到各所述候选关键词与所述游戏领域的关联...

【专利技术属性】
技术研发人员:王康旭
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1