文本信息关键词计算方法、装置、程序、设备以及介质制造方法及图纸

技术编号:39241755 阅读:8 留言:0更新日期:2023-10-30 11:54
本发明专利技术提供了一种文本信息关键词计算方法、装置、程序产品、设备以及介质,方法包括:计算所述分词词项的第一权重;根据所述分词词项的第一权重,计算所述分词词项的第二权重;根据所述分词词项在所述目标文本信息中出现的次数,确定包含所述分词词项的候选短语;计算所述候选短语的权重;根据所述候选短语的权重和所述分词词项的第二权重,对所述分词词项和所述候选短语进行混合排序,得到所述目标文本信息的关键词,由此,实现提升关键词的准确性。实现提升关键词的准确性。实现提升关键词的准确性。

【技术实现步骤摘要】
文本信息关键词计算方法、装置、程序、设备以及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种文本信息关键词计算方法、装置、程序产品、设备及介质。

技术介绍

[0002]基于机器学习的神经网络模型可以进行各类视频推荐,人工智能(Artificial Intelligence AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
[0003]在搜索引擎中用户可以输入查询词(query),对查询词做分词后可以得到多个分词词项(term)。当用户输入一个查询词时,目标是获取到与该查询词相关的有用信息,一个好的搜索引擎在于能准确返回用户想找的信息并将它们作为推荐的首位。这一个过程中需要准确地计算文本信息的关键词,但是由于文本信息的分词粒度不同,所得到的关键词的准确性较差,影响了文本信息的搜索和推荐。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种文本信息关键词计算方法、装置、程序产品、设备及介质,能够实现利用文本信息的分词粒度,根据候选短语的权重和分词词项的第二权重,对分词词项和所述候选短语进行混合排序,得到目标文本信息的关键词,保证关键词的准确性。
[0005]本专利技术实施例提供了一种文本信息关键词计算方法,所述方法包括:
[0006]获取目标文本信息中的每一个语句的分词词项,其中,所述目标文本信息包括至少一个语句,所述语句包括至少一个分词词项;
[0007]计算所述分词词项的第一权重;
[0008]根据所述分词词项的第一权重,计算所述分词词项的第二权重;
[0009]根据所述分词词项在所述目标文本信息中出现的次数,确定包含所述分词词项的候选短语;
[0010]计算所述候选短语的权重;
[0011]根据所述候选短语的权重和所述分词词项的第二权重,对所述分词词项和所述候选短语进行混合排序,得到所述目标文本信息的关键词。
[0012]本专利技术实施例还提供了一种文本信息关键词计算装置,所述装置包括:
[0013]信息传输模块,用于获取目标文本信息中的每一个语句的分词词项,其中,所述目标文本信息包括至少一个语句,所述语句包括至少一个分词词项;
[0014]信息处理模块,用于计算所述分词词项的第一权重;
[0015]所述信息处理模块,用于根据所述分词词项的第一权重,计算所述分词词项的第
二权重;
[0016]所述信息处理模块,用于根据所述分词词项在所述目标文本信息中出现的次数,确定包含所述分词词项的候选短语;
[0017]所述信息处理模块,用于计算所述候选短语的权重;
[0018]所述信息处理模块,用于根据所述候选短语的权重和所述分词词项的第二权重,对所述分词词项和所述候选短语进行混合排序,得到所述目标文本信息的关键词。
[0019]上述方案中,所述信息处理模块,用于将所述分词词项转换为分词词项向量;
[0020]所述信息处理模块,用于通过双向长短时记忆网络的嵌入层对所述目标文本信息进行处理,得到所述分词词项的嵌入特征向量,其中,所述双向长短时记忆网络包括:嵌入层、双向长短时记忆层和全连接层;
[0021]所述信息处理模块,用于通过所述双向长短时记忆层的处理和所述全连接层的转化,得到所述分词词项的嵌入特征向量的分类结果;
[0022]所述信息处理模块,用于将所述分词词项的嵌入特征向量的分类结果转换为所述分词词项的第一权重。
[0023]上述方案中,所述信息处理模块,用于获取包括所述分词词项的所有语句;
[0024]所述信息处理模块,用于构造分词词项节点和语句节点;
[0025]所述信息处理模块,用于利用所述第一权重作为边线,连接所述分词词项节点和所述语句节点;
[0026]所述信息处理模块,用于通过迭代更新所述边线,直至所述分词词项的第二权重达到平稳分布时,确定所述分词词项的第二权重。
[0027]上述方案中,
[0028]所述信息处理模块,用于获取所述分词词项在所述目标文本信息中出现的次数;
[0029]所述信息处理模块,用于筛选出现次数最多的所述分词词项作为目标分词词项;
[0030]所述信息处理模块,用于确定与所述目标分词词项相匹配的窗口值;
[0031]所述信息处理模块,用于根据所述窗口值和所述目标分词词项,筛选与所述目标分词词项相连接的关联分词词项;
[0032]所述信息处理模块,用于将所述目标分词词项和所述关联分词词项组合为所述候选短语。
[0033]上述方案中,
[0034]所述信息处理模块,用于确定所述候选短语中所包括的所有分词词项;
[0035]所述信息处理模块,用于获取所述候选短语中每一个分词词项对应的第二权重;
[0036]所述信息处理模块,用于根据所述每一个分词词项对应的第二权重的加权平均值,确定所述候选短语的权重。
[0037]上述方案中,
[0038]所述信息处理模块,用于获取所述双向长短时记忆网络的训练样本集合,其中,所述训练样本集合包括正例训练样本和负例训练样本;
[0039]所述信息处理模块,用于确定所述双向长短时记忆网络的交叉熵损失函数;
[0040]所述信息处理模块,用于通过所述训练样本集合,对所述双向长短时记忆网络进行训练,当所述交叉熵损失函数达到收敛条件时,确定所述损失函数中嵌入层的网络参数、
双向长短时记忆层的网络参数和全连接层的网络参数。
[0041]上述方案中,
[0042]所述信息处理模块,用于获取目标对象的文本信息点击记录;
[0043]所述信息处理模块,用于根据所述文本信息点击记录,获取所述文本信息标题对应的查询语句集合;
[0044]所述信息处理模块,用于对所述查询语句集合中的每一个查询语句进行分词处理,得到所述双向长短时记忆网络的训练样本集合。
[0045]上述方案中,
[0046]所述信息处理模块,用于获取目标对象的文本信息点击记录;
[0047]所述信息处理模块,用于根据所述文本信息点击记录,确定所述文本信息点击记录图网络;
[0048]所述信息处理模块,用于根据所述文本信息点击记录图网络,构建所述文本信息的标题函数;
[0049]所述信息处理模块,用于根据文本信息的标题函数,构建查询语句函数;
[0050]所述信息处理模块,用于通过所述查询语句函数,计算一个查询语句;
[0051]所述信息处理模块,用于对每一个查询语句进行分词处理,得到所述双向长短时记忆网络的训练样本集合。
[0052]本专利技术实施例还提供了一种计算机程序产品,包括计算机程序或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本信息关键词计算方法,其特征在于,所述方法包括:获取目标文本信息中的每一个语句的分词词项,其中,所述目标文本信息包括至少一个语句,所述语句包括至少一个分词词项;计算所述分词词项的第一权重;根据所述分词词项的第一权重,计算所述分词词项的第二权重;根据所述分词词项在所述目标文本信息中出现的次数,确定包含所述分词词项的候选短语;计算所述候选短语的权重;根据所述候选短语的权重和所述分词词项的第二权重,对所述分词词项和所述候选短语进行混合排序,得到所述目标文本信息的关键词。2.根据权利要求1所述的方法,其特征在于,所述计算所述分词词项的第一权重,包括:将所述分词词项转换为分词词项向量;通过双向长短时记忆网络的嵌入层对所述目标文本信息进行处理,得到所述分词词项的嵌入特征向量,其中,所述双向长短时记忆网络包括:嵌入层、双向长短时记忆层和全连接层;通过所述双向长短时记忆层的处理和所述全连接层的转化,得到所述分词词项的嵌入特征向量的分类结果;将所述分词词项的嵌入特征向量的分类结果转换为所述分词词项的第一权重。3.根据权利要求1所述的方法,其特征在于,所述根据所述分词词项的第一权重,计算所述分词词项的第二权重,包括:获取包括所述分词词项的所有语句;构造分词词项节点和语句节点;利用所述第一权重作为边线,连接所述分词词项节点和所述语句节点;通过迭代更新所述边线,直至所述分词词项的第二权重达到平稳分布时,确定所述分词词项的第二权重。4.根据权利要求1所述的方法,其特征在于,所述根据所述分词词项在所述目标文本信息中出现的次数,确定包含所述分词词项的候选短语,包括:获取所述分词词项在所述目标文本信息中出现的次数;筛选出现次数最多的所述分词词项作为目标分词词项;确定与所述目标分词词项相匹配的窗口值;根据所述窗口值和所述目标分词词项,筛选与所述目标分词词项相连接的关联分词词项;将所述目标分词词项和所述关联分词词项组合为所述候选短语。5.根据权利要求1所述的方法,其特征在于,所述计算所述候选短语的权重,包括:确定所述候选短语中所包括的所有分词词项;获取所述候选短语中每一个分词词项对应的第二权重;根据所述每一个分词词项对应的第二权重的加权平均值,确定所述候选短语的权重。6.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取所述双向长短时记忆网络的训练样本集合,其中,所述训练样本集合包括正例训
练样本和负例训练样本;...

【专利技术属性】
技术研发人员:邓亚平
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1