文本信息关键词计算方法、装置、程序、设备以及介质制造方法及图纸

技术编号：39241755 阅读：8 留言：0更新日期：2023-10-30 11:54

本发明专利技术提供了一种文本信息关键词计算方法、装置、程序产品、设备以及介质，方法包括：计算所述分词词项的第一权重；根据所述分词词项的第一权重，计算所述分词词项的第二权重；根据所述分词词项在所述目标文本信息中出现的次数，确定包含所述分词词项的候选短语；计算所述候选短语的权重；根据所述候选短语的权重和所述分词词项的第二权重，对所述分词词项和所述候选短语进行混合排序，得到所述目标文本信息的关键词，由此，实现提升关键词的准确性。实现提升关键词的准确性。实现提升关键词的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本信息关键词计算方法、装置、程序、设备以及介质

[0001]本专利技术涉及人工智能
，尤其涉及一种文本信息关键词计算方法、装置、程序产品、设备及介质。

技术介绍

[0002]基于机器学习的神经网络模型可以进行各类视频推荐，人工智能(Artificial Intelligence AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
[0003]在搜索引擎中用户可以输入查询词(query)，对查询词做分词后可以得到多个分词词项(term)。当用户输入一个查询词时，目标是获取到与该查询词相关的有用信息，一个好的搜索引擎在于能准确返回用户想找的信息并将它们作为推荐的首位。这一个过程中需要准确地计算文本信息的关键词，但是由于文本信息的分词粒度不同，所得到的关键词的准确性较差，影响了文本信息的搜索和推荐。

技术实现思路

[0004]有鉴于此，本专利技术实施例提供一种文本信息关键词计算方法、装置、程序产品、设备及介质，能够实现利用文本信息的分词粒度，根据候选短语的权重和分词词项的第二权重，对分词词项和所述候选短语进行混合排序，得到目标文本信息的关键词，保证关键词的准确性。
[0005]本专利技术实施例提供了一种文本信息关键词计算方法，所述方法包括：
[...

【技术保护点】

【技术特征摘要】
1.一种文本信息关键词计算方法，其特征在于，所述方法包括：获取目标文本信息中的每一个语句的分词词项，其中，所述目标文本信息包括至少一个语句，所述语句包括至少一个分词词项；计算所述分词词项的第一权重；根据所述分词词项的第一权重，计算所述分词词项的第二权重；根据所述分词词项在所述目标文本信息中出现的次数，确定包含所述分词词项的候选短语；计算所述候选短语的权重；根据所述候选短语的权重和所述分词词项的第二权重，对所述分词词项和所述候选短语进行混合排序，得到所述目标文本信息的关键词。2.根据权利要求1所述的方法，其特征在于，所述计算所述分词词项的第一权重，包括：将所述分词词项转换为分词词项向量；通过双向长短时记忆网络的嵌入层对所述目标文本信息进行处理，得到所述分词词项的嵌入特征向量，其中，所述双向长短时记忆网络包括：嵌入层、双向长短时记忆层和全连接层；通过所述双向长短时记忆层的处理和所述全连接层的转化，得到所述分词词项的嵌入特征向量的分类结果；将所述分词词项的嵌入特征向量的分类结果转换为所述分词词项的第一权重。3.根据权利要求1所述的方法，其特征在于，所述根据所述分词词项的第一权重，计算所述分词词项的第二权重，包括：获取包括所述分词词项的所有语句；构造分词词项节点和语句节点；利用所述第一权重作为边线，连接所述分词词项节点和所述语句节点；通过迭代更新所述边线，直至所述分词词项的第二权重达到平稳分布时，确定所述分词词项的第二权重。4.根据权利要求1所述的方法，其特征在于，所述根据所述分词词项在所述目标文本信息中出现的次数，确定包含所述分词词项的候选短语，包括：获取所述分词词项在所述目标文本信息中出现的次数；筛选出现次数最多的所述分词词项作为目标分词词项；确定与所述目标分词词项相匹配的窗口值；根据所述窗口值和所述目标分词词项，筛选与所述目标分词词项相连接的关联分词词项；将所述目标分词词项和所述关联分词词项组合为所述候选短语。5.根据权利要求1所述的方法，其特征在于，所述计算所述候选短语的权重，包括：确定所述候选短语中所包括的所有分词词项；获取所述候选短语中每一个分词词项对应的第二权重；根据所述每一个分词词项对应的第二权重的加权平均值，确定所述候选短语的权重。6.根据权利要求2所述的方法，其特征在于，所述方法还包括：获取所述双向长短时记忆网络的训练样本集合，其中，所述训练样本集合包括正例训
练样本和负例训练样本；...

【专利技术属性】
技术研发人员：邓亚平，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人