基于人工智能的文本推荐方法及相关设备技术

技术编号:34337969 阅读:79 留言:0更新日期:2022-07-31 03:21
本申请提出一种基于人工智能的文本推荐方法、装置、电子设备及存储介质,基于人工智能的文本推荐方法包括:对文本进行分词获得多个词汇;对词汇进行编码以获取编码数据;对编码数据分类以获得多个语义组;计算待评估词汇对应的编码数据与每个语义组的相似度,并将最大相似度对应的语义组作为目标组;对目标组中的编码数据进行分类获得多个候选组;计算每个候选组的关联指标;按照所述关联指标由高到低的顺序依次推荐所述候选组中编码数据对应的词汇。该方法通过双重分类获得多个候选组并计算每个候选组的关联指标,从而能够基于关联指标推荐词汇,提升了文本推荐的准确度。提升了文本推荐的准确度。提升了文本推荐的准确度。

Text recommendation method and related equipment based on Artificial Intelligence

【技术实现步骤摘要】
基于人工智能的文本推荐方法及相关设备


[0001]本申请涉及人工智能
,尤其涉及一种基于人工智能的文本推荐方法、装置、电子设备及存储介质。

技术介绍

[0002]随着信息科技与互联网的飞速发展,人们在日常生活中获取知识的途径也越来越多样化。近年来,通过互联网和关键字检索相关文本内容的需求越来越大。
[0003]目前通常通过预先对文本添加类别标签,并依据标签检索相关文本的方法进行文本推荐,然而这种方式对需要耗费大量人力对文本数据进行预处理,人力成本较高,且准确度较低。

技术实现思路

[0004]鉴于以上内容,有必要提供一种基于人工智能的文本推荐方法及相关设备,以解决如何提高文本推荐的准确度这一技术问题,其中,相关设备包括基于人工智能的文本推荐装置、电子设备及存储介质。
[0005]本申请实施例提供一种基于人工智能的文本推荐方法,所述方法包括:
[0006]利用预设的分词工具对自然语言数据库中的文本进行分词获取多个词汇;
[0007]对所述词汇进行编码以获取每个词汇对应的编码数据;
[0008]对所述编码数据进行分类以获得多个语义组,每个语义组包含多个编码数据;
[0009]计算待评估词汇对应的编码数据与每个语义组的相似度,并将最大相似度对应的语义组作为目标组;
[0010]对所述目标组中的编码数据进行分类获得多个候选组,每个候选组包含多个编码数据;
[0011]计算每个候选组的关联指标,所述关联指标用以表征每个候选组中编码数据应被推荐的程度;
[0012]按照所述关联指标由高到低的顺序依次推荐所述候选组中编码数据对应的词汇。
[0013]上述基于人工智能的文本推荐方法通过对词汇进行编码获得了文本的量化表达,能够提升文本推荐的准确度,并对编码数据进行多次分类获得了优化的分类结果,进一步依据待评估的词汇从优化的分类结果中筛选出了目标组数据,进而通过对目标组数据进行二次分类获得了多个候选组数据,并评估每个候选组的关联指标,并依据关联指标向用户推荐词汇,从而能够提升文本推荐的准确度。
[0014]在一些实施例中,所述对所述编码数据进行分类以获得多个语义组包括:
[0015]依据预设的分类上限构建中心列表,并依据所述中心列表中的每个元素选取多个编码数据作为中心数据;
[0016]依据所述中心数据对所有编码数据进行多次分类以获得多个分类结果,每个分类结果包含多个词汇分类组;
[0017]计算每个分类结果的误差平方和以作为评估值,并计算所述评估值的差值以构建评估结果哈希表;
[0018]查找所述评估结果哈希表中的最小差值对应的分类结果,并将该分类结果中的所有词汇分类组作为语义组。
[0019]如此,通过对编码数据进行分类获得了多个分类结果,每个分类结果包含多个编码数据,并通过对分类结果进行评估以筛选出较为优化的分类结果,并将较为优化的分类结果中的词汇分类组作为语义组,从而提升了词汇分类的准确度。
[0020]在一些实施例中,所述依据所述中心数据对所述编码数据进行分类以获得分类结果,所述分类结果包含多个词汇分类组,包括:
[0021]a,将所有编码数据标记为0并随机选取一个编码数据作为当前数据;
[0022]b,分别计算所述当前数据与每个中心数据的欧式距离;
[0023]c,将所述当前数据标记为1并归类于较小欧式距离对应的中心数据所在的类别;
[0024]d,再次随机选取一个标记为0的编码数据作为当前数据,并重复步骤b至d,直到所有编码数据被标记为1则停止迭代并获得多个词汇分类组;
[0025]e,计算每个词汇分类组中所有编码数据的均值,若所述均值满足预设判别条件则将所述词汇分类组作为分类结果,否则将每个词汇分类组中距离所述均值最近的编码数据作为中心数据并重新进行步骤a至步骤e以获得分类结果。
[0026]如此,通过迭代的方式对编码数据进行聚类获得了多个词汇分类组,无需对词汇进行人工标记即可将编码数据对应的词汇划分为语义相近的多个词汇分类组,提升了文本推荐的效率。
[0027]在一些实施例中,所述计算每个分类结果的误差平方和以作为评估值,并计算所述评估值的差值以构建评估结果哈希表包括:
[0028]分别计算每个词汇分类组的误差,所述误差为每个词汇分类组中所有编码数据与中心数据的欧式距离的平方和;
[0029]分别计算每个分类结果中所有词汇分类组的误差之和以作为每个分类结果的评估值;
[0030]依据每个分类结果中词汇分类组的数量由小至大排列所述评估值,并计算相邻两个评估值的差值后,依据评估值的次序组合所述差值以构建评估结果哈希表。
[0031]如此,通过计算每个分类结果中每个词汇分类组的误差并进一步获得了每个分类结果的评估值,依据评估值构建了评估结果哈希表,便于后续对筛选较为优化的分类结果,从而能够提升文本推荐的效率。
[0032]在一些实施例中,所述对所述目标组中的编码数据进行分类获得多个候选组包括:
[0033]a,依据预设的半径阈值和密度阈值对目标组中的编码数据进行分类,所述类别包括核心数据与离群数据;
[0034]b,依据所述半径阈值设置判别条件,所述判别条件指两个数据之间的关系满足预设关系中的任意一种,所述预设关系包括:密度直达、密度可达、密度相连,所述密度直达指两个编码数据之间的欧式距离不小于所述半径阈值;所述密度可达指两个编码数据之间的关系不为密度直达且所述两个编码数据具备共同的密度直达的编码数据;所述密度相连指
两个编码数据之间的关系不为密度可达且具备共同的密度可达的编码数据;
[0035]c,将所有核心数据标记为“未访问”;
[0036]d,任选一个标记为“未访问”的核心数据作为目标数据;
[0037]e,依次遍历所有标签为“未访问”的核心数据,若遍历到的核心数据满足所述判别条件,则将该核心数据与目标数据归为同一个候选组,并将该候选组中的所有核心数据标记为“已访问”;
[0038]f,重复步骤d和e以获得多个候选组,并将所有离群数据作为一个候选组。
[0039]如此,通过对目标组中的编码数据进一步进行分类获得了多个候选组,从而能够将编码数据对应的词汇更细致的划分,以提升文本推荐的准确度。
[0040]在一些实施例中,所述评估每个候选组以获得每个候选组的关联指标包括:
[0041]计算每个候选组的均值,并将每个候选组中与所述均值的欧式距离最小的编码数据作为每个候选组的质心;
[0042]计算每个候选组中编码数据的方差以作为聚合度,所述聚合度用以表征候选组中编码数据对应的词汇的相似程度;
[0043]计算所述目标数据与所述质心数据的相似度,所述相似度越高则表明所述目标数据与所述质心数据越相似;
[0044]将所述聚合度与所述相似度输入自定义的归一化模型以获得归一化结果,并将所述归一化结果作为每个候选组本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的文本推荐方法,其特征在于,所述方法包括:利用预设的分词工具对自然语言数据库中的文本进行分词获取多个词汇;对所述词汇进行编码以获取每个词汇对应的编码数据;对所述编码数据进行分类以获得多个语义组,每个语义组包含多个编码数据;计算待评估词汇对应的编码数据与每个语义组的相似度,并将最大相似度对应的语义组作为目标组;对所述目标组中的编码数据进行分类获得多个候选组,每个候选组包含多个编码数据;计算每个候选组的关联指标,所述关联指标用以表征每个候选组中编码数据应被推荐的程度;按照所述关联指标由高到低的顺序依次推荐所述候选组中编码数据对应的词汇。2.如权利要求1所述的基于人工智能的文本推荐方法,其特征在于,所述对所述编码数据进行分类以获得多个语义组包括:依据预设的分类上限构建中心列表,所述中心列表中的每个元素为一个正整数,并依据所述中心列表中的每个元素选取多个编码数据作为中心数据;依据所述中心数据对所有编码数据进行多次分类以获得多个分类结果,每个分类结果包含多个词汇分类组;计算每个分类结果的误差平方和以作为评估值,并计算所述评估值的差值以构建评估结果哈希表;查找所述评估结果哈希表中的最小差值对应的分类结果,并将该分类结果中的所有词汇分类组作为语义组。3.如权利要求2所述的基于人工智能的文本推荐方法,其特征在于,所述依据所述中心数据对所有编码数据进行多次分类以获得多个分类结果,每个分类结果包含多个词汇分类组,包括:a,将所有编码数据标记为0并随机选取一个编码数据作为当前数据;b,分别计算所述当前数据与每个中心数据的欧式距离;c,将所述当前数据标记为1并归类于较小欧式距离对应的中心数据所在的类别;d,再次随机选取一个标记为0的编码数据作为当前数据,并重复步骤b至d,直到所有编码数据被标记为1则停止迭代并获得多个词汇分类组;e,计算每个词汇分类组中所有编码数据的均值,若所述均值满足预设判别条件则将所述词汇分类组作为分类结果,否则将每个词汇分类组中距离所述均值最近的编码数据作为中心数据并重新进行步骤a至步骤e以获得分类结果。4.如权利要求2所述的基于人工智能的文本推荐方法,其特征在于,所述计算每个分类结果的误差平方和以作为评估值,并计算所述评估值的差值以构建评估结果哈希表包括:分别计算每个词汇分类组的误差,所述误差为每个词汇分类组中所有编码数据与中心数据的欧式距离的平方和;分别计算每个分类结果中所有词汇分类组的误差之和以作为每个分类结果的评估值;依据每个分类结果中词汇分类组的数量由小至大排列所述评估值,并计算相邻两个评估值的差值后,依据评估值的次序组合所述差值以构建评估结果哈希表。
5.如权利要求1所述的基于人工智能的文本推荐方法,其特征在于,所述对所述目标组中的编码数据进行分类获得多个候选组包括:a,依据预设的半径阈值和预设的密度阈值对所述目标组中的编码数据进行分类以获取分类结果,所述分类结果包括核心数据与离群数据;b,依据所述半径阈值设置判别条件,所述判别条件指两个数据之间的关系满足预设关系中的任意一种,所述预设关系包括:密度直达、密度可达、密度相连,所述密度直达...

【专利技术属性】
技术研发人员:陈凡
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1