一种关键词的提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31379104 阅读:19 留言:0更新日期:2021-12-15 11:21
本申请适用于人工智能技术领域,提供了一种关键词的提取方法、装置、电子设备及存储介质,方法包括:对目标文本进行关键词识别,生成所述目标文本对应的关键词图;分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重;根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数;基于各个所述候选关键词对应的所述推荐系数,从所有候选关键词中选取出目标文本对应的目标关键词。采用上述方法,能够在通过人工智能对大量文本进行自动分类以及配置文本标签时,能够提高提取的关键词对于文本内容的概括准确性,从而提高智能分类的准确率。准确率。准确率。

【技术实现步骤摘要】
一种关键词的提取方法、装置、电子设备及存储介质


[0001]本申请属于人工智能
,尤其涉及一种关键词的提取方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网技术的不断发展,网络上的资讯越来越多,文本的数量以及内容以几何级的速度增加,因此在对文本进行解析时,在通过人工智能对大量文本进行分类以及添加文本标签时,为了快速确定文本的内容偏向,往往需要提取文本的关键词,因此,如何能够提高表征文本内容的关键词的准确性,直接影响了人工智能对于文本整理以及分类的准确性。
[0003]现有的关键词提取技术,一般是采用词频特性,选取出现频率处于前N高的关键词,作为该文本的关键词,然而上述方式选取得到的关键词,只是单独地考虑各个关键词的特性,并没有考虑不同关键词之间关联性,从而选取的关键词无法较好地概括文本的内容,大大降低了人工智能对于文本整理以及分类的准确性。

技术实现思路

[0004]本申请实施例提供了一种关键词的提取方法、装置、电子设备及存储介质,可以解决现有的关键词提取算法,采用词频特性选取文本关键词,没有考虑不同关键词之间关联性,从而选取的关键词无法较好地概括文本的内容,大大降低了人工智能对于文本整理以及分类的准确性的问题。
[0005]第一方面,本申请实施例提供了一种关键词的提取方法,包括:
[0006]对目标文本进行关键词识别,生成所述目标文本对应的关键词图;所述关键词图具体用于确定从所述目标文本中识别得到各个候选关键词之间的关联关系;所述关联关系是根据各个所述候选关键词在所述目标文本中的相对关系确定的;所述关联关系用于确定具有词义传递关系的任意两个所述候选关键词;
[0007]分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重;所述加权权重用于确定所述词义传递关系的强弱程度;
[0008]根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数;
[0009]基于各个所述候选关键词对应的所述推荐系数,从所有候选关键词中选取出目标文本对应的目标关键词。
[0010]在第一方面的一种可能的实现方式中,所述分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重,包括:
[0011]根据在所述关键词图中第i个候选关键词对应第一关联个数,以及第j个候选关键词的第二关联个数,计算所述第i个候选关键词指向所述第j个候选关键词之间第一关联关系的第一加权因子;
[0012]其中,所述i和j为不大于所述关键词图内包含的候选关键词总数的任一正整数;所述第一关联个数为具体为在所述关键词图中第i个候选关键词指向其他候选关键词的关联关系的个数;所述第二关联个数具体为在所述关键词图中其他候选关键词指向第j个候选关键词的关联关系的个数;
[0013]所述第一加权因子具体为:
[0014][0015]其中,为所述第一加权因子;Out(Keyword
i
)为所述第一关联个数;In(Keyword
j
)为所述第二关联个数;
[0016]基于所述第i个候选关键词在所述目标文本中的出现位置,确定所述第一关联关系的第二加权因子;
[0017]基于所述第i个候选关键词在所述目标文本中的第一出现频次以及在预设的语料库的已有文本中的第二出现频次,确定所述第一关联关系的第三加权因子;所述第三加权因子具体为:
[0018][0019]其中,Weight
γ
(Keyword
i
,Keyword
j
)为所述第三加权因子;TF(Keyword
i
)为基于第i个候选关键词的所述第一出现频次以及所述第二出现频次计算得到的词频特征值;
[0020]根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重。
[0021]在第一方面的一种可能的实现方式中,所述基于所述第i个候选关键词在所述目标文本中的出现位置,确定所述第一关联关系的第二加权因子,包括:
[0022]根据预设的位置权重转换函数,确定所述第i个候选关键词对应的出现位置的第一位置加权参量;所述位置权重转换函数为:
[0023][0024]其中,Location(Keyword
i
)为所述第一位置加权参量;λ为预设系数;
[0025]根据预设的位置权重转换函数,分别确定与所述第i个候选关键词存在关联关系的关联关键词对应的出现位置的第二位置加权参量;
[0026]根据所述第一位置加权参量以及所有所述第二位置加权参量,计算所述第二加权因子;所述第二加权因子具体为:
[0027][0028]其中,Weihgt
β
(Keyword
i
,Keyword
j
)为所述第二加权因子。
[0029]在第一方面的一种可能的实现方式中,在所述根据所述第一加权因子、所述第二
加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重之前,还包括:
[0030]基于预设的矩阵模型,计算所述第i个候选关键词的自相关系数,并基于所述自相关系数确定第四加权因子;
[0031]对应地,所述根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重具体为:
[0032]根据所述第一加权因子、所述第二加权因子、所述第三加权因子以及所述第四加权因子,确定所述第一关联关系的加权权重。
[0033]在第一方面的一种可能的实现方式中,所述基于预设的矩阵模型,计算所述第i个候选关键词的自相关系数,并基于所述自相关系数确定第四加权因子,包括:
[0034]获取所述第i个候选关键词对应的嵌入向量,并将所述嵌入向量导入所述矩阵模型,确定所述第i个候选关键词对应的查询矩阵;
[0035]根据所述查询矩阵与所述第i个候选关键词存在关联关系的关联关键词的关键矩阵,计算所述第i个候选关键词对应的关注特征参量;
[0036]根据所述关注特征参量以及各个所述关联关键词的价值矩阵,确定所述第i个候选关键词的自相关系数;
[0037]基于所述第i个候选关键词的所述自相关系数,确定所述第四加权因子;所述第四加权因子具体为:
[0038][0039]其中,为所述第四加权因子;Self

Att(Keyword
i
)为所述第i个候选关键词的所述自相关系数。
[0040]在第一方面的一种可能的实现方式中,所述根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数,包括:
[0041]根据所述候选关键词之间的所述关联关系的所述加权权重,构建所述目标文本的影响力矩阵;所述影响力矩阵为:
[0042][0043]其中,Weight
ij
为第i个所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词的提取方法,其特征在于,包括:对目标文本进行关键词识别,生成所述目标文本对应的关键词图;所述关键词图具体用于确定从所述目标文本中识别得到各个候选关键词之间的关联关系;所述关联关系是根据各个所述候选关键词在所述目标文本中的相对关系确定的;所述关联关系用于确定具有词义传递关系的任意两个所述候选关键词;分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重;所述加权权重用于确定所述词义传递关系的强弱程度;根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数;基于各个所述候选关键词对应的所述推荐系数,从所有候选关键词中选取出目标文本对应的目标关键词。2.根据权利要求1所述的提取方法,其特征在于,所述分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重,包括:根据在所述关键词图中第i个候选关键词对应第一关联个数,以及第j个候选关键词的第二关联个数,计算所述第i个候选关键词指向所述第j个候选关键词之间第一关联关系的第一加权因子;其中,所述i和j为不大于所述关键词图内包含的候选关键词总数的任一正整数;所述第一关联个数为具体为在所述关键词图中第i个候选关键词指向其他候选关键词的关联关系的个数;所述第二关联个数具体为在所述关键词图中其他候选关键词指向第j个候选关键词的关联关系的个数;所述第一加权因子具体为:其中,为所述第一加权因子;Out(Keyword
i
)为所述第一关联个数;In(Keyword
j
)为所述第二关联个数;基于所述第i个候选关键词在所述目标文本中的出现位置,确定所述第一关联关系的第二加权因子;基于所述第i个候选关键词在所述目标文本中的第一出现频次以及在预设的语料库的已有文本中的第二出现频次,确定所述第一关联关系的第三加权因子;所述第三加权因子具体为:其中,Weight
γ
(Keyword
i
,Keyword
j
)为所述第三加权因子;TF(Keyword
i
)为基于第i个候选关键词的所述第一出现频次以及所述第二出现频次计算得到的词频特征值;根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重。3.根据权利要求2所述的提取方法,其特征在于,所述基于所述第i个候选关键词在所述目标文本中的出现位置,确定所述第一关联关系的第二加权因子,包括:
根据预设的位置权重转换函数,确定所述第i个候选关键词对应的出现位置的第一位置加权参量;所述位置权重转换函数为:其中,Location(Keyword
i
)为所述第一位置加权参量;λ为预设系数;根据预设的位置权重转换函数,分别确定与所述第i个候选关键词存在关联关系的关联关键词对应的出现位置的第二位置加权参量;根据所述第一位置加权参量以及所有所述第二位置加权参量,计算所述第二加权因子;所述第二加权因子具体为:其中,Weihgt
β
(Keyword
i
,Keyword
j
)为所述第二加权因子。4.根据权利要求2所述的提取方法,其特征在于,在所述根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重之前,还包括:基于预设的矩阵模型,计算所述第i个候选关键词的自相关系数,并基于所述自相关系数确定第四加权因子;对应地,所述根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重具体为:根据所述第一加权因子、所述第二加权因子、所述第三加权因子以及所述第四加权因子,确定所述第一关联关系的加权权重。...

【专利技术属性】
技术研发人员:宋威
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1