【技术实现步骤摘要】
短语抽取模型训练、短语抽取方法、装置、设备及介质
[0001]本专利技术涉及分类模型
,尤其涉及一种短语抽取模型训练、短语抽取方法、装置、设备及介质。
技术介绍
[0002]随着科学技术的发展,自然语言处理技术也得以快速发展。在许多领域中均会使用自然语言处理技术。例如,关键词抽取、短语抽取或者文本翻译处理等。
[0003]现有技术中,一般是通过大量数据训练有监督模型或者无监督模型之后,通过有监督模型或者无监督模型进行短语抽取。但是上述两个模型在进行短语抽取之后均需要通过人工筛选方式对抽取的短语进行校验。如此,导致短语抽取效率且准确率较低。
技术实现思路
[0004]本专利技术实施例提供一种短语抽取模型训练、短语抽取方法、装置、计算机设备及存储介质,以解决现有技术中短语抽取效率和准确率较低的问题。
[0005]一种短语抽取模型训练方法,包括:
[0006]获取至少一个训练短语组;一个所述训练短语组中包括训练短语、目标短语标签、训练短语特征和训练短语向量;
[0007]获取包含初始参数的预设抽取模型;所述预设抽取模型中包括特征识别模块和短语分类模块;
[0008]将所述训练短语特征输入至所述特征识别模块中,获取第一概率值,和将所述训练短语向量输入至所述短语分类模块中,获取第二概率值;
[0009]根据所述第一概率值和所述第二概率值确定所述训练短语对应的预测短语标签,并根据所述目标短语标签和所述预测短语标签确定预测损失值;
[0010]在所述预测 ...
【技术保护点】
【技术特征摘要】
1.一种短语抽取模型训练方法,其特征在于,包括:获取至少一个训练短语组;一个所述训练短语组中包括训练短语、目标短语标签、训练短语特征和训练短语向量;获取包含初始参数的预设抽取模型;所述预设抽取模型中包括特征识别模块和短语分类模块;将所述训练短语特征输入至所述特征识别模块中,获取第一概率值,和将所述训练短语向量输入至所述短语分类模块中,获取第二概率值;根据所述第一概率值和所述第二概率值确定所述训练短语对应的预测短语标签,并根据所述目标短语标签和所述预测短语标签确定预测损失值;在所述预测损失值未达到预设的收敛条件时,迭代更新所述预设抽取模型中的初始参数,直至所述预测损失值达到所述收敛条件时,将收敛之后的所述预设抽取模型记录为短语抽取模型。2.如权利要求1所述的短语抽取模型训练方法,其特征在于,所述获取至少一个训练短语组之前,还包括:获取样本语料集,并对所述样本语料集中的样本语料进行分词处理,得到至少一个候选短语;从预设第三方平台中获取正样本短语;一个所述正样本短语对应一个正样本标签;根据所述正样本短语和所述候选短语,从所有所述候选短语中确定负样本短语,并设置所述负样本短语对应的负样本标签;根据所述正样本短语、所述负样本短语、所述正样本短语对应的正样本标签和所述负样本短语对应的负样本标签,生成所述训练短语组。3.如权利要求2所述的短语抽取模型训练方法,其特征在于,所述根据所述正样本短语、所述负样本短语、所述正样本短语对应的正样本标签和所述负样本短语对应的负样本标签,生成所述训练短语组,包括:对所述正样本短语和所述负样本短语进行离散特征提取,得到所述正样本短语对应的训练短语特征和所述负样本短语对应的训练短语特征;对所述正样本短语和所述负样本短语进行向量转换,得到所述正样本短语对应的训练短语向量和所述负样本短语对应的训练短语向量;根据所述正样本短语、所述正样本短语对应的正样本标签、训练短语特征和训练短语向量构建所述训练短语组,以及根据所述负样本短语、所述负样本短语对应的负样本标签、训练短语特征和训练短语向量构建所述训练短语组。4.如权利要求1所述的短语抽取模型训练方法,其特征在于,所述将所述训练短语特征输入至所述特征识别模块中,获取第一概率值,包括:通过所述特征识别模块确定所述训练短语特征对应的短语特征分布;基于所述短语特征分布确定所述第一概率值。5.如权利要求1所述的短语抽取模型训练方法,其特征在于,所述将所述训练短语向量输入至所述短语分类模块中,获取第二概率值,包括:通过所述短语分类模块中的卷积网络层对所述训练短语向量进行卷积处理,得到卷积特征向量;
通过所述短语分类模块中的池化网络层对所述卷积特征向量进行池化处理,得到池化特征向量;通过所述短语分类模块中的全连接层根据所述池化特征向量,确定所述第二概率值。6.一种短语抽取方法,其特征在于,包括:接收包含待抽取文本的短语抽取指令,并对所述待抽取文本进行分词处理,得到至少一个待识别短语;确定所述待识别短语对应...
【专利技术属性】
技术研发人员:唐亚,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。