一种成语推荐模型的训练方法及装置制造方法及图纸

技术编号：23787802 阅读：31 留言：0更新日期：2020-04-15 00:53

本申请提供一种成语推荐模型的训练方法及装置，其中所述方法包括：获取训练样本和对应的训练标签，其中，所述训练样本包括含有缺失空白的原始语料以及多个常见成语，所述训练标签包括每个常见成语在每个缺失空白中对应的推荐分数；通过所述训练样本和对应的训练标签对成语推荐模型进行训练，得到所述成语推荐模型，所述成语推荐模型使得所述训练样本与所述训练标签相关联。本申请通过大规模的语料训练，实现了根据上下文语义信息对常见成语进行打分的智能模型，通过该模型能够帮助用户在写作时进行常见成语的推荐，使得用户能够又快又好的完成高质量文笔的文章，提升了用户的体验。

A training method and device of idiom recommendation model

全部详细技术资料下载

【技术实现步骤摘要】
一种成语推荐模型的训练方法及装置
本说明书涉及人工智能
，特别涉及一种成语推荐模型的训练方法、一种成语推荐方法、装置、计算设备及计算机可读存储介质。
技术介绍
在用户进行文本撰写时，往往需要使用一些常用成语来提升写作内容的文学水平，但是在用户自身知识水平有限或根据当前上下文语境难以确定适合填写的常用成语的情况下，现有技术中并不存在能够根据上下文语境主动进行多个成语推荐的方法，此时用户必须切换到第三方的搜索平台或利用字典等工具进行检索，并对第三方的搜索或字典等工具返回的多个常见成语进行主观的甄别以及筛选，降低了用户关于文本写作思路的连续性以及正确性，破坏了用户的体验。
技术实现思路
有鉴于此，本说明书实施例提供了一种成语推荐模型的训练方法、一种成语推荐方法、装置、计算设备及计算机可读存储介质，以解决现有技术中存在的技术缺陷。根据本说明书实施例的第一方面，提供了一种成语推荐模型的训练方法，包括：获取训练样本和对应的训练标签，其中，所述训练样本包括含有缺失空白的原始语料以及多个常见成语，所述训练标签包括每个常见成语在每个缺失空白中对应的推荐分数；通过所述训练样本和对应的训练标签对成语推荐模型进行训练，得到所述成语推荐模型，所述成语推荐模型使得所述训练样本与所述训练标签相关联。根据本说明书实施例的第二方面，提供了一种成语推荐方法，包括：获取目标语句，在所述目标语句中包含有待填充常见成语的缺失空白；将所述目标语句输入至如上所述的方法训练得到的成语推荐模型...

【技术保护点】
1.一种成语推荐模型的训练方法，其特征在于，包括：/n获取训练样本和对应的训练标签，其中，所述训练样本包括含有缺失空白的原始语料以及多个常见成语，所述训练标签包括每个常见成语在每个缺失空白中对应的推荐分数；/n通过所述训练样本和对应的训练标签对成语推荐模型进行训练，得到所述成语推荐模型，所述成语推荐模型使得所述训练样本与所述训练标签相关联。/n

【技术特征摘要】
1.一种成语推荐模型的训练方法，其特征在于，包括：
获取训练样本和对应的训练标签，其中，所述训练样本包括含有缺失空白的原始语料以及多个常见成语，所述训练标签包括每个常见成语在每个缺失空白中对应的推荐分数；
通过所述训练样本和对应的训练标签对成语推荐模型进行训练，得到所述成语推荐模型，所述成语推荐模型使得所述训练样本与所述训练标签相关联。

2.根据权利要求1所述的方法，其特征在于，获取训练样本和对应的训练标签包括：
从公开的语料数据库中获取多个常见成语以及原始语料作为训练样本，在所述原始语料中包含有多个待填充常见成语的缺失空白；
从公开的语料数据库中获取每个缺失空白对应的至少一个推荐成语作为训练标签。

3.根据权利要求1所述的方法，其特征在于，通过所述训练样本和对应的训练标签对成语推荐模型进行训练包括：
将所述多个常见成语随机分为目标数量的成语分组，并且在每个所述成语分组中均包括相同数量的不重复的所述常见成语；
构建目标数量的测试集合，每个所述测试集合均包括所述原始语料和一个所述成语分组；
根据所述缺失空白的属性信息，对每个所述测试集合中的所述成语分组中的每个常见成语进行打分，确定每个所述常见成语对应的推荐分数。

4.根据权利要求3所述的方法，其特征在于，根据所述缺失空白的属性信息，对每个所述测试集合中的所述成语分组中的每个常见成语进行打分包括：
确定所述缺失空白在所述原始语料中的位置和占位符的数量，并根据所述缺失空白在所述原始语料中的位置确定所述缺失空白的上下文语义关系；
根据所述缺失空白的上下文语义关系和所述缺失空白在所述原始语料中占位符的数量，通过损失函数得到所述常见成语为推荐成语的概率。

5.根据权利要求3所述的方法，其特征在于，确定每个所述常见成语对应的推荐分数包括：
在一个常见成语对应有两个推荐分数的情况下，将所述推荐分数的分值较高...

【专利技术属性】
技术研发人员：郭昱，汪美玲，李长亮，
申请(专利权)人：北京金山数字娱乐科技有限公司，成都金山互动娱乐科技有限公司，北京金山软件有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人