训练语言模型的方法和标签设置方法技术

技术编号:30100521 阅读:36 留言:0更新日期:2021-09-18 09:05
本公开提供了一种训练语言模型的方法、标签设置方法、装置、设备、存储介质以及程序产品,涉及图像处理、计算机视觉、深度学习等人工智能技术领域,尤其涉及增强现实AR技术领域。具体实现方案为:获取至少一个标准词和与至少一个标准词具有相同含义的口语词,作为样本词;以及利用样本词和包含样本词的语句来训练语言模型。语言模型。语言模型。

【技术实现步骤摘要】
训练语言模型的方法和标签设置方法


[0001]本公开涉及图像处理技术、计算机视觉、深度学习等人工智能领域,尤其涉及增强现实AR


技术介绍

[0002]标签是与内容相关性较强的关键字,它可以帮助人类或计算机对内容进行描述和分类,以便于检索。

技术实现思路

[0003]本公开提供了一种训练语言模型的方法、标签设置方法、装置、设备、存储介质以及程序产品。
[0004]根据本公开的一方面,提供了一种训练语言模型的方法,包括:获取至少一个标准词和与所述至少一个标准词具有相同含义的口语词,作为样本词;以及利用所述样本词和包含所述样本词的语句来训练语言模型。
[0005]根据本公开的另一方面,提供了一种标签设置方法,包括:利用语言模型识别通话记录文件,得到目标文本;确定所述目标文本中的至少一个目标词;将所述至少一个目标词转换为至少一个标准词;以及响应于用户针对所述至少一个标准词中目标标准词的选择操作,根据所述目标标准词,为所述通话记录文件设置标签;其中,所述语言模型是根据本公开实施例所述的方法训练的。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练语言模型的方法,包括:获取至少一个标准词和与所述至少一个标准词具有相同含义的口语词,作为样本词;以及利用所述样本词和包含所述样本词的语句来训练语言模型。2.一种标签设置方法,包括:利用语言模型识别通话记录文件,得到目标文本;确定所述目标文本中的至少一个目标词;将所述至少一个目标词转换为至少一个标准词;以及响应于用户针对所述至少一个标准词中目标标准词的选择操作,根据所述目标标准词,为所述通话记录文件设置标签;其中,所述语言模型是根据权利要求1所述的方法训练的。3.根据权利要求2所述的方法,其中,所述确定所述目标文本中的至少一个目标词包括:根据标准词和口语词集合,确定所述目标文本中包含的标准词和/或口语词,作为所述目标词,其中,所述标准词和口语词集合包括至少一个标准词和至少一个口语词。4.根据权利要求3所述的方法,其中,所述根据标准词和口语词集合,确定所述目标文本中包含的标准词和/或口语词包括:分别利用所述标准词和口语词集合中的每个词语,对所述目标文本进行词语匹配,以确定目标文本中的标准词和/或口语词。5.根据权利要求3所述的方法,其中,所述将所述至少一个目标词转换为至少一个标准词包括:针对所述至少一个目标词中的每个目标词,在所述目标词为口语词的情况下,根据词语对应关系,将所述目标词转换为对应的标准词,其中,所述词语对应关系用于表示具有相同含义的标准词和口语词之间的对应关系。6.根据权利要求2所述的方法,还包括:向所述用户展示所述至少一个标准词。7.根据权利要求2所述的方法,还包括:创建音视频通话;以及录制所述音视频通话,得到所述通话记录文件。8.一种训练语言模型的装置,包括:获取模块,用于获取至少一个标准词和与所述至少一个标准词具有相同含义的口语词,作为样本词;以及训练模块,用于利用所述样本词和包含所述样本词的语句来训练语言模型。9.一种标签设置装置,包括:识别模块,用于利用语言模型识别通话记录文件,得到目标文本;确定模块,用于确定所述目标文本中的至少一个目标词;...

【专利技术属性】
技术研发人员:申雪岑
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1