语言模型训练方法、装置和计算机设备制造方法及图纸

技术编号：22330154 阅读：40 留言：0更新日期：2019-10-19 12:17

本申请涉及一种语言模型训练方法、装置和计算机设备，所述方法包括：获取待处理文本及对应的标签词；将待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，第一待选词为预设词表中的词，第二待选词为待处理文本中的词；根据第一概率和第二概率处理得到目标词；根据目标词与标签词的差异，调整语言模型的参数，直至满足训练停止条件，得到训练完成的目标语言模型。本申请提供的方案可以提高语言模型预测的准确性。

Language model training methods, devices and computer equipment

全部详细技术资料下载

【技术实现步骤摘要】
语言模型训练方法、装置和计算机设备
本申请涉及计算机
，特别是涉及一种语言模型训练方法、装置、计算机可读存储介质和计算机设备。
技术介绍
自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向，它能通过自然语言实现人与计算机之间的对话通信。目前的自然语言模型训练方法是对上下文中的词进行编码，然后在词表上进行预测得到目标词。然而，目前的语言训练方法预测得到的内容准确性不高。
技术实现思路
基于此，有必要针对目前的语言训练方法预测得到的内容准确性不高的技术问题，提供一种语言模型训练方法、装置、计算机可读存储介质和计算机设备。一种语言模型训练方法，包括：获取待处理文本及对应的标签词；将所述待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，所述第一待选词为预设词表中的词，所述第二待选词为待处理文本中的词；根据所述第一概率和所述第二概率处理得到目标词；根据所述目标词与所述标签词的差异，调整所述语言模型的参数，直至满足训练停止条件，得到训练完成的目标语言模型。一种文本处理方法，所述方法包括：获取待处理文本及对应的标签词；将所述待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，所述第一待选词为预设词表中的词，所述第二待选词为待处理文本中的词；根据所述第一概率和所述第二概率处理得到目标词；根据所述目标词生成所述待处理文本对应的目标文本。一种语言模型训练装置，所述装置包括：获取模块，用于获取待处理文本及对应的...

【技术保护点】
1.一种语言模型训练方法，包括：获取待处理文本及对应的标签词；将所述待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，所述第一待选词为预设词表中的词，所述第二待选词为待处理文本中的词；根据所述第一概率和所述第二概率处理得到目标词；根据所述目标词与所述标签词的差异，调整所述语言模型的参数，直至满足训练停止条件，得到训练完成的目标语言模型。

【技术特征摘要】
1.一种语言模型训练方法，包括：获取待处理文本及对应的标签词；将所述待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，所述第一待选词为预设词表中的词，所述第二待选词为待处理文本中的词；根据所述第一概率和所述第二概率处理得到目标词；根据所述目标词与所述标签词的差异，调整所述语言模型的参数，直至满足训练停止条件，得到训练完成的目标语言模型。2.根据权利要求1所述的方法，其特征在于，所述将所述待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，包括：将所述待处理文本转化为向量序列；将所述向量序列输入至语言模型中，得到第一待选词对应的第一概率；拷贝所述待处理文本，通过所述语言模型对所述待处理文本解码，得到第二待选词对应的第二概率。3.根据权利要求1或2所述的方法，其特征在于，所述根据所述第一概率和所述第二概率处理得到目标词，包括：对所述第一概率和所述第二概率加权处理，得到每个待选词对应的目标概率；确定所述目标概率中最大的概率；将所述最大的概率对应的待选词作为目标词。4.根据权利要求1或2所述的方法，其特征在于，在所述根据所述目标词与所述标签词的差异，调整所述语言模型的参数之后，所述方法还包括：从所述待处理文本中获取所述目标词对应的上下文，将所述目标词及对应的上下文输入至所述语言模型中进行处理。5.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：获取测试文本；将所述测试文本输入至所述目标语言模型中，得到第一待选词对应的第一概率以及第二待选词对应的第二概率；对所述第一概率和所述第二概率加权处理，得到每个待选词对应的目标概率；确定所述目标概率中最大的概率；将所述最大的概率对应的待选词作为目标词。6.根...

【专利技术属性】
技术研发人员：谭翊章，缪畅宇，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人