词序列语言模型优化方法、装置、设备及可读存储介质制造方法及图纸

技术编号：41736369 阅读：28 留言：0更新日期：2024-06-19 12:55

本申请公开了一种词序列语言模型优化方法、装置、设备及可读存储介质，先利用通用场景的语料训练得到通用词序列语言模型，以及利用特定领域场景的语料训练得到领域词序列语言模型，通过对对通用词序列语言模型和领域词序列语言模型进行融合，能够将通用词序列语言模型在通用场景的预测能力以及领域词序列语言模型在特定领域场景的预测能力组合起来，可以综合利用通用词序列语言模型和领域词序列语言模型各自的优势，在保证高频词的预测能力的同时，能够提升低频词的预测能力，从而改善语言模型在不同场景下的泛化能力，提升预测结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自然语言处理，更具体的说，是涉及一种词序列语言模型优化方法、装置、设备及可读存储介质。

技术介绍

1、语言模型是自然语言处理的基础，尤其在基于统计模型的语音识别、机器翻译、口语测评等相关研究中得到了广泛应用。目前使用最多的语言模型是词序列语言模型，以n-gram语言模型为例，这种模型是基于(n-1)阶马尔可夫链的一种概率语言模型，通过n个词语出现的概率来推断语句的结构，n的取值一般为1、2或3。当n分别为1、2、3时，又分别称为一元语言模型、二元语言模型与三元语言模型。一元语言模型，表示一个词出现的概率与历史词无关。二元语言模型，表示一个词出现的概率仅与它前一个历史词有关。三元语言模型，表示一个词出现的概率仅与它前两个历史词有关。

2、目前的词序列语言模型是利用通用场景的语料训练得到的，特定领域场景中出现的词，对于词序列语言模型来说属于低频词或者未见词，词序列语言模型无法进行准确的预测。如果利用特定领域场景相关语料对词序列语言模型进行训练，虽然能够提升词序列语言模型在特定领域场景下的预测结果准确性，但是又会影响词序...

【技术保护点】

1.一种词序列语言模型优化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述通用词序列语言模型和所述领域词序列语言模型进行融合，得到融合后的词序列语言模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述通用词序列语言模型中所述长度的词序列的统计概率信息和所述领域词序列语言模型所述长度的词序列的统计概率信息进行融合，得到各个词序列的融合后统计概率信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述利用所述长度的各个词序列的融合后统计概率信息，确定所述长度的每个词序列的最终统计概

【技术特征摘要】

1.一种词序列语言模型优化方法，其特征在于，所述方法包括：

4.根据权利要求2所述的方法，其特征在于，所述利用所述长度的各个词序列的融合后统计概率信息，确定所述长度的每个词序列的最终统计概率信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述利用所有所述长度的各个词序列的融合后统计概率信息的和，计算每个所述长度的词序列的统计概率信息偏差，包括：

6.根据权利要求2至5中任意一项所述的方法，其特征在于，所述通用词序列语言模型和所...

【专利技术属性】
技术研发人员：杨康，李宝善，吴奎，张凯波，盛志超，王士进，刘聪，胡国平，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人