【技术实现步骤摘要】
更新语言模型的系统及方法
[0001]本专利技术涉及自然语言处理(natural language processing;NLP)技术,特别涉及一种更新语言模型的系统及方法。
技术介绍
[0002]语言模型(language model)是指句子或字词之间的机率分布,其经常使用在各种自然语言处理方面的应用,诸如语音辨识、机器翻译、词性标注、句法分析、手写体识别及信息检索。举例来说,在语音辨识的应用情境中,“基金”一词的发音很类似“鸡精”,因此仅凭声学模型(acoustic model)不足以精准判定说话者指的是哪一个词,必须搭配语言模型以从上下文推断说话者实际上指的是“基金”或“鸡精”。具体来说,若说话者在该词之前说出发音近似于“投资”的词,则该词较有可能是“基金”;若说话者在该词之前说出发音近似于“营养”的词,则该词较有可能是“鸡精”。
[0003]语言模型通常是使用通用的语料(corpus)进行训练。这种通用语言模型(generic language model)缺乏应用领域的针对性,导致在实际应用上的效果不理想 ...
【技术保护点】
【技术特征摘要】
1.一种更新语言模型的系统,其特性在于,包括:数据储存模块,用以储存对应于多个类别的多笔语料数据;数据更新模块,用以将一笔新语料数据储存到该数据储存模块,其中该笔新语料数据对应于该多个类别中的一个类别;以及模型构建模块,用以构建多个分类语言模型,及基于该数据储存模块所储存的该笔新语料数据更新该多个分类语言模型中的一个分类语言模型,其中所更新的该分类语言模型对应于该笔新语料数据所对应的该类别。2.根据权利要求1所述的系统,其特征在于,该分类语言模型使用n元语法计算多个词语彼此之间的机率分数。3.根据权利要求2所述的系统,其特征在于,该模型构建模块通过仅更新该笔新语料数据中的该多个词语彼此之间的机率分数,以更新该分类语言模型,不更新未在该笔新语料数据中的其他词语的机率分数。4.根据权利要求1所述的系统,其特征在于,该模型构建模块还基于该数据储存模块所储存的该笔新语料数据更新通用语言模型。5.根据权利要求1所述的系统,其特征在于,还包括语料分类模块,该语料分类模块使用分类模型决定该笔新语料数据所对应的该类别。6.根据权利要求5所述的系统,其特征在于,该分类模型为全连接神经网络。7.根据权利要求5所述的系统,其特征在于,该语料分类模块通过提取该笔新语料数据的特征向量,将该特征向量输入该分类模型,以根据该分类模型输出的分类结果决定该笔新语料数据所对应的该类别。8.根据权利要求7所述的系统,其特征在于,该语料分类模块使用词频
‑
逆向词频法提取该笔新语料数据的该特征向量。9.根据权利要求1所述的系统,其特征在于,该数据储存模块还将对应于该类别的所有语料数据储存为分类语料库。10.根据权利要求1所述的系统,其特征在于,该数据储存模块还储存每笔语料数据所对应的该类别的类别标签。11.根据权利要求1所述的系统,其特征在于,还包括数据搜集模块,该数据搜集模块用以记录客户端装置通过语音辨识技术无法识别的语句,并将所述语句转换为多笔新语料数据;其中响应于新语料数据的数量累积超过阈值,将所累...
【专利技术属性】
技术研发人员:罗佳辉,郭晶晶,
申请(专利权)人:威盛电子股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。