用于调试与语言模型一起使用的类实体词典的方法和设备技术

技术编号：2877674 阅读：206 留言：0更新日期：2012-04-11 18:40

提供一种根据由用户所作纠正来扩大具有类实体词典（４１２）的语言模型（４１０）的方法和设备。在该方法和设备下，用户通过以正确的片断替换输出片断来纠正部分地基于语言模型的输出。将该正确片断添加到在类实体词典（４１２）中的片断类中，并根据与该输出片断相关的ｎ字列概率和与该类相关的ｎ字列概率来估计该正确片断在给定该类时的概率。然后用所估计的这一概率来产生进一步的输出。（*该技术在2022年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语言模型，特别涉及根据用户输入来调试语言模型。
技术介绍
语言模型提供了对文本字符串出现的一系列字词的概率度量。这样的模型用于语音识别、中文断词和语音-字符转换，如中文中的拼音-汉字转换，以在已知字词序列格的情况下识别一个最为可能的序列。例如，在语音识别中，语言模型能识别出短语“go to bed”比语音上相似的短语“go too bed”更为可能。一般来说，语言模型要在语句库上训练。尽管这样的集在训练语言模型以处理一般字词上很有效，但在训练语言模型以处理专有名词，如人和事的名称上，却不是非常有效。其原因是那些专有名词在语料库中发生得不够频繁，难以精确模拟。有些系统允许用户来纠正由语言模型所犯的错误。但是，一个系统即使在得知了该纠正后，也无法根据该纠正来调整语言模型，因为无法估计由该纠正所形成的字词序列的概率。因此，该系统在以后遇到同样输入时，一般会犯同样的错误。所以，需要一种允许根据由用户所作纠正来修改语言模型和动态词典的系统。
技术实现思路
提供一种根据由用户所作纠正来扩大具有类实体词典的语言模型的方法和设备。在该方法和设备下，用户通过以正确的片...

【技术保护点】
一种译解输入的方法，所述方法包含：从输入中识别可能的字词序列；使用基于类的语言模型和类实体词典来从可能的字词序列中选择一个作为输出序列；其特征在于，所述方法包括：接收对输出序列所作的修改，并且使用该修改来改变类实体词典。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：陈正，高剑峰，李明镜，章锋，
申请(专利权)人：微软公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人