一种服务特定领域的稀缺资源语言模型建模方法及建模系统技术方案

技术编号:37769418 阅读:15 留言:0更新日期:2023-06-06 13:32
本发明专利技术属于人工智能语言信息处理技术领域,具体地说,涉及一种服务特定领域的稀缺资源语言模型建模方法,包括:步骤1)得到由多个分割语句组成的预处理后的语句集合;步骤2)得到语句

【技术实现步骤摘要】
一种服务特定领域的稀缺资源语言模型建模方法及建模系统


[0001]本专利技术属于人工智能语言信息处理和语音识别
,具体地说,涉及一种服 务特定领域的稀缺资源语言模型建模方法及建模系统。

技术介绍

[0002]语音识别(Speech Recognition)是指利用计算机对得到的语音信号进行处理,通过 分析和识别,把人类的语音信号转变为相应的文字或者命令的计算机处理过程。由于 语音信号的动态时变性、瞬时性和随机性,单靠声学层面的分析处理和匹配,无法得 到较好的识别结果。因此,需要在语音信号处理的基础上,结合相关语言知识进行约 束和处理,以提高系统的处理准确率,因此,一般语音识别系统包括声学模型和语言 模型。语言模型用于刻画自然语言中的内在规律,提供字或词之间的上下文和语义信 息,是语音识别系统的重要组成部分。
[0003]在语言模型的建模过程中,占主导地位的依然是基于统计规则的n

gram建模技 术。其中,n

gram建模技术具有很好的建模能力,实现也相对简单,当语料充足时, 能够训练出性能很好的模型,并且发展出性能良好的数据平滑技术,适用实际应用的 需要。同时为了克服n

gram建模技术的弱点,研究者已经提出了基于神经网络 (Neural Network)的语言模型,更好描述词语之间的关联关系。神经网络语言模型 也需要对语料的统计学习,作为知识来源基础的语料,在神经网络语言模型建模中, 也具有重要意义。因此,如果能够针对语言模型应用的特定领域进行语料的收集整理 和训练建模,无疑会提高语言模型的建模效率和性能。
[0004]语言智能处理技术的快速发展,进一步拓展了语言信息技术应用的语种,从原来 的汉语、英语等资源富集的语种拓展到越南语、哈萨克语等稀缺资源的语种。随着信 息技术与社会生活的深度融合,稀缺资源,更多体现为专家资源的稀缺,即缺乏相应 语种的语言专家,能够根据应用的需要对获取的初始语言资源进行一定程度的加工, 进而提高语言模型的建模效率和性能,专家资源的稀缺在针对特定领域进行语言建 模时,表现的更为显著。
[0005]另一方面,汉语、英语等资源富集语种已经有较好的语言资源积累和成果积累。 特别是汉语,本国相关研发人员能够较好有效平衡专家资源的问题。因此,构建一种 以汉语或者其他富集资源语言为参考的、面向稀缺资源语言、服务特定领域的语言建 模方法和系统具有实用价值和重要意义。
[0006]另外,近年来在文本处理方面主题语义分析取得长足进展,以统计分布为基础, 形成了利用语言资源研究语义内容的新模式。其中基于潜在狄利克雷分配(LatentDirichlet Allocation,LDA)分布的主题分析模型在研究中得到广泛应用,这也为在涉 及稀缺资源语种的语言模型建模中引入语义信息提供了新思路。
[0007]综上所述,现有的语言模型难于应对服务特定领域的稀缺资源语种语言模型构 建,获取稀缺资源语料的语义信息的准确度低,无法识别稀缺资源语料中的特定领域 信
息,服务特定领域具体应用性能差。

技术实现思路

[0008]为解决现有技术存在的上述缺陷,本专利技术提出了一种服务特定邻域的稀缺资源 语言模型建模方法,通过该方法建立的稀缺语言模型,在特定领域,针对特定的稀缺 资源语料,能够准确地获取该稀缺资源语料的主题语义信息;另外,该方法利用主题 语义处理方法,获取稀缺资源语言语料的主题语义信息,进而使用主题语义信息选择 特定领域的语料进行语言模型建模,提升稀缺资源语种语言模型的建模效率和语言 模型的处理性能。
[0009]本专利技术提供了一种服务特定领域的稀缺资源语言模型建模方法,该方法包括:
[0010]步骤1)收集稀缺资源文本作为初始语料,对该初始语料进行预处理,得到预处 理后的文本;以语句为单位,对预处理后的文本进行分割,保留语句的顺序关系和段 落信息,得到由多个分割语句组成的预处理后的语句集合;
[0011]步骤2)对预处理后的语句集合,结合Gibbs算法,得到语句

主题分布和主题

词 语分布;
[0012]步骤3)在预先收集的富集资源语种文本中,对特定领域选择领域特征词语,得 到选定的领域特征词;
[0013]步骤4)将选定的领域特征词语翻译成稀缺语种的词语,得到翻译后的领域特征 词语;
[0014]步骤5)利用翻译后的领域特征词语,结合步骤2)得到的主题

词语分布,计算 并得到领域主题分布;
[0015]步骤6)计算每个分割语句的语句

主题分布与领域主题分布之间的相关度;
[0016]步骤7)判断每个分割语句的相关度是否超过预设的阈值,将满足条件的语句入 选稀缺资源特定领域的语言模型训练语料;
[0017]步骤8)根据语言表述的连贯性,进一步筛选步骤7)得到的语言模型训练语料, 得到最终的语言模型训练语料;
[0018]步骤9)利用步骤8)得到的最终的语言模型训练语料,对稀缺资源语言模型进 行训练,得到稀缺资源语言模型。
[0019]作为上述技术方案的改进之一,所述步骤2)具体包括:
[0020]预处理后的语句集合表示为由M个分割语句构成,记为 S={s1,

,s
m
,...,s
M
},,其中第M个分割语句s
M
是长度为N的词语序列,记为 s
M
=(w1,

,w
n
,...,w
N
),其中,w
n
表示词语序列中的第n个词语;
[0021]为分割语句中的某个词语在[1

K]的K个主题分布中随机分配一个主题,构成 初始的Markov链,重复上述过程,对于分割语句中的所有词语分配一个对应的主题, 获取Markov链的下一个状态,经过多次迭代,Markov链达到稳定状态;
[0022]利用Gibbs抽样方法,得到主题

词语分布:
[0023][0024]和语句

主题分布:
[0025][0026]其中,为主题

词语分布的估计值,为从主题j中抽取新词记号w
n
的概率 估计;C
VK
和C
MK
分别为维数为V
×
K和M
×
K的数量矩阵;其中,V为词语的总数; 为词语w

n
属于主题j的频次;为对应词语w
n
属于主题j的值,设定为 0.02;为词语w
v
属于主题j的频次;β
v,j
为对应词语w
v
属于主题j的值,设定 为0.02;
[0027]其中,为语句

主题分布的估计值,为在语句s<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种服务特定领域的稀缺资源语言模型建模方法,该方法包括:步骤1)收集稀缺资源文本作为初始语料,对该初始语料进行预处理,得到预处理后的文本;以语句为单位,对预处理后的文本进行分割,保留语句的顺序关系和段落信息,得到由多个分割语句组成的预处理后的语句集合;步骤2)对预处理后的语句集合,结合Gibbs算法,得到语句

主题分布和主题

词语分布;步骤3)在预先收集的富集资源语种文本中,对特定领域选择领域特征词语,得到选定的领域特征词;步骤4)将选定的领域特征词语翻译成稀缺语种的词语,得到翻译后的领域特征词语;步骤5)利用翻译后的领域特征词语,结合步骤2)得到的主题

词语分布,计算并得到领域主题分布;步骤6)计算每个分割语句的语句

主题分布与领域主题分布之间的相关度;步骤7)判断每个分割语句的相关度是否超过预设的阈值,将满足条件的语句入选稀缺资源特定领域的语言模型训练语料;步骤8)根据语言表述的连贯性,进一步筛选步骤7)得到的语言模型训练语料,得到最终的语言模型训练语料;步骤9)利用步骤8)得到的最终的语言模型训练语料,对稀缺资源语言模型进行训练,得到稀缺资源语言模型。2.根据权利要求1所述的服务特定邻域的稀缺资源语言模型建模方法,其特征在于,所述步骤2)具体包括:预处理后的语句集合表示为由M个分割语句构成,记为S={s1,

,s
m
,...,s
M
},其中第M个分割语句s
M
是长度为N的词语序列,记为s
M
=(w1,

,w
n
,...,w
N
),其中,w
n
表示词语序列中的第n个词语;为分割语句中的某个词语在[1

K]的K个主题分布中随机分配一个主题,构成初始的Markov链,重复上述过程,对于分割语句中的所有词语分配一个对应的主题,获取Markov链的下一个状态,经过多次迭代,Markov链达到稳定状态;利用Gibbs抽样方法,得到主题

词语分布:和语句

主题分布:其中,为主题

词语分布的估计值,为从主题j中抽取新词记号w
n
的概率估计;C
VK
和C
MK
分别为维数为V
×
K和M
×
K的数量矩阵;其中,V为词语的总数;为词语w

n
属于主
题j的频次;为对应词语w
n
属于主题j的值,设定为0.02;为词语w
v
属于主题j的频次;β
v,j
为对应词语w
v
属于主题j的值,设定为0.02;其中,为语句

主题分布的估计值,为在语句s
m
从主题j抽取新词的概率估计;为特定的分割语句s
m
中指定给主题j的词语个数;α
m,j
为对应分割语句s
m
属于主题j的值;为特定的分割语句s
m
中指定给主题k的词语个数;α
m,k
为对应分割语句s
m
属于主题k的值。3.根据权利要求1所述的服务特定邻域的稀缺资源语言模型建模方法,其特征在于,所述步骤3)具体包括:步骤3

1)收集富集资源语种文本,并将其作为训练语料,并从中选择涉及特定领域内容的文本,作为提取领域特征词的基础;步骤3

2)计算词语的信息增益值G(h),该信息增益值为不考虑任何词语特征时文档的熵和考虑了词语特征后文档的熵的差值:其中,E(S)为不考虑任何词语特征时文档的熵;E(S
h
)为考虑了词语特征后文档的熵;P(C
j
)为C
j
类文档在训练语料中的出现概率;P(h)为训练语料中包含词语特征词h的文档的概率;P(C
j
|h)为文档包含词语特征词h时且属于C
j
类文档的条件概率;为训练语料中不包含词语特征词h的文档的概率;为文档不包含词语特征词h时且属于C
j
类文档的条件概率;M表示对训练语料分类的总数,M=2,将训练语料分为特定领域和非特定应用领域两类;步骤3

3)重复步骤3

2),计算训练语料中的每个涉及特定领域内容的文本内的所有词语作为特征词语的信息增益值,并按照信息增益值从大到小的顺序对每个涉及特定领域内容的文本的内的所有词语进行排序,根据经验选取前500到1万个词语,作为选定的领域特征词。4.根据权利要求1所述的服务特定邻域的稀缺资源语言模型建模方法,其特征在于,所述步骤5)具体包括:翻译得到的稀缺资源语种中的领域特征词序列,记为翻译后的领域特征词语,且其表示为E={e1,

,e
n
,

,e
N
};其中,e
n
表示领域特征词序列中的第n个领域特征词语,N表示领域特征词语的总数;以e
n
在主题

词语分布的估计值作为词语的主题分布向量作为词语的主题分布向量
其中,z
i
表示领域特征词语e
n
在第i个主题上的分布值;z
K
为领域特征词语e
n
在第K个主题上的分布值;领域主题分布D
T
为:D
T
=[t1,...,t
i
,...,t
K
]其中,t
i
表示特定应用领域在第i个主题上的分布值;t
K
为特定应用领域在第K个主题上的分布值;其中,z
ij
表示领域特征词语e
j
在第j个主题上的分布值。5.根据权利要求1所述的服务特定邻域的稀缺资源语言模型建模方法,其特征在于,所述步骤6)具体包括:假设预处理后的语句集合S={s1,...,s
i
,...,s
M
},其中,M为语句个数,s
i
为预处理后的语句集合中的第i个分割语句;以s
i
在语句

主题分布作为词语的LDA向量的数值表示:s
i
=[y1,...,y
j
,...,y
K
]其中,y
j
表示s
i
在第j个主题上的分布值;采用夹角余弦的方法,计算语句

主题分布与领域主题分布之间的相关度C(s
i
):其中,y
j
为s
i
在语句

主题分布中的第j个主题的分量值;t
j
为领域主题分布中的第j个主题的分量值;重复上述过程,得到每个分割语句的语句

...

【专利技术属性】
技术研发人员:张全韦向峰袁毅池毓焕
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1