一种服务特定领域的稀缺资源语言模型建模方法及建模系统技术方案

技术编号：37769418 阅读：15 留言：0更新日期：2023-06-06 13:32

本发明专利技术属于人工智能语言信息处理技术领域，具体地说，涉及一种服务特定领域的稀缺资源语言模型建模方法，包括：步骤1)得到由多个分割语句组成的预处理后的语句集合；步骤2)得到语句

全部详细技术资料下载

【技术实现步骤摘要】
一种服务特定领域的稀缺资源语言模型建模方法及建模系统

[0001]本专利技术属于人工智能语言信息处理和语音识别
，具体地说，涉及一种服务特定领域的稀缺资源语言模型建模方法及建模系统。

技术介绍

[0002]语音识别(Speech Recognition)是指利用计算机对得到的语音信号进行处理，通过分析和识别，把人类的语音信号转变为相应的文字或者命令的计算机处理过程。由于语音信号的动态时变性、瞬时性和随机性，单靠声学层面的分析处理和匹配，无法得到较好的识别结果。因此，需要在语音信号处理的基础上，结合相关语言知识进行约束和处理，以提高系统的处理准确率，因此，一般语音识别系统包括声学模型和语言模型。语言模型用于刻画自然语言中的内在规律，提供字或词之间的上下文和语义信息，是语音识别系统的重要组成部分。
[0003]在语言模型的建模过程中，占主导地位的依然是基于统计规则的n
‑
gram建模技术。其中，n
‑
gram建模技术具有很好的建模能力，实现也相对简单，当语料充足时，能够训练出性能很好的模型，并且发展出性能良好的数据平滑技术，适用实际应用的需要。同时为了克服n
‑
gram建模技术的弱点，研究者已经提出了基于神经网络 (Neural Network)的语言模型，更好描述词语之间的关联关系。神经网络语言模型也需要对语料的统计学习，作为知识来源基础的语料，在神经网络语言模型建模中，也具有重要意义。因此，如果能够针对语言模型应用的特定领域进...

【技术保护点】

【技术特征摘要】
1.一种服务特定领域的稀缺资源语言模型建模方法，该方法包括：步骤1)收集稀缺资源文本作为初始语料，对该初始语料进行预处理，得到预处理后的文本；以语句为单位，对预处理后的文本进行分割，保留语句的顺序关系和段落信息，得到由多个分割语句组成的预处理后的语句集合；步骤2)对预处理后的语句集合，结合Gibbs算法，得到语句
‑
主题分布和主题
‑
词语分布；步骤3)在预先收集的富集资源语种文本中，对特定领域选择领域特征词语，得到选定的领域特征词；步骤4)将选定的领域特征词语翻译成稀缺语种的词语，得到翻译后的领域特征词语；步骤5)利用翻译后的领域特征词语，结合步骤2)得到的主题
‑
词语分布，计算并得到领域主题分布；步骤6)计算每个分割语句的语句
‑
主题分布与领域主题分布之间的相关度；步骤7)判断每个分割语句的相关度是否超过预设的阈值，将满足条件的语句入选稀缺资源特定领域的语言模型训练语料；步骤8)根据语言表述的连贯性，进一步筛选步骤7)得到的语言模型训练语料，得到最终的语言模型训练语料；步骤9)利用步骤8)得到的最终的语言模型训练语料，对稀缺资源语言模型进行训练，得到稀缺资源语言模型。2.根据权利要求1所述的服务特定邻域的稀缺资源语言模型建模方法，其特征在于，所述步骤2)具体包括：预处理后的语句集合表示为由M个分割语句构成，记为S＝{s1,
…
,s
m
,...,s
M
}，其中第M个分割语句s
M
是长度为N的词语序列，记为s
M
＝(w1,
…
,w
n
,...,w
N
)，其中，w
n
表示词语序列中的第n个词语；为分割语句中的某个词语在[1
…
K]的K个主题分布中随机分配一个主题，构成初始的Markov链，重复上述过程，对于分割语句中的所有词语分配一个对应的主题，获取Markov链的下一个状态，经过多次迭代，Markov链达到稳定状态；利用Gibbs抽样方法，得到主题
‑
词语分布：和语句
‑
主题分布：其中，为主题
‑
词语分布的估计值，为从主题j中抽取新词记号w
n
的概率估计；C
VK
和C
MK
分别为维数为V
×
K和M
×
K的数量矩阵；其中，V为词语的总数；为词语w
‑
n
属于主
题j的频次；为对应词语w
n
属于主题j的值，设定为0.02；为词语w
v
属于主题j的频次；β
v,j
为对应词语w
v
属于主题j的值，设定为0.02；其中，为语句
‑
主题分布的估计值，为在语句s
m
从主题j抽取新词的概率估计；为特定的分割语句s
m
中指定给主题j的词语个数；α
m,j
为对应分割语句s
m
属于主题j的值；为特定的分割语句s
m
中指定给主题k的词语个数；α
m,k
为对应分割语句s
m
属于主题k的值。3.根据权利要求1所述的服务特定邻域的稀缺资源语言模型建模方法，其特征在于，所述步骤3)具体包括：步骤3
‑
1)收集富集资源语种文本，并将其作为训练语料，并从中选择涉及特定领域内容的文本，作为提取领域特征词的基础；步骤3
‑
2)计算词语的信息增益值G(h)，该信息增益值为不考虑任何词语特征时文档的熵和考虑了词语特征后文档的熵的差值：其中，E(S)为不考虑任何词语特征时文档的熵；E(S
h
)为考虑了词语特征后文档的熵；P(C
j
)为C
j
类文档在训练语料中的出现概率；P(h)为训练语料中包含词语特征词h的文档的概率；P(C
j
|h)为文档包含词语特征词h时且属于C
j
类文档的条件概率；为训练语料中不包含词语特征词h的文档的概率；为文档不包含词语特征词h时且属于C
j
类文档的条件概率；M表示对训练语料分类的总数，M＝2，将训练语料分为特定领域和非特定应用领域两类；步骤3
‑
3)重复步骤3
‑
2)，计算训练语料中的每个涉及特定领域内容的文本内的所有词语作为特征词语的信息增益值，并按照信息增益值从大到小的顺序对每个涉及特定领域内容的文本的内的所有词语进行排序，根据经验选取前500到1万个词语，作为选定的领域特征词。4.根据权利要求1所述的服务特定邻域的稀缺资源语言模型建模方法，其特征在于，所述步骤5)具体包括：翻译得到的稀缺资源语种中的领域特征词序列，记为翻译后的领域特征词语，且其表示为E＝{e1,
…
,e
n
,
…
,e
N
}；其中，e
n
表示领域特征词序列中的第n个领域特征词语，N表示领域特征词语的总数；以e
n
在主题
‑
词语分布的估计值作为词语的主题分布向量作为词语的主题分布向量
其中，z
i
表示领域特征词语e
n
在第i个主题上的分布值；z
K
为领域特征词语e
n
在第K个主题上的分布值；领域主题分布D
T
为：D
T
＝[t1,...,t
i
,...,t
K
]其中，t
i
表示特定应用领域在第i个主题上的分布值；t
K
为特定应用领域在第K个主题上的分布值；其中，z
ij
表示领域特征词语e
j
在第j个主题上的分布值。5.根据权利要求1所述的服务特定邻域的稀缺资源语言模型建模方法，其特征在于，所述步骤6)具体包括：假设预处理后的语句集合S＝{s1,...,s
i
,...,s
M
}，其中，M为语句个数，s
i
为预处理后的语句集合中的第i个分割语句；以s
i
在语句
‑
主题分布作为词语的LDA向量的数值表示：s
i
＝[y1,...,y
j
,...,y
K
]其中，y
j
表示s
i
在第j个主题上的分布值；采用夹角余弦的方法，计算语句
‑
主题分布与领域主题分布之间的相关度C(s
i
)：其中，y
j
为s
i
在语句
‑
主题分布中的第j个主题的分量值；t
j
为领域主题分布中的第j个主题的分量值；重复上述过程，得到每个分割语句的语句
‑
...

【专利技术属性】
技术研发人员：张全，韦向峰，袁毅，池毓焕，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人