一种离线语音识别过程中的分词处理方法技术

技术编号:41063022 阅读:31 留言:0更新日期:2024-04-24 11:15
一种离线语音识别过程中的分词处理方法,属于语音识别技术领域,包括如下步骤:步骤1.对命令词库中的全部命令词进行第一次拆分;步骤2.对第一组合词集合进行萃取沉淀压缩;步骤3.对步骤2得到的尾部分词中的全部可拆分分词作为第二组合词集合,将第二组合词集合中的可拆分分词进行拆分,得到第二级头部分词和第二级尾部分词;步骤4.将步骤2中得到的全部压缩子集中的组合词的全部头部分词标记为一级节点,尾部分词中的不可拆分分词标记为末端节点;可拆分分词进入下一次拆分。本发明专利技术对复杂分词可一次性更大程度的合并分词节点,降低语音识别运算和存储资源。

【技术实现步骤摘要】

本专利技术属于语音识别,具体涉及一种离线语音识别过程中的分词处理方法


技术介绍

1、自然语言处理是语音识别重要的步骤,为了将文本转化为结构化数据,需要进行分词。分词后,文本被分解为以词为单位的数据结构,方便后续的处理。例如:在一个项目中,包含如下打开空调、关闭空调、打开电视、关闭电视的命令词。首先,对命令词文本进行分词,如表1所示:

2、表1文本分词表

3、 命令词文本 分词 分词数 打开空调 打开,空调 2 关闭儿童房空调 关闭,儿童房,空调 3 本文档来自技高网...

【技术保护点】

1.一种离线语音识别过程中的分词处理方法,其特征在于,包括如下步骤:

2.如权利要求1所述的分词处理方法,其特征在于,所述步骤204中,对沉淀后矩阵中的所有初始非零矩阵中具备合并条件的两个初始非零矩阵进行合并,可合并的条件是两个初始非零矩阵具有序号完全相同的行或列,并选择合并后面积最大的合并方式,得到一个或多个合并后非零矩阵;

3.如权利要求1所述的分词处理方法,其特征在于,所述步骤4中,还包括节点合并,可合并的节点为在各次拆分过程中,头部分词不同,但调用的尾部分词完全一样的多个节点。

4.如权利要求1所述的分词处理方法,其特征在于,所述节点标记的具体...

【技术特征摘要】

1.一种离线语音识别过程中的分词处理方法,其特征在于,包括如下步骤:

2.如权利要求1所述的分词处理方法,其特征在于,所述步骤204中,对沉淀后矩阵中的所有初始非零矩阵中具备合并条件的两个初始非零矩阵进行合并,可合并的条件是两个初始非零矩阵具有序号完全相同的行或列,并选择合并后面积最大的合并方式,得到一个或多个合并后非零矩阵;

3.如权利要求1所述的分词处理方法,其特征在于,所述步骤4中,还包括节点合并,可合并...

【专利技术属性】
技术研发人员:陈思应何云鹏
申请(专利权)人:成都启英泰伦科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1