【技术实现步骤摘要】
本专利技术属于语音识别,具体涉及一种离线语音识别过程中的分词处理方法。
技术介绍
1、自然语言处理是语音识别重要的步骤,为了将文本转化为结构化数据,需要进行分词。分词后,文本被分解为以词为单位的数据结构,方便后续的处理。例如:在一个项目中,包含如下打开空调、关闭空调、打开电视、关闭电视的命令词。首先,对命令词文本进行分词,如表1所示:
2、表1文本分词表
3、 命令词文本 分词 分词数 打开空调 打开,空调 2 关闭儿童房空调 关闭,儿童房,空调 3
...【技术保护点】
1.一种离线语音识别过程中的分词处理方法,其特征在于,包括如下步骤:
2.如权利要求1所述的分词处理方法,其特征在于,所述步骤204中,对沉淀后矩阵中的所有初始非零矩阵中具备合并条件的两个初始非零矩阵进行合并,可合并的条件是两个初始非零矩阵具有序号完全相同的行或列,并选择合并后面积最大的合并方式,得到一个或多个合并后非零矩阵;
3.如权利要求1所述的分词处理方法,其特征在于,所述步骤4中,还包括节点合并,可合并的节点为在各次拆分过程中,头部分词不同,但调用的尾部分词完全一样的多个节点。
4.如权利要求1所述的分词处理方法,其特征在于
...【技术特征摘要】
1.一种离线语音识别过程中的分词处理方法,其特征在于,包括如下步骤:
2.如权利要求1所述的分词处理方法,其特征在于,所述步骤204中,对沉淀后矩阵中的所有初始非零矩阵中具备合并条件的两个初始非零矩阵进行合并,可合并的条件是两个初始非零矩阵具有序号完全相同的行或列,并选择合并后面积最大的合并方式,得到一个或多个合并后非零矩阵;
3.如权利要求1所述的分词处理方法,其特征在于,所述步骤4中,还包括节点合并,可合并...
【专利技术属性】
技术研发人员:陈思应,何云鹏,
申请(专利权)人:成都启英泰伦科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。