文本信息纠错方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:20681247 阅读:52 留言:0更新日期:2019-03-27 18:59
本申请涉及一种文本信息纠错方法,所述方法包括:获取音频信息对应的文本信息,将所述文本信息转化为第一拼音列表;根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表;当存在所述多个拼音首字母对应的第二词语列表时,在所述文本信息中查找所述多个拼音首字母对应的字符串;在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,得到纠错后的文本信息。采用本方法能够提高文本信息的准确性,从而提高语音识别的准确性。

【技术实现步骤摘要】
文本信息纠错方法、装置、计算机设备和存储介质
本申请涉及语音
,特别是涉及一种文本信息纠错方法、装置、计算机设备和存储介质。
技术介绍
语音识别是一门交叉学科,该技术涉及信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等多个领域。语音识别的主要过程是获取拾音系统中的音频信息,从该音频信息中提取声学特征,然后根据语音识别模型将音频信息转化为文本信息。在语音识别的过程中,文本信息的准确性极易受到各种因素的影响。例如,语音识别模型不能识别音频信息中的谐音词语、音频信息中英混杂,以及音频信息中用户发音不准等。因此,如何提高文本信息的准确性,从而提高语音识别的准确性成为目前需要解决的一个技术问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够在提高文本信息的准确性,从而提高语音识别的准确性的文本信息纠错方法、装置、计算机设备和存储介质。一种文本信息纠错方法,所述方法包括:获取音频信息对应的文本信息,将所述文本信息转化为第一拼音列表;根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表;当存在所述多个拼音首字母对应的第二词语列表时,在所述文本信息中查找所述多个拼音首字母对应的字符串;在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,得到纠错后的文本信息。在其中一个实施例中,所述根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表,包括:根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二拼音列表;当存在所述多个拼音首字母对应的第二拼音列表时,获取所述第二拼音列表对应的第二词语列表。在其中一个实施例中,所述在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,包括:当所述第二词语列表的长度大于预设值时,将所述第二词语列表中的词语与所述字符串进行比对,得到比对结果;当所述比对结果中存在比对成功的词语时,将所述词语对相应的字符串进行纠错。在其中一个实施例中,所述方法还包括:当所述比对结果中未得到比对成功的词语时,将所述第二词语列表中的词语在所述第二拼音列表中的拼音与所述字符串在所述第一拼音列表中的拼音进行比对,得到拼音比对结果;选取所述拼音比对结果中匹配度最高的词语,将所述匹配度最高的词语对相应的字符串进行纠错。在其中一个实施例中,所述方法还包括:对所述字典树中每个节点存储的拼音列表中发音近似的音节进行字母过滤处理;在过滤处理后的字典树中查找所述第一拼音列表中的多个拼音首字母对应的第二词语列表。一种文本信息纠错装置,所述装置包括:信息转化模块,用于获取音频信息对应的文本信息,将所述文本信息转化为第一拼音列表;列表查找模块,用于根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表;字符串查找模块,用于当存在所述多个拼音首字母对应的第二词语列表时,在所述文本信息中查找所述多个拼音首字母对应的字符串;字符串纠错模块,用于在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,得到纠错后的文本信息。在其中一个实施例中,所述列表查找模块还用于根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二拼音列表;当存在所述多个拼音首字母对应的第二拼音列表时,获取所述第二拼音列表对应的第二词语列表。在其中一个实施例中,所述字符串纠错模块还用于当所述第二词语列表的长度大于预设值时,将所述第二词语列表中的词语与所述字符串进行比对,得到比对结果;当所述比对结果中存在比对成功的词语时,将所述词语对相应的字符串进行纠错。一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。上述文本信息纠错方法、装置、计算机设备和存储介质,根据拼音列表中的多个拼音首字母以及字典树查找规则在文本信息中查找多个拼音首字母对应的字符串,将在字典树中查找到的词语对相应的字符串进行纠错。能够在音频信息中出现谐音词语、中英混杂、用户发音不准等情况下提高文本信息的准确性,从而提高语音识别的准确性。附图说明图1为一个实施例中文本信息纠错方法的应用环境图;图2为一个实施例中文本信息纠错方法的流程示意图;图3为一个实施例中字典树的结构示意图;图4为一个实施例中查找第二词语列表步骤的流程示意图;图5为一个实施例中文本信息纠错装置的结构框图;图6为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的文本信息纠错方法,可以应用于如图1所示的应用环境中。其中,终端102与服务器104通过网络进行通信。终端102接收音频信息,将该音频信息转化为文本信息,终端102将文本信息上传至服务器104。终端102还可以将接收到的音频信息直接上传至服务器104,服务器104将音频信息转化为文本信息。服务器104将文本信息转化为第一拼音列表。服务器104根据第一拼音列表中的多个拼音首字母在字典树中查找是否存在多个拼音首字母对应的第二词语列表。当查找到多个拼音首字母对应的第二词语列表时,服务器104在文本信息中查找多个拼音首字母对应的字符串。服务器104在第二词语列表中选择字符串对应的词语,将词语对相应的字符串进行纠错,得到纠错后的文本信息。通过对文本信息进行纠错,能够在录制演讲、抄录笔记、语言评测等学习过程中提高语音识别的准确性。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一个实施例中,如图2所示,提供了一种文本信息纠错方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:步骤202,获取音频信息对应的文本信息,将文本信息转化为第一拼音列表。在语音识别过程中,服务器可以直接获取终端上传的音频信息对应的文本信息,也可以接收终端上传的音频信息,将该音频信息转化为文本信息。服务器可以将文本信息转化为第一拼音列表,服务器可以通过第一拼音列表将文本信息中的字符串与字典树中的词语进行拼音层次上的对比。其中,字符串是指可以根据词语中每个字的拼音首字母进行查找的词语或文本。服务器可以根据第一拼音列表中的所有拼音首字母生成第一拼音首字母列表,也可以将文本信息直接转化为第一拼音首字母列表,通过第一拼音首字母列表将文本信息中的字符串与字典树中的词语进行拼音首字母层次上的对比。服务器还可以将文本信息转化第一词语列表,通过第一词语列表将文本信息中的字符串与字典树中查找到的词语进行词语层次上的对比。上述列表可以是以字为单位的列表。步骤204,根据第一拼音列表中的多个拼音首字母在字典树中查找是否存在多个拼音首字母对应的第二词语列本文档来自技高网...

【技术保护点】
1.一种文本信息纠错方法,所述方法包括:获取音频信息对应的文本信息,将所述文本信息转化为第一拼音列表;根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表;当存在所述多个拼音首字母对应的第二词语列表时,在所述文本信息中查找所述多个拼音首字母对应的字符串;在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,得到纠错后的文本信息。

【技术特征摘要】
1.一种文本信息纠错方法,所述方法包括:获取音频信息对应的文本信息,将所述文本信息转化为第一拼音列表;根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表;当存在所述多个拼音首字母对应的第二词语列表时,在所述文本信息中查找所述多个拼音首字母对应的字符串;在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,得到纠错后的文本信息。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表,包括:根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二拼音列表;当存在所述多个拼音首字母对应的第二拼音列表时,获取所述第二拼音列表对应的第二词语列表。3.根据权利要求2所述的方法,其特征在于,所述在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,包括:当所述第二词语列表的长度大于预设值时,将所述第二词语列表中的词语与所述字符串进行比对,得到比对结果;当所述比对结果中存在比对成功的词语时,将所述词语对相应的字符串进行纠错。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:当所述比对结果中未得到比对成功的词语时,将所述第二词语列表中的词语在所述第二拼音列表中的拼音与所述字符串在所述第一拼音列表中的拼音进行比对,得到拼音比对结果;选取所述拼音比对结果中匹配度最高的词语,将所述匹配度最高的词语对相应的字符串进行纠错。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述字典树中...

【专利技术属性】
技术研发人员:肖文龙刘建黄华伦
申请(专利权)人:和美深圳信息技术股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1