The embodiment of this application discloses a method and device for obtaining information. One specific implementation of the method includes: recognizing the speech signal to obtain the initial recognition character information corresponding to the speech signal to be recognized; selecting the words from the initial recognition character information to get the word set; querying the speech signal segments of the speech signal to be recognized for the words in the above-mentioned word set, and passing through the words. Audio signal segment judges whether the word is noisy or not; deletes the words judged as noisy in the initial recognition text information, and obtains the text information corresponding to the speech signal to be recognized. The implementation method can delete the words obtained from noise recognition and improve the accuracy of acquiring text information.
【技术实现步骤摘要】
用于获取信息的方法及装置
本申请实施例涉及语音识别
,具体涉及用于获取信息的方法及装置。
技术介绍
语音识别技术能够将语音信号转换为文字信息,进而对文字信息进行处理,以实现对应的数据处理。用户可以通过语音信号对带有语音识别功能的智能设备实现远距离操控。尤其对于不易手动输入信息或无法手动输入信息的场合,语音识别技术极大地提高了信息交流的便捷性。
技术实现思路
本申请实施例提出了用于获取信息的方法及装置。第一方面,本申请实施例提供了一种用于获取信息的方法,该方法包括:对待识别语音信号进行识别,得到对应上述待识别语音信号的初始识别文字信息;从上述初始识别文字信息中筛选出单字得到单字集合;对于上述单字集合中的单字,查询上述待识别语音信号中对应该单字的语音信号片段,通过该语音信号片段判断该单字是否为噪音;删除上述初始识别文字信息中的被判断为噪音的单字,得到对应上述待识别语音信号的文字信息。在一些实施例中,上述初始识别文字信息包括字和标点符号,以及,上述从上述初始识别文字信息中筛选出单字得到单字集合,包括:将上述初始识别文字信息中的、只与标点符号相邻的字确定为单字,得到单字集合。在一些实施例中,上述从上述初始识别文字信息中筛选出单字得到单字集合,包括:为上述初始识别文字信息中的每一个字设置编号,上述编号用于表征字在初始识别文字信息中的先后顺序。在一些实施例中,上述查询上述待识别语音信号中对应该单字的语音信号片段,包括:获取上述待识别语音信号的波形图;计算上述波形图的极值得到极值序列;查询该单字的编号,将上述极值序列中的与该编号对应的极值设置为目标极值。在一些实施例中 ...
【技术保护点】
1.一种用于获取信息的方法,包括:对待识别语音信号进行识别,得到对应所述待识别语音信号的初始识别文字信息;从所述初始识别文字信息中筛选出单字得到单字集合;对于所述单字集合中的单字,查询所述待识别语音信号中对应该单字的语音信号片段,通过该语音信号片段判断该单字是否为噪音;删除所述初始识别文字信息中的被判断为噪音的单字,得到对应所述待识别语音信号的文字信息。
【技术特征摘要】
1.一种用于获取信息的方法,包括:对待识别语音信号进行识别,得到对应所述待识别语音信号的初始识别文字信息;从所述初始识别文字信息中筛选出单字得到单字集合;对于所述单字集合中的单字,查询所述待识别语音信号中对应该单字的语音信号片段,通过该语音信号片段判断该单字是否为噪音;删除所述初始识别文字信息中的被判断为噪音的单字,得到对应所述待识别语音信号的文字信息。2.根据权利要求1所述的方法,其中,所述初始识别文字信息包括字和标点符号,以及所述从所述初始识别文字信息中筛选出单字得到单字集合,包括:将所述初始识别文字信息中的、只与标点符号相邻的字确定为单字,得到单字集合。3.根据权利要求1所述的方法,其中,所述从所述初始识别文字信息中筛选出单字得到单字集合,包括:为所述初始识别文字信息中的每一个字设置编号,所述编号用于表征字在初始识别文字信息中的先后顺序。4.根据权利要求3所述的方法,其中,所述查询所述待识别语音信号中对应该单字的语音信号片段,包括:获取所述待识别语音信号的波形图;计算所述波形图的极值得到极值序列;查询该单字的编号,将所述极值序列中的与该编号对应的极值设置为目标极值。5.根据权利要求4所述的方法,其中,所述待识别语音信号包括时间信息,以及所述查询所述待识别语音信号中对应该单字的语音信号片段,包括:查询所述目标极值对应的目标时间信息;将所述待识别语音信号中的、所述目标时间信息对应时刻的前第一设定时间对应的第一时刻和后第二设定时间对应的第二时刻之间的语音信号设置为对应该单字的语音信号片段。6.根据权利要求1至5中任意一项所述的方法,其中,所述通过该语音信号片段判断该单字是否为噪音,包括:对该语音信号片段进行数字化处理,得到至少一个波形片段,并获取所述至少一个波形片段中波形片段幅值的最大值和最小值;响应于所述最大值和最小值之间的差值小于设定阈值,判断该单字为噪音。7.一种用于获取信息的装置,包括:初始识别文字信息获取单元,被配置成对待识别语音信号进行识别,得到对应所述待识别语音信号的初始识别文字信息;单字集合获取单元,被配置成从所述初始识别文字信息中筛选出单字得到单字集合;噪音判断单元,对于所述单字集合中的单字...
【专利技术属性】
技术研发人员:王知践,钱胜,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。