一种语音通话识别方法、装置及存储介质制造方法及图纸

技术编号:24717499 阅读:33 留言:0更新日期:2020-07-01 00:41
本发明专利技术公开了一种语音通话识别方法、装置及存储介质,方法包括:当发生通话时,识别所述通话中各通话方的语音流,并转换为相应的文本信息;依据各通话方的通话属性,将各通话方与所述对应的文本信息关联,并生成通话文本;显示所述通话文本。本申请将通话转换为文本,然后将依据各通话方的通话属性,将各通话方与对应的文本信息关联,并生成通话文本后呈现给用户。如此将通话方的信息交互及语音交互与通话属性信息整合起来,更加完整连续的记录了通话方的交互内容,以一种更加直观便捷的方式呈现给用户。

【技术实现步骤摘要】
一种语音通话识别方法、装置及存储介质
本专利技术涉及通信终端
,尤其涉及一种语音通话识别方法、装置及存储介质。
技术介绍
从手机问世以来,通话就是一个使用最频繁和必不可少的功能之一。在通话的过程中往往存在一些重要的信息需要记录,所以很多终端厂商实现了通话录音这样的功能,具体就是将通话方的语音内容保存为音频文件供用户查看和播放。如果需要记录通话内容的话,目前采用的主要方式就是利用手机的录音功能来记录。但这种记录方式存储占用空间大,同时也不方便查找各通话中的通话方的内容。音频文件存在存储占用空间大,不利于查找,呈现不直观的缺点,人们常采用将通话录音转换成文本的方式进行存储,因为文本节省存储空间,便于后续查找。
技术实现思路
本专利技术实施例提供一种语音通话识别方法、装置及存储介质,以解决音频文件存在存储占用空间大,不利于查找,呈现不直观的问题。为了解决上述技术问题,本专利技术通过以下至少一技术方案实现:第一方面,提供了一种语音通话识别方法,包括:当发生通话时,识别所述通话中各通话方的语音流,并转换为相应的文本信息;依据各通话方的通话属性,将各通话方与所述相应的文本信息关联,并生成通话文本;显示所述通话文本。第二方面,本申请提供了一种语音通话识别装置,包括:语音识别装置和消息模块;所述语音识别装置,用于当发生通话时,识别所述通话中各通话方的语音流,并转换为相应的文本信息;依据各通话方的通话属性,将各通话方与所述相应的文本信息关联,并生成通话文本;所述消息模块,用于显示所述通话文本。第三方面,本申请提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:在本专利技术实施例中,将通话转换为文本,然后将依据各通话方的通话属性,将各通话方与对应的文本信息关联,并生成通话文本后呈现给用户。如此将通话方的信息交互及语音交互与通话属性信息整合起来,更加完整连续的记录了通话方的交互内容,以一种更加直观便捷的方式呈现给用户。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本申请的语音通话识别方法的实施例1的流程图;图2为步骤S01的流程图;图3为本申请的语音通话识别装置的消息会话页面的结构框图;图4为本申请的语音通话识别装置的实施例4的结构框图;图5为本申请的语音通话识别装置的实施例4的另一结构框图;图6为本申请的语音通话识别装置的实施例4的另一结构框图;图7为本申请的语音通话识别装置的实施例4的另一结构框图;附图中各部件的标记如下:1-语音识别装置,11-通话模块,111-通信单元,112-解编码单元,12-音频模块,13-语音识别模块,14-处理模块,15-联系人模块,2-消息模块。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1:如图1所示,本申请提供了一种语音通话识别方法,可以包括:S01,当发生通话时,识别所述通话中各通话方的语音流,并转换为相应的文本信息;S02,依据各通话方的通话属性,将各通话方与所述相应的文本信息关联,并生成通话文本;S03,显示所述通话文本。本申请通过语音转文本的方式实现了通话记录可记录、可检索,并为大数据分析、秘书化服务提供了信息入口。本申请将通话语音转换为文本,然后将每个通话属性信息与文本结合后呈现给用户。如此将通话方的信息交互及语音交互与联系人属性信息整合起来,更加完整连续的记录了通话方的交互内容,以一种更加直观便捷的方式呈现给用户。实施例2:如图2所示,在实施例1的基础上,当通话开始后,还包括:识别通话方的来电号码。S01中所述将通话语音转换为文本的方法包括:S011,获取所述通话语音中的至少一个上行音频流和至少一个下行音频流;上下行音频流包括时间信息;在通话语音中捕获到传输的实时传输协议(Real-timeTransportProtocol,RTP)流后,从这个RTP流中按照其中音频流的方向提取出不同方向地两条音频流;为了加以区分,我们把其中一条音频流称为上行音频流,另一条称之为下行音频流,上、下行的称谓是相对的,可以根据不同的应用场景加以定义。S012,对所述上行音频流和所述下行音频流进行解析,分别转换为相应的文本信息;,具体为:a)上行音频流对应于本地终端通话方的语音,下行音频流对应于通话方的语音;b)对所述上行音频流进行解析,生成终端通话文本;c)对所述下行音频流进行解析,生成通话方文本;包括:对这两条音频流分别进行RTP包预处理和语音解码等过程,形成上、下行两条单独的语音信号,并分别对这两条单独的语音信号进行输出、播放,或者生成文本文件加以保存;d),将终端通话方的号码、上行音频流开始时间和持续时间对应于所述终端通话文本;f),将通话方来电号码、下行音频流开始时间和持续时间对应于所述通话方文本。所述通话属性包括电话号码;或/和所述通话属性包括电话号码和语音开始时间;或/和所述通话属性包括电话号码和语音持续时间;或/和所述通话属性包括电话号码、通话开始时间和通话持续时间。进一步地,识别所述通话方的来电号码;还包括:将所述来电号码与存储的联系人信息进行匹配,具体为:如果来电号码与联系人列表中的电话号码相同,则将来电号码匹配到已有联系人上,如果来电号码与联系人列表中的电话号码不相同,则将该来电号码为新号码。如果匹配成功,则将存储的所述联系人信息与下行音频流开始时间和持续时间对应于所述通话方文本;如果匹配失败,则直接执行步骤f。实施例3:在实施例1或2的基础上,S03中显示通话文本的方法包括:按照时间顺序,显示通话文本;或逐一显示每个所述通话方的通话文本。如图3所示,通话文本的显示形式包括:如果所述通话方存在消息会话,则将所述通话文本添加至已有所述消息会话上;可以单独添加文本,也可以与音频内容一起添加至消息会话上;如果通话方不存在消息会话,则则新增消息会话,所述通话文本添加至新增消息会话上;可以单独添加文本,也可以与音频内容一起添加至消息会话上。进一步地,本申请还包括:保存所述通话文本。本申请将单独针对通话时上下行音频流进行语音识别转换成文本,然后结合时间信息本文档来自技高网...

【技术保护点】
1.一种语音通话识别方法,其特征在于,包括:/n当发生通话时,识别所述通话中各通话方的语音流,并转换为相应的文本信息;/n依据各通话方的通话属性,将各通话方与所述相应的文本信息关联,并生成通话文本;/n显示所述通话文本。/n

【技术特征摘要】
1.一种语音通话识别方法,其特征在于,包括:
当发生通话时,识别所述通话中各通话方的语音流,并转换为相应的文本信息;
依据各通话方的通话属性,将各通话方与所述相应的文本信息关联,并生成通话文本;
显示所述通话文本。


2.根据权利要求1所述的语音通话识别方法,其特征在于,所述识别所述通话中各通话方的语音流,并转换为相应的文本信息的的方法包括:
获取所述通话中的至少一个上行音频流和至少一个下行音频流;
对所述上行音频流和所述下行音频流进行解析,转换为相应的文本信息。


3.根据权利要求1或2所述的语音通话识别方法,其特征在于,所述通话属性包括电话号码;或/和
所述通话属性包括电话号码和语音开始时间;或/和
所述通话属性包括电话号码和语音持续时间;或/和
所述通话属性包括电话号码、通话开始时间和通话持续时间。


4.根据权利要求1或2所述的语音通话识别方法,其特征在于,所述显示所述通话文本包括:
按照时间顺序,显示通话文本;或
逐一显示每个所述通话方的通话文本。


5.根据权利要求4所述的语音通话识别方法,其特征在于,如果所述通话方存在消息会话,则将所述通话文本添加至已有所述消息会话上;
如果所述通话方与不存在消息会话,则新增消息会话,且所述通话文本显示于新增所述消息会话上。


6.根据权利要求1或2所述的语音通话识别方法,其特征在于,在所述通话开始后,还包括:
识别所述通话方...

【专利技术属性】
技术研发人员:赵永良
申请(专利权)人:西安中兴新软件有限责任公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1