基于AI识别的会议纪要生成方法、装置、设备及介质制造方法及图纸

技术编号:26224636 阅读:38 留言:0更新日期:2020-11-04 10:59
本发明专利技术涉及人工智能,提供一种基于AI识别的会议纪要生成方法、装置、设备及介质。该方法提取参会者的声纹特征,确定发出音频检测指令的音频设备,获取待识别音频,避免多个参会者同时发言而导致语音重叠,对待识别音频进行处理,得到音频特征,将音频特征与声纹特征进行比较,并确定待识别音频的发言对象,通过对声纹特征的比较结果及音频设备的绑定结果进行综合分析,准确地确定发言对象,对待识别音频进行语音识别,得到文本信息,将文本信息翻译成与预先设置好的语言类型对应的目标语言文本,无需额外配置翻译人员,根据发言对象、文本信息及目标语言文本生成会议纪要。本发明专利技术还涉及区块链技术,会议纪要可存储于区块链。

【技术实现步骤摘要】
基于AI识别的会议纪要生成方法、装置、设备及介质
本专利技术涉及数据处理
,尤其涉及一种基于AI识别的会议纪要生成方法、装置、设备及介质。
技术介绍
目前的远程会议是指两个或两个以上不同会议场所的个人或者群体通过传输线路及多媒体设备实现声音互传的会议,这种远程会议方式能够降低会议成本。然而,当会议中存在多位发言人员时,由于远程会议的局限性,会议记录人员只能根据发言人员的音色主观确定正在发表言论的对象,进而执行会议纪要的记录工作,通过主观确定发言对象的方式容易出现发言对象误判的情况,进而降低会议纪要的准确性。此外,当发言人员说话速度较快时,会议记录人员往往不能完整地记录会议过程中讨论的所有关键信息,导致会议纪要的关键信息的遗漏。另外,由于不同国家使用的语言有所不同,因此,当发言人员使用的语言不能为参会人员理解时,会议场所需要配备不同国家语言的会议记录人员做会议纪要,导致花费大量的人力资源。
技术实现思路
鉴于以上内容,有必要提供一种基于AI识别的会议纪要生成方法、装置、设备及介质,能够在没有额外配置翻译人员做会议本文档来自技高网...

【技术保护点】
1.一种基于AI识别的会议纪要生成方法,其特征在于,所述基于AI识别的会议纪要生成方法包括:/n当接收到会议纪要生成请求时,从所述会议纪要生成请求中获取参会者名单;/n从配置库中提取所述参会者名单中每个参会者对应的声纹特征;/n当接收到音频检测指令时,确定发出所述音频检测指令的音频设备,并从所述音频设备中获取待识别音频;/n对所述待识别音频进行处理,得到音频特征;/n将所述音频特征与每个声纹特征进行比较,得到比较结果,并根据所述比较结果及所述音频设备确定所述待识别音频的发言对象;/n对所述待识别音频进行语音识别,得到所述发言对象对应的文本信息;/n将所述文本信息翻译成与预先设置好的语言类型对应...

【技术特征摘要】
1.一种基于AI识别的会议纪要生成方法,其特征在于,所述基于AI识别的会议纪要生成方法包括:
当接收到会议纪要生成请求时,从所述会议纪要生成请求中获取参会者名单;
从配置库中提取所述参会者名单中每个参会者对应的声纹特征;
当接收到音频检测指令时,确定发出所述音频检测指令的音频设备,并从所述音频设备中获取待识别音频;
对所述待识别音频进行处理,得到音频特征;
将所述音频特征与每个声纹特征进行比较,得到比较结果,并根据所述比较结果及所述音频设备确定所述待识别音频的发言对象;
对所述待识别音频进行语音识别,得到所述发言对象对应的文本信息;
将所述文本信息翻译成与预先设置好的语言类型对应的目标语言文本;
根据所述发言对象、所述文本信息及所述目标语言文本生成会议纪要。


2.如权利要求1所述的基于AI识别的会议纪要生成方法,其特征在于,在从配置库中提取所述参会者名单中每个参会者对应的声纹特征之前,所述基于AI识别的会议纪要生成方法还包括:
获取多个用户的音频信息及所述多个用户中每个用户的身份识别码;
利用语音信号处理技术,对所述音频信息进行预处理;
对预处理后的音频信息进行编码,得到所述音频信息的数字信号;
从所述数字信号中提取声纹特征;
以所述身份识别码与所述声纹特征建立映射关系并保存至所述配置库中。


3.如权利要求1所述的基于AI识别的会议纪要生成方法,其特征在于,所述确定发出所述音频检测指令的音频设备包括:
解析所述音频检测指令,得到参数信息;
根据所述参数信息确定所述音频设备。


4.如权利要求1所述的基于AI识别的会议纪要生成方法,其特征在于,所述对所述待识别音频进行处理,得到音频特征包括:
对所述待识别音频进行分块处理,得到音频区域集;
提取所述音频区域集中每一帧对应的特征参数,得到所述音频特征。


5.如权利要求1所述的基于AI识别的会议纪要生成方法,其特征在于,所述将所述音频特征与每个声纹特征进行比较,得到比较结果,并根据所述比较结果及所述音频设备确定所述待识别音频的发言对象包括:
将所述音频特征与每个声纹特征进行比较,得到比较结果,所述比较结果为每个声纹特征与所述音频特征的相似度;
当检测到所述相似度中存在任意相似度大于阈值时,将所述任意相似度中的最大相似度确定为目标相似度,并将所述目标相似度对应的声纹特征确定为目标声纹特征;
将所述目标声纹特征对应的用户确定为第一用户;
获取与所述音频设备绑定的用户作为第二用户;
当检测到所述第一用户与所述第二用户为同一人时,将所述第一用户确定为所述发言对象;或者
当检测到所述第一用户与所述第二用户不为同一人时,启动摄像设备对当前使用所述音频设备的用户进行录像,得到目标图像,并将所述目标图像与人脸库中的预设图像进行匹配,得到每张预设图像的匹配度,每张预设图像对应一个人员,并获取每个人员的语言特征,确定每个语言特征与所述音频特征的相似度,采用预设权重对每个相似度与每个匹配度进行加权和运算,得到每个人员的分值,将分值最高的人员确定为所述发言对象。

...

【专利技术属性】
技术研发人员:刘璐彭涛
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1