声音回放区间控制方法、计算机可读存储介质和信息处理装置制造方法及图纸

技术编号:23671826 阅读:80 留言:0更新日期:2020-04-04 17:27
声音回放区间控制方法、计算机可读存储介质和信息处理装置。针对语音识别系统提供了一种由计算机执行的声音回放区间控制方法。该方法包括以下步骤:在显示画面上的第一区域的中心部分中布置并显示待校正和确认的词块,第一区域是显示通过使用对经由语音识别所获得的字符串的形态分析而生成的多个词块的区域,以及对在第一区域中所显示的待校正和确认的词块的声音执行回放控制。

Sound playback interval control method, computer readable storage medium and information processing device

【技术实现步骤摘要】
声音回放区间控制方法、计算机可读存储介质和信息处理装置
本文所讨论的实施方式涉及用于在语音输入系统中控制声音回放区间的方法和程序以及信息处理装置。
技术介绍
已知一种使用计算机通过语音识别输入字符串的技术。如果通过语音识别输入的字符串包含错误识别的字符,则要手动校正字符。还已知语音识别软件对通过语音识别所获得的字符串执行形态分析以生成词块并且通过使用诸如假名-日文汉字转换的技术来校正词块。日本特开No.2018-004947号专利公报,日本特开平No.9-190436号专利公报和日本特开No.2009-217665号专利公报是相关技术的示例。当手动校正词块时,包括待校正和确认的词块的区间的声音被重复播放。在这种情况下,通过指定例如数秒来指定声音回放区间。然而,当用户期望改变声音回放区间时,用户必须估计并指定与改变的内容对应的秒数。因此,待校正和确认的词块之前和之后的词块的声音可能不足,或者在声音回放区间中可能包括不必要的部分。在一个方面,本文所讨论的实施方式提供成功地播放待校正和确认的词块之前和之后的词块的声音而不会过多或者不足的声音回放区间控制方法、声音回放区间控制程序和信息处理装置。
技术实现思路
根据实施方式的一个方面,公开了一种由计算机执行的用于使用语音识别的语音输入系统的声音回放区间控制方法。该方法包括:在显示画面上的第一区域的中心部分中布置并显示待校正和确认的词块,第一区域是显示通过使用对经由语音识别所获得的字符串的形态分析而生成的多个词块的区域,以及对在第一区域中显示的待校正和确认的词块的声音执行回放控制。技术效果可以播放待校正和确认的词块之前和之后的词块的声音,而不会过多或不足。附图说明图1是示出根据一个实施方式的信息处理系统的配置的示例的框图。图2是示出根据实施方式的信息处理装置的配置的示例的框图。图3是示出编辑画面的示例的图。图4是示出基于字符串的相似度的校正候选的示例的图。图5是示出根据实施方式的校正候选呈现处理的示例的流程图。图6是示出执行声音回放区间控制程序的计算机的示例的图。具体实施方式下面将参照附图详细描述本文所公开的声音回放区间控制方法、声音回放区间控制程序和信息处理装置的实施方式。注意,所公开的技术不限于实施方式。以下实施方式可以在不引起矛盾的范围内与另一实施方式适当地组合。图1是示出根据一个实施方式的信息处理系统的配置的示例的框图。图1所示的信息处理系统1包括终端设备10和信息处理装置100。在信息处理系统1中,终端设备10的数量不受限制。信息处理系统1可以包括给定数量的终端设备10。终端设备10和信息处理装置100经由网络N彼此联接以能够彼此通信。作为网络N,可以采用诸如可以是有线或无线的局域网(LAN)和虚拟专用网络(VPN)以及因特网之类的任何类型的通信网络。经由网络N执行的通信可以通过例如传输层安全性(TLS)/安全套接字层(SSL)等加密。信息处理系统1是其中素材和音频数据从终端设备10被发送给信息处理装置100并且用户通过使用信息处理装置100所提供的编辑画面来编辑通过语音识别所产生的语句数据的系统的示例。终端设备10是由编辑通过对音频数据执行语音识别而生成的语句数据的用户所使用的信息处理装置。例如,诸如便携式个人计算机和台式个人计算机之类的各种类型的终端可用作终端设备10。例如,终端设备10经由网络N向信息处理装置100发送要生成会议记录的会议的素材和音频数据。终端设备10通过使用信息处理装置100提供的编辑画面来接受通过语音识别所产生的语句数据的编辑并播放包括正在编辑的部分的区间的声音。此时,终端设备10向信息处理装置100依次发送和从信息处理装置100依次接收包括正在编辑的部分的区间的音频数据和编辑信息。在用户开始编辑语句数据的情况下,终端设备10向信息处理装置100发送开始指示。信息处理装置100是提供编辑画面的信息处理装置,所述编辑画面用于接受由对从终端设备10接收的音频数据执行的语音识别所产生的语句数据的编辑。信息处理装置100接受分配给通过使用对经由语音识别所获得的字符串的形态分析而生成的多个词块中的每一个的键输入。词块是通过使用形态分析生成的字符串。词块的示例包括作为词素的词块和作为多个词素的组合的词块。信息处理装置100识别与其输入已被接受的键对应的第一词块。信息处理装置100呈现所识别的第一词块以及包括第一词块和与第一词块紧邻的词块在内的第二词块当中的至少一个词块的校正候选。利用该配置,信息处理装置100可以在校正字符串时减少要确认的项目的数量和击键次数。信息处理装置100在第一区域的中心部分中布置并显示待校正和确认的词块,在第一区域中显示通过使用对经由语音识别所获得的字符串的形态分析而生成的多个词块。信息处理装置100对与第一区域相对应的区间的声音执行回放控制。利用该配置,信息处理装置100可以播放待校正和确认的词块之前和之后的词块的声音,而不会过量或不足。接下来将描述信息处理装置100的配置。图2是示出根据实施方式的信息处理装置100的配置的示例的框图。如图2所示,信息处理装置100包括通信单元110、储存单元120和控制单元130。除了图2所示的功能单元之外,信息处理装置100还可以包括已知计算机所包括的各种功能单元。例如,信息处理装置100可以包括诸如各种类型的输入设备和音频输出设备之类的功能单元。通信单元110由例如网络接口卡(NIC)等实现。通信单元110是经由网络N以有线或无线方式联接到终端设备10并且控制在信息处理装置100和终端设备10之间执行的信息的通信的通信接口。通信单元110从终端设备10接收会议的素材和音频数据以及编辑信息。通信单元110将所接收的会议的素材和音频数据以及所接收的编辑信息输出到控制单元130。通信单元110还向终端设备10发送从控制单元130输入的编辑画面数据和包括正在编辑的部分的区间的音频数据。储存单元120由例如随机存取存储器(RAM)、诸如闪存之类的半导体存储元件或诸如硬盘或光盘之类的储存设备来实现。储存单元120包括音频数据储存单元121、词素词典储存单元122、语句数据储存单元123、素材信息储存单元124、校正历史数据库(以下简称为DB)125和同音词列表储存单元126。储存单元120还存储控制单元130执行处理时使用的信息。音频数据储存单元121存储从终端设备10接收的音频数据。音频数据是用集成电路(IC)记录器等记录并且通过使用诸如MPEG-1音频层-3(MP3)和高级音频编码(AAC)之类的各种编解码器压缩的音频数据。例如,音频数据储存单元121可以存储诸如MP4的容器中的包括H.264/MPEG-4高级视频编码(AVC)的运动图像和音频的运动图像数据。词素词典储存单元122存储在对通过语音识别所获得的字符串执行形态分析时使用的词素词典。词素词典预先包含普通术语。普通术语的示例包括“本文档来自技高网...

【技术保护点】
1.一种由计算机执行的声音回放区间控制方法,该声音回放区间控制方法包括以下步骤:/n在显示画面上的第一区域中布置并显示待校正和确认的词块,所述第一区域是显示通过使用对经由语音识别所获得的字符串的形态分析而生成的多个词块的区域,以及/n对在所述第一区域中所显示的待校正和确认的所述词块的声音执行回放控制。/n

【技术特征摘要】
20180927 JP 2018-1821171.一种由计算机执行的声音回放区间控制方法,该声音回放区间控制方法包括以下步骤:
在显示画面上的第一区域中布置并显示待校正和确认的词块,所述第一区域是显示通过使用对经由语音识别所获得的字符串的形态分析而生成的多个词块的区域,以及
对在所述第一区域中所显示的待校正和确认的所述词块的声音执行回放控制。


2.根据权利要求1所述的声音回放区间控制方法,其中,待校正和确认的所述词块被布置在所述第一区域的中心部分中。


3.根据权利要求2所述的声音回放区间控制方法,其中,
在布置和显示步骤中,响应于对待校正和确认的所述词块进行确认的操作,布置在所述第一区域的所述中心部分中的词块被改变为下一词块,并且
在执行回放控制的过程中,对与改变之后所述下一词块被布置在所述中心部分中的所述第一区域相对应的区间的声音执行回放控制。


4.根据权利要求1所述的声音回放区间控制方法,所述声音回放区间控制方法还包括以下步骤:
在所述显示画面上的与所述第一区域不同的第二区域中显示通过对比所...

【专利技术属性】
技术研发人员:三小田聪
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1