一种利用语音进行文本摘录的方法和系统技术方案

技术编号:37804474 阅读:18 留言:0更新日期:2023-06-09 09:34
本发明专利技术公开了一种利用语音进行文本摘录的方法和系统,能使用户通过朗读文本内容的方式,辅以自动补全技术,快速准确地摘录出相应的书本片段。其技术方案为:将用户语音信号中的信息转化为文字;从预选的书目中,根据转化后的文字获取候选句子;根据获取到的候选句子生成候选片段;基于候选片段生成书本片段。基于候选片段生成书本片段。基于候选片段生成书本片段。

【技术实现步骤摘要】
一种利用语音进行文本摘录的方法和系统


[0001]本专利技术涉及一种文本摘录的技术,具体涉及利用语音技术来实现的文本摘录的方法和系统。

技术介绍

[0002]图书摘录,简称书摘,即将书本中的佳句、佳篇摘录下来,是语文教学及日常阅读中的常用手段,有助于读者对书本内容进行更好的理解,加深记忆,温故知新。
[0003]传统的图书摘录方法都是采用手工摘抄的方法,不但费时费力,而且无法实现永久化的电子存档,更无法实现摘录内容的大范围共享。随着语音识别技术的发展,利用自动语音识别(Automatic Speech Recognition,ASR)技术,将读者朗读的书本内容转换为电子化的文字片段进行摘录保存得以实现。但这种技术依然存在以下的问题,一方面,是人都会犯错,读者在朗读时必然会不可避免地存在着加字、漏字或读错字的情况,由此导致识别得到的ASR结果无法反映书本原貌;另一方面,现有ASR技术依然无法保证文字识别的准确性,因此后续还需要在ASR识别结果的基础上做手工修改,这会大大降低工作效率。
[0004]此外,无论是通过手工摘抄方式还是通本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种利用语音进行文本摘录的方法,其特征在于,方法包括:将用户语音信号中的信息转化为文字;从预选的书目中,根据转化后的文字获取候选句子;根据获取到的候选句子生成候选片段;基于候选片段生成书本片段。2.根据权利要求1所述的利用语音进行文本摘录的方法,其特征在于,在将用户语音信号中的信息转化为文字的步骤之后还包括:对转化后的文字进行修正处理。3.根据权利要求1所述的利用语音进行文本摘录的方法,其特征在于,预选的书目根据转化后的文字来确定。4.根据权利要求1所述的利用语音进行文本摘录的方法,其特征在于,从预选的书目中获取候选句子的处理是使用信息检索算法,基于转化后的文字从预选的书目中选出候选句子,其中信息检索的对象包括文字和/或对应拼音的频次、编辑距离、jaccard相似度、cosine相似度。5.根据权利要求1所述的利用语音进行文本摘录的方法,其特征在于,根据获取到的候选句子生成候选片段的步骤进一步包括:根据候选句子相对于转化后的文字,对候选句子作初步筛选,其中初步筛选的条件包括加字、错字、匹配字的个数、比例、分散程度;根据转化后的文字,对初步筛选出的候选句子进行重排序,并自动补全中间漏读的句子,得到候选片段,以使候选片段的语序与转化后的文字的语序相同。6.根据权利要求5所述的利用语音进行文本摘录的方法,其特征在于,对初步筛选出的候选句子进行重排序得到候选片段的处理包括:先对所有候选句子的排列组合进行穷举,再对于每种组合,按照组合中每句候选句子相对于转化后的文字的匹配字的平均起始位置,从小到大排列候选句子,根据排列后的候选句子的编号顺序和编号间隔,以及排列后的候选句子相对于转化后的文字的包括加字、错字、匹配字的个数、比例、分散程度在内的特征,计算匹配度得分,选出匹配度得分最高的组合作为候选片段;或者通过使用神经网络模型处理生成式问答任务的方式来基于候选句子生成候选片段,包括:输入每句候选句子的编号与内容,以及转化后的文字,神经网络模型输出对应的编号列表,根据输出的编号列表排列相应的候选句子,以得到候选片段。7.根据权利要求1所述的利用语音进行文本摘录的方法,其特征在于,基于候选片段生成书本片段的步骤进一步包括:直接将候选片段作为书本片段;或者将候选片段以及重排序后的候选句子列表,通过人机交互的方式展现给用户,由用户确认所要摘录的片段为书本片段。8.根据权利要求1所述的利用语音进行文本摘录的方法,其特征在于,方法还包括:对书本片段进行书摘管理、评论和导入/导出。9.一种利用语音进行文本摘录的系统,其特征在于,系统包括:语音转文字模块,用于将用户语音信号中的信息转化为文字;
候选句子获取模块,连接语音转文字模块,用于从预选的书目中,根据转化后的文字获取候选句子;候选片段获取模块,连接候选句子获取模块,用于根据获取到的候选句子生成候选片段;书本片段确定模块,连接候选片段获取模块,用于基于候选片段生成文本片段。10.根据权利要求9所述的利用语音进行文本摘录的系统,其特征在...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:上海乐言科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1