基于语音识别的文档更新方法、装置、设备及存储介质制造方法及图纸

技术编号:21299415 阅读:18 留言:0更新日期:2019-06-12 07:53
本发明专利技术实施例公开了一种基于语音识别的文档更新方法、装置、设备及存储介质。其中,方法包括:获取与待更新的文档关联的语音信息;将所述语音信息转换为文字内容;根据所述文字内容,更新所述文档的原始内容。本发明专利技术实施例中,通过获取到与文档关联的文字内容,即对文档的原始内容进行解释和补充的文字内容;并根据所述文字内容,更新所述文档的原始内容,从而使得文档包括对原始内容进行解释和补充的文字内容,丰富了原始内容,从而在人们阅读更新后的文档时,可以高效率地获取解释和补充的内容。

Document Updating Method, Device, Equipment and Storage Media Based on Speech Recognition

The embodiment of the present invention discloses a document updating method, device, device and storage medium based on speech recognition. Among them, the method includes acquiring voice information associated with the document to be updated, converting the voice information into text content, and updating the original content of the document according to the text content. In the embodiment of the present invention, the original content of the document is interpreted and supplemented by acquiring the text content associated with the document, and the original content of the document is updated according to the text content, so that the document includes the text content interpreted and supplemented with the original content, enriching the original content, and thus enriching the original content when people read the updated document. It can efficiently obtain explanations and supplementary content.

【技术实现步骤摘要】
基于语音识别的文档更新方法、装置、设备及存储介质
本专利技术实施例涉及语音识别技术,尤其涉及一种基于语音识别的文档更新方法、装置、设备及存储介质。
技术介绍
目前,阅读文档是人们获取知识的重要手段,文档的内容一般是编写完成后向人们统一展示。在展示过程中,编写者可以通过语言对文档的内容进行解释,提高信息传达效率。以PPT为例,为了节省PPT的版面,PPT的内容一般是图文并茂,用于解释的文字内容比较少,导致内容单薄。因此,PPT的演讲者需要进一步讲解,陈述更多的信息。如果人们想要充分了解PPT的内容和演讲者的解释,一般采用观看现场录制视频的方式,这种方式要求人们随着视频的节奏慢慢观看,信息获取比较慢、效率比较低。
技术实现思路
本专利技术实施例提供一种基于语音识别的文档更新方法、装置、设备及存储介质,以提高信息获取效率。第一方面,本专利技术实施例提供了一种基于语音识别的文档更新方法,包括:获取与待更新的文档关联的语音信息;将所述语音信息转换为文字内容;根据所述文字内容,更新所述文档的原始内容。第二方面,本专利技术实施例还提供了一种基于语音识别的文档更新装置,包括:获取装置,用于获取与待更新的文档关联的语音信息;转换模块,用于将所述语音信息转换为文字内容;更新模块,用于根据所述文字内容,更新所述文档的原始内容。第三方面,本专利技术实施例还提供了一种电子设备,所述设备包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现任一实施例所述的基于语音识别的文档更新方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的基于语音识别的文档更新方法。本专利技术实施例中,通过获取与待更新的文档关联的语音信息,将所述语音信息转换为文字内容,从而获取到与文档关联的文字内容,即对文档的原始内容进行解释和补充的文字内容;通过根据所述文字内容,更新所述文档的原始内容,从而使得文档包括对原始内容进行解释和补充的文字内容,丰富了原始内容,从而在人们阅读更新后的文档时,可以高效率地获取解释和补充的内容。附图说明图1是本专利技术实施例一提供的一种基于语音识别的文档更新方法的流程图;图2是本专利技术实施例二提供的一种基于语音识别的文档更新方法的流程图;图3是本专利技术实施例三提供的一种基于语音识别的文档更新装置的结构示意图;图4是本专利技术实施例四提供的一种电子设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供的一种基于语音识别的文档更新方法的流程图,本实施例可适用于根据语音信息对文档的原始内容进行更新的情况。该方法可以由基于语音识别的文档更新装置来执行,该装置可以由硬件和/或软件构成,并一般集成在电子设备中,具体包括如下操作:S110、获取与待更新的文档关联的语音信息。本实施例中,待更新的文档格式包括但不限于PPT、WORD、PDF等。为了方便描述和区分,待更新的文档的内容称为文档的原始内容。原始内容包括但不限于图片、文字、音视频等。与待更新的文档关联的语音信息包括对待更新的文档内容进行解释和补充的语音信息,例如演示者对文档内容的口头解释和补充。下面在演示文档的应用场景下,详细说明语音信息的获取方法。在演示文档的现场,通过投影方式或者视频共享方式向人们演示文档,演示者一边演示文档,一边口头向人们解释文档的原始内容,并进行一些补充。一种情况下,在演示者附近部署电子设备,通过电子设备中的音频采集装置,例如麦克风,录制演示者的语音信息。另一种情况下,在演示者附近部署电子设备,通过电子设备的视频采集装置,例如摄像头,录制演示者的视频,在视频录制完成后,从演示者的视频中提取语音信息,即从视频中分离出音轨。值得说明的是,语音信息可以是如上述提供的在演示文档的过程中获取的,还可以是非演示文档过程中获取。例如,在演示文档之前或者之后,演示者对文档的原始内容进行口头解释和补充,这种情况下,可以人工开启电子设备,通过音频采集装置或者视频采集装置获取语音信息。S120、将所述语音信息转换为文字内容。电子设备还包括语音识别模块,用于将演示者的语音信息转换为文字内容。S130、根据所述文字内容,更新所述文档的原始内容。可选地,将文字内容插入到原始内容中,以形成新的文档。该新的文档包括演示者解释和补充的内容,还包括原始内容。可选地,采用文字内容替换文档的原始内容。在一示例中,如果整个文档的原始内容数量小于预设阈值,预设阈值可以是5个字、3个字,说明原始内容的阅读价值较低,则采用全部文字内容替换整个文档的原始内容。可选地,将一部分文字内容插入到文档的原始内容中,另一部分文字内容替换文档的原始内容。在另一示例中,文档包括多个部分,例如PPT文档包括多张幻灯片,PDF、WORD等文本文档包括多页。则对于文档每个部分,如果原始内容数量小于预设阈值,采用该部分对应的文字内容替换该部分的原始内容;如果原始内容数量大于等于预设阈值,将该部分对应的文字内容插入到该部分的原始内容中。本专利技术实施例中,通过获取与待更新的文档关联的语音信息,将所述语音信息转换为文字内容,从而获取到与文档关联的文字内容,即对文档的原始内容进行解释和补充的文字内容;通过根据所述文字内容,更新所述文档的原始内容,从而使得文档包括对原始内容进行解释和补充的文字内容,丰富了原始内容,从而在人们阅读更新后的文档时,可以高效率地获取解释和补充的内容。实施例二本实施例在上述实施例各可选实施方式的基础上,着重描述将全部文字内容或者部分文字内容插入到原始内容中的实施方式,具体包括以下两种可选实施方式。第一种实施方式,将在至少一个时段获取的语音信息所转换为的文字内容,分别插入到对应时段进行演示的原始内容中。可选地,每5分钟或者10分钟划分一个时段。在一应用场景中,预先记录语音信息的获取时刻以及原始内容的演示时刻。获取前10分钟的语音信息转换为的文字内容,以及前10分钟进行演示的原始内容,例如第1页的原始内容,则将前10分钟的文字内容插入到第1页的原始内容中。第二种可选实施方式,根据文字内容与所述文档的原始内容之间的相似度,将所述文字内容插入到所述文档的原始内容中。如果原始内容是文字,则直接提取文字即可;如果原始内容是非文字,则需要将原始内容转化为文字。具体地,如果原始内容是图片,则对图片进行目标检测得到图片的目标描述文字,例如“足球”、“草坪”等。如果原始内容是音频,则对音频进行语音识别,得到识别后的文字内容。如果原始内容是视频,则提取音轨,并对音轨进行语音识别,得到识别后的文字内容;或者,对至少一个视频帧进行目标检测得到视频帧的目标描述文字。接着,计算文字内容与原始内容对应的文字内容(包括直接提取的文字和转换后的文字)之间的相似度,具体地,首先将文字内容和转换后的文字内容分别转换为向量,再计算向量之间的距离或者余弦,作为相似度。然后,将相似度大于相似度阈值的文字内容插入到所述文档的原始内容中。图2是本本文档来自技高网...

【技术保护点】
1.一种基于语音识别的文档更新方法,其特征在于,包括:获取与待更新的文档关联的语音信息;将所述语音信息转换为文字内容;根据所述文字内容,更新所述文档的原始内容。

【技术特征摘要】
1.一种基于语音识别的文档更新方法,其特征在于,包括:获取与待更新的文档关联的语音信息;将所述语音信息转换为文字内容;根据所述文字内容,更新所述文档的原始内容。2.根据权利要求1所述的方法,其特征在于,所述获取与待更新的文档关联的语音信息,包括:在演示所述文档的现场,录制演示者的语音信息;或者,在演示所述文档的现场,录制演示者的视频,并从演示者的视频中提取语音信息。3.根据权利要求1所述的方法,其特征在于,所述根据所述文字内容,更新所述文档的原始内容,包括以下操作中的任一种:将所述文字内容插入到所述文档的原始内容中;采用文字内容替换所述文档的原始内容;将一部分文字内容插入到所述文档的原始内容中,采用另一部分文字内容替换所述文档的原始内容。4.根据权利要求3所述的方法,其特征在于,所述将所述文字内容插入到所述文档的原始内容中,包括:根据文字内容与所述文档的原始内容之间的相似度,将所述文字内容插入到所述文档的原始内容中;或者,将在至少一个时段获取的语音信息所转换为的文字内容,分别插入到对应时段进行演示的原始内容中。5.根据权利要求4所述的方法,其特征在于,所述根据文字内容与所述文档的原始内容之间的相似度,将所述文字内容插入到所述原始内容中,包括:读入所述文档;提取所述文档各部分的主题内容;计算所述文字内容分别与各部分主题内容的相似度;按照内容先后顺序,将相似度大于相似度阈值的文字内容依次插入到所述文档的对应部分中。6.根据权利要求5所述的方法,其特征在于,所述计算所述文字内容分别与各部分主题内容的相似度,包括:从所述文字内容中,筛选出满足预设条件的至少一个关键内容,所述预设条件至少包括预设位置、超过音量阈值、超过重复次数阈值中的一种;分别计算每个关键内容...

【专利技术属性】
技术研发人员:杨尊程
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1