一种数据提取方法、装置、计算机系统及可读存储介质制造方法及图纸

技术编号:22503199 阅读:12 留言:0更新日期:2019-11-09 02:55
本发明专利技术公开了一种数据提取方法、装置、计算机系统及可读存储介质,基于人工智能技术,包括以下步骤:获得单词调节时间和整句调节时间;根据选择信号获取听力文件,播放听力文件并记录播放开始时间;记录接收到单词信号时的时间,并将时间设定为单词标定时间;或记录接收到整句信号时的时间,并将时间设定为整句标定时间;根据单词标定时间与单词调节时间相减,获得单词修正时间;根据单词修正时间在听力文档中获得标记单词;或根据整句标定时间与整句调节时间相减,获得整句修正时间;根据整句修正时间在听力文档中获得标记整句。本发明专利技术保证了用户在输入单词信号或整句信号时所要获得的标记单词与标记整句,与用户听到播放内容中的关键点一致。

A data extraction method, device, computer system and readable storage medium

The invention discloses a data extraction method, device, computer system and readable storage medium. Based on the artificial intelligence technology, the method comprises the following steps: obtaining the word adjustment time and the whole sentence adjustment time; acquiring the listening file according to the selection signal, playing the listening file and recording the playback start time; recording the time when the word signal is received, and setting the time as the word mark Fixed time; or record the time when receiving the whole sentence signal, and set the time as the whole sentence calibration time; according to the word calibration time and the word adjustment time subtraction, get the word correction time; according to the word correction time, get the marked word in the listening document; or according to the whole sentence calibration time and the whole sentence adjustment time subtraction, get the whole sentence correction time; according to the whole sentence correction time The whole sentence is marked in the listening document. The invention ensures that the marked word and the marked whole sentence to be obtained by the user when inputting the word signal or the whole sentence signal are consistent with the key points in the broadcast content heard by the user.

【技术实现步骤摘要】
一种数据提取方法、装置、计算机系统及可读存储介质
本专利技术涉及计算机
,尤其涉及一种数据提取方法、装置、计算机系统及可读存储介质。
技术介绍
目前外语听力训练软件大部分都是文字和语音结合,但对听力学习而言存在以下问题:在训练听力的时候,多数采用通过文本与音频同步,使用户边听边看,以实现听看两方面同时进行的训练效果;虽然这种方式的初衷在于保证用户对英文听力的理解,但是,使用者在遇到陌生词汇或关键语句需要暂停学习时,往往因该词汇或语句已播放完毕而需要使用者手动回放,去获取该陌生词汇;不仅为使用者带来的极大的不便,还使得用户因多次回放,而错过对整段内容理解的时机,导致对听力文件的理解极为碎片化。
技术实现思路
本专利技术的目的是提供一种数据提取方法、装置、计算机系统及可读存储介质,用于解决在遇到陌生词汇或关键语句需要暂停学习时,因该词汇或语句已播放完毕而需要使用者手动回放所带来的不便,以及错过对整段内容理解的时机的问题。为实现上述目的,本专利技术提供一种数据提取方法,包括以下步骤:S1:利用听力文件并通过设定规则获得单词调节时间和整句调节时间,保存单词调节时间和整句调节时间后生成设定完成信号;接收由用户端根据所述设定完成信号输出的选择信号,并根据所述选择信号获取听力文件;将听力文件在用户端播放并记录播放开始时间;S2:接收单词标定信号,记录接收到所述单词信号时的时间,并将所述时间设定为单词标定时间;或接收整句标定信号,记录接收到所述整句信号时的时间,并将所述时间设定为整句标定时间;S3:根据所述单词信号提取单词调节时间;或根据所述整句信号提取整句调节时间;S4:根据所述单词标定时间与单词调节时间相减,获得单词修正时间;根据所述单词修正时间在听力文档中获得标记单词;或根据所述整句标定时间与整句调节时间相减,获得整句修正时间;根据所述整句修正时间在听力文档中获得标记整句;S5:汇总所述听力文件中的标记单词形成单词标记集并将其保存至标记数据库;或汇总所述听力文件中的标记整句形成整句标记集并将其保存至标记数据库。优选的,所述步骤S0包括以下步骤:S01:创设听力数据库,并生成创设成功信号;S02:根据所述创设成功信号从互联网中加载听力音频;S03:将利用语音文字转换工具将所述听力音频进行文字转换,并获得听力文档;S04:利用语音单词同步规则将所述听力音频和听力文档同步,并制成听力文件;S05:将所述听力文件储存至所述听力数据库。优选的,所述步骤S1中的设定规则,包括以下步骤:S1-01:从所述听力数据库中获取听力文件,并向用户端输出训练准备信号;接收由所述用户端根据训练准备信号输出的训练开始信号,并记录接收到所述训练开始信号的时间,将所述时间设为训练开始时间;根据所述训练开始信号将所述听力文件的听力音频输出至用户端并播放;S1-02:接收由所述用户端输出的单词训练标定信号,记录接收到所述单词训练标定信号时的时间,并将所述时间设定为单词训练标定时间;S1-03:将所述单词训练标定时间和训练开始时间相减,获得单词训练标定时间戳,并向用户端输出听力文件的听力文档;S1-04:接收所述用户端从所述听力文档中选择的调整单词,获取所述调整单词的音频时间戳,并将所述音频时间戳设为调整训练时间戳;S1-05:将所述单词训练标定时间戳与所述调整时间训练戳相减,获得单词调节时间并保存。优选的,所述步骤S1中的设定规则,还包括:S1-11:从所述听力数据库中获取听力文件,并向用户端输出训练准备信号;接收由所述用户端根据训练准备信号输出的训练开始信号,并记录接收到所述训练开始信号的时间,将所述时间设为训练开始时间;根据所述训练开始信号将所述听力文件的听力音频输出至用户端并播放;S1-12:接收由所述用户端输出的整句训练标定信号,记录接收到所述整句训练标定信号时的时间,并将所述时间设定为整句训练标定时间;S1-13:将所述整句训练标定时间和训练开始时间相减,获得整句训练标定时间戳,并向用户端输出听力文件的听力文档;S1-14:接收所述用户端从所述听力文档中选择的调整整句,获取所述调整整句的音频时间段,并将所述音频时间段设为调整训练时间段;S1-15:将所述调整训练时间段的上限和下限相加再除以二,获得所述调整训练时间段的均值时间戳;将所述整句训练标定时间戳与所述均值时间戳相减,获得整句调节时间并保存。优选的,所述步骤S5之后还包括步骤S6,所述S6包括:若所述标记数据库中仅具有单词标记集或整句标记集,则将所述单词标记集或整句标记集输出;接收推荐请求,并根据所述推荐请求输出推荐文件;若所述标记数据库中同时具有单词标记集和整句标记集,则将所述单词标记集和整句标记集同时输出;接受推荐请求,并根据所述推荐请求输出推荐文件。优选的,所述步骤S4包括以下步骤:S41:将单词标定时间与播放开始时间相减获得单词标定时间戳;或将整句标定时间与播放开始时间相减获得整句标定时间戳;S42:将所述单词标定时间戳与所述单词调节时间相减,获得单词修正时间;或将所述整句标定时间戳时间与所述整句调节时间相减,获得整句修正时间;S43:设定单词调整阈值;将所述单词修正时间与单词调整阈值相减,获得单词修正上限;将所述单词调整阈值与单词修正时间相加,获得单词修正下限;获得由所述单词修正上限和单词修正下限构成的单词修正时间段;或设定整句调整阈值;将所述整句修正时间与整句调整阈值相减,获得整句修正上限;将所述整句修正时间与整句调整阈值相加,获得证据修正下限;获得由所述整句修正上限和整句修正下限构成的整句修正时间段;S44:在听力音频中获取在所述单词修正时间段内的音频时间戳,并在听力文档中将所述音频时间戳所对应的单词设为标记单词;在听力音频中获取重合范围与所述整句修正时间段最大的音频时间段,并在所述听力文档中将所述音频时间段所对应的整句设为标记整句。为实现上述目的,本专利技术还提供一种数据提取装置,包括:选择播放模块,用于利用听力文件并通过设定规则获得单词调节时间和整句调节时间,保存单词调节时间和整句调节时间后生成设定完成信号;接收由用户端根据所述设定完成信号输出的选择信号,并根据所述选择信号获取听力文件;将听力文件在用户端播放并记录播放开始时间;信号接收模块,用于接收单词标定信号,记录接收到所述单词信号时的时间,并将所述时间设定为单词标定时间;或接收整句标定信号,记录接收到所述整句信号时的时间,并将所述时间设定为整句标定时间;调节时间提取模块,用于根据所述单词信号提取单词调节时间;或根据所述整句信号提取整句调节时间;调节修正模块,用于根据所述单词标定时间与单词调节时间相减,获得单词修正时间;根据所述单词修正时间在听力文档中获得标记单词;或根据所述整句标定时间与整句调节时间相减,获得整句修正时间;根据所述整句修正时间在听力文档中获得标记整句;汇总模块,用于汇总所述听力文件中的标记单词形成单词标记集并将其保存至标记数据库;或汇总所述听力文件中的标记整句形成整句标记集并将其保存至标记数据库。为实现上述目的,本专利技术还提供一种计算机系统,其包括多个计算机设备,各计算机设备包括存储器.处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述多个计算机设备的处理器执行所述计算机程序时共同实现本文档来自技高网...

【技术保护点】
1.一种数据提取方法,其特征在于,包括以下步骤:S1:利用听力文件并通过设定规则获得单词调节时间和整句调节时间,保存单词调节时间和整句调节时间后生成设定完成信号;接收由用户端根据所述设定完成信号输出的选择信号,并根据所述选择信号获取听力文件;将听力文件在用户端播放并记录播放开始时间;S2:接收单词标定信号,记录接收到所述单词信号时的时间,并将所述时间设定为单词标定时间;或接收整句标定信号,记录接收到所述整句信号时的时间,并将所述时间设定为整句标定时间;S3:根据所述单词信号提取单词调节时间;或根据所述整句信号提取整句调节时间;S4:根据所述单词标定时间与单词调节时间相减,获得单词修正时间;根据所述单词修正时间在听力文档中获得标记单词;或根据所述整句标定时间与整句调节时间相减,获得整句修正时间;根据所述整句修正时间在听力文档中获得标记整句;S5:汇总所述听力文件中的标记单词形成单词标记集并将其保存至标记数据库;或汇总所述听力文件中的标记整句形成整句标记集并将其保存至标记数据库。

【技术特征摘要】
1.一种数据提取方法,其特征在于,包括以下步骤:S1:利用听力文件并通过设定规则获得单词调节时间和整句调节时间,保存单词调节时间和整句调节时间后生成设定完成信号;接收由用户端根据所述设定完成信号输出的选择信号,并根据所述选择信号获取听力文件;将听力文件在用户端播放并记录播放开始时间;S2:接收单词标定信号,记录接收到所述单词信号时的时间,并将所述时间设定为单词标定时间;或接收整句标定信号,记录接收到所述整句信号时的时间,并将所述时间设定为整句标定时间;S3:根据所述单词信号提取单词调节时间;或根据所述整句信号提取整句调节时间;S4:根据所述单词标定时间与单词调节时间相减,获得单词修正时间;根据所述单词修正时间在听力文档中获得标记单词;或根据所述整句标定时间与整句调节时间相减,获得整句修正时间;根据所述整句修正时间在听力文档中获得标记整句;S5:汇总所述听力文件中的标记单词形成单词标记集并将其保存至标记数据库;或汇总所述听力文件中的标记整句形成整句标记集并将其保存至标记数据库。2.根据权利要求1所述的数据提取方法,其特征在于,所述步骤S1之前还包括步骤S0,所述步骤S0包括创设听力数据库,并获得听力文件。3.根据权利要求2所述的数据提取方法,其特征在于,所述步骤S0包括以下步骤:S01:创设听力数据库,并生成创设成功信号;S02:根据所述创设成功信号从互联网中加载听力音频;S03:利用语音文字转换工具将所述听力音频进行文字转换,并获得听力文档;S04:利用语音单词同步规则将所述听力音频和听力文档同步,并制成听力文件;S05:将所述听力文件储存至所述听力数据库。4.根据权利要求2所述的数据提取方法,其特征在于,所述步骤S1中的设定规则,包括以下步骤:S1-01:从所述听力数据库中获取听力文件,并向用户端输出训练准备信号;接收由所述用户端根据训练准备信号输出的训练开始信号,并记录接收到所述训练开始信号的时间,将所述时间设为训练开始时间;根据所述训练开始信号将所述听力文件的听力音频输出至用户端并播放;S1-02:接收由所述用户端输出的单词训练标定信号,记录接收到所述单词训练标定信号时的时间,并将所述时间设定为单词训练标定时间;S1-03:将所述单词训练标定时间和训练开始时间相减,获得单词训练标定时间戳,并向用户端输出听力文件的听力文档;S1-04:接收所述用户端从所述听力文档中选择的调整单词,获取所述调整单词的音频时间戳,并将所述音频时间戳设为调整训练时间戳;S1-05:将所述单词训练标定时间戳与所述调整时间训练戳相减,获得单词调节时间并保存。5.根据权利要求2所述的数据提取方法,其特征在于,所述步骤S1中的设定规则,还包括:S1-11:从所述听力数据库中获取听力文件,并向用户端输出训练准备信号;接收由所述用户端根据训练准备信号输出的训练开始信号,并记录接收到所述训练开始信号的时间,将所述时间设为训练开始时间;根据所述训练开始信号将所述听力文件的听力音频输出至用户端并播放;S1-12:接收由所述用户端输出的整句训练标定信号,记录接收到所述整句训练标定信号时的时间,并将所述时间设定为整句训练标定时间;S1-13:将所述整句训练标定时间和训练开始时间相减,获得整句训练标定时间戳,并向用户端输出听力文件的听力文档;S1-14:接收所述用户端从所述听力文档中选择的调整整句,获取所述调整整句的音频时间段,并将所述音频时间段设为...

【专利技术属性】
技术研发人员:晏倩
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1