获取文字提示文件的方法及装置制造方法及图纸

技术编号:14930591 阅读:72 留言:0更新日期:2017-03-31 12:26
本发明专利技术公开了一种获取文字提示文件的方法及装置,属于网络技术领域。该方法包括:获取第一文字提示文件和至少一个第二文字提示文件;对于第一文字提示文件中多行提示信息中的每行,如果该行与任一个第二文字提示文件的至少一行之间的相似度大于第一数值,将第二文字提示文件的至少一行确定为第一目标行,将第一目标行所在的第二文字提示文件确定为第一目标文字提示文件;如果第一目标文字提示文件的数量与至少一个第二文字提示文件的数量的比例大于第二数值,将与该行之间相似度最高的第一目标行确定为待合成的行;根据第一文字提示文件中多行提示信息对应的待合成的行,合成文字提示文件。本发明专利技术提供了一种较为准确地获取文字提示文件的方法。

【技术实现步骤摘要】

本专利技术涉及网络
,尤其涉及一种获取文字提示文件的方法及装置
技术介绍
随着网络技术的发展,网络提供的多媒体资源越来越丰富,例如,大量的音频文件和视频文件。当然,为了充分体现多媒体文件的语音内容,网络中流传的多媒体文件通常会附带与其语音内容对应的文字提示文件,例如,音频文件往往会附带歌词文件。一般地,这些文字提示文件是由用户上传的。然而,由于这些文字提示文件是用户自己制作的,所以该文件中包括的提示信息通常会出现错误,例如,歌词文件中包括了用户的祝福语、广告语或者广告链接。由于用户上传的文字提示文件中包括的提示信息通常会出现错误,会导致文字提示文件的准确性差,因此亟需一种准确获取文字提示文件的方法。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种获取文字提示文件的方法及装置。所述技术方案如下:一方面,提供了一种获取文字提示文件的方法及装置方法,所述方法包括:获取第一文字提示文件和至少一个第二文字提示文件,所述第一文字提示文件和所述第二文字提示文件均对应同一个多媒体文件;对于所述第一文字提示文件中多行提示信息中的每行,如果所述行与任一个第二文字提示文件的至少一行之间的相似度大于第一数值,则将所述第二文字提示文件的至少一行确定为第一目标行,将所述第一目标行所在的第二文字提示文件确定为第一目标文字提示文件;如果所述第一目标文字提示文件的数量与所述至少一个第二文字提示文件的数量的比例大于第二数值,则将与所述行之间相似度最高的第一目标行确定为待合成的行;根据所述第一文字提示文件中多行提示信息对应的待合成的行,合成文字提示文件。本专利技术实施例提供的技术方案带来的有益效果是:在一种可能实现方式中,所述方法还包括:对于所述第一文字提示文件中多行提示信息中的每行、以及所述至少一个第二文字提示文件中的每个第二文字提示文件,比较所述第一文字提示文件的所述行与所述第二文字提示文件的至少一行所包括的字符数;当所述第一文字提示文件的所述行所包括的字符数不小于所述第二文字提示文件的至少一行所包括的字符数,则将所述行所包括的字符数确定为目标字符数;或,当所述第一文字提示文件的所述行所包括的字符数小于所述第二文字提示文件的至少一行所包括的字符数,则将所述第二文字提示文件的至少一行所包括的字符数确定为目标字符数;确定所述第一文字提示文件的所述行和所述第二文字提示文件的至少一行中的相同字符数;将所述相同字符数与所述目标字符数的比值,获取为所述行与所述第二文字提示文件的至少一行之间的相似度。在一种可能实现方式中,所述获取第一文字提示文件和至少一个第二文字提示文件包括:获取多个版本的文字提示文件,所述多个版本的文字提示文件均对应所述同一个多媒体文件;确定所述多个版本的文字提示文件中,每个文字提示文件所包括的文件字符数、以及多个所述文件字符数中的中位数;在所述多个版本的文件提示文件中,将文件字符数与所述中位数最相近的文字提示文件获取为所述第一文字提示信息,将除所述第一文字提示文件之外的文字提示文件获取为所述第二文字提示文件。在一种可能实现方式中,所述获取多个版本的文字提示文件包括:获取待检测的多个版本的文字提示文件,所述待检测的多个版本的文字提示文件均对应所述同一多媒体文件;如果检测到所述待检测的多个版本的文字提示文件所包括的字符中存在英文字符,则将所述英文字符转换为预置词形的英文字符;或,如果检测到所述待检测的多个版本的文字提示文件所包括的字符中存在繁体中文字符,则将所述繁体中文字符转换为简体中文字符;将字符转换后的所述待检测的多个版本的文字提示文件获取为所述多个版本的文字提示文件。在一种可能实现方式中,所述方法还包括:对于所述第一文字提示文件中多行提示信息中的每行,如果所述行与任一个第二文字提示文件的至少一行之间的相似度均不大于所述第一数值,或,如果所述第一目标文字提示文件的数量与所述至少一个第二文字提示文件的数量的比例不大于所述第二数值,则将所述行与所述行的下一行合并,且与所述第二文字提示文件的至少一行比较相似度;如果合并后的行与所述第二文字提示文件的至少一行的相似度大于所述第一数值,则将所述第二文字提示文件的至少一行确定为第二目标行,将所述第二目标行所在的第二文字提示文件确定为第二目标文字提示文件;如果所述第二目标文字提示文件的数量与所述至少一个第二文字提示文件的数量的比例大于所述第二数值,则将与所述行之间相似度最高的第二目标行确定为所述待合成的行。在一种可能实现方式中,对于所述第一文字提示文件中多行提示信息中的每行,所述任一个第二文字提示文件的至少一行是指:所述第二文字提示文件中未进行过相似度计算的第一行、第一行和第一行的上一行或第一行和第一行的下一行;或者,如果确定所述第一文字提示文件的第三数值的行与对应的所述第二文字提示文件的至少一行的相似度均不大于所述第一数值,则所述行的下一行对应的所述第二文字提示文件的至少一行是指:所述第二文字提示文件中未进行过相似度计算的第二行、第二行和第二行的上一行或第二行和第二行的下一行。另一方面,提供了一种获取文字提示文件的方法及装置装置,所述装置包括:获取模块,用于获取第一文字提示文件和至少一个第二文字提示文件,所述第一文字提示文件和所述第二文字提示文件均对应同一个多媒体文件;确定模块,用于对于所述第一文字提示文件中多行提示信息中的每行,如果所述行与任一个第二文字提示文件的至少一行之间的相似度大于第一数值,则将所述第二文字提示文件的至少一行确定为第一目标行,将所述第一目标行所在的第二文字提示文件确定为第一目标文字提示文件;如果所述第一目标文字提示文件的数量与所述至少一个第二文字提示文件的数量的比例大于第二数值,则将与所述行之间相似度最高的第一目标行确定为待合成的行;合成模块,用于根据所述第一文字提示文件中多行提示信息对应的待合成的行,合成文字提示文件。在一种可能实现方式中,所述装置还包括:相似度计算模块,用于对于所述第一文字提示文件中多行提示信息中的每行、以及所述至少一个第二文字提示文件中的每个第二文字提示文件,比较所述第一文字提示文件的所述行与所述第二文字提示文件的至少一行所包括的字符数;当所述第一文字提示文件的所述行所包括的字符数不小于所述第二文字提示文件的至少一行所包括的字符数,则将所述行所包括的字符数确定为目标字符数;或,当所述第一文字提示文件的所述行所包括的字符数小于所述第二文字提示文件的至少一行所包括的字符数,则将所述第二文字提示文件的至少一行所包括的字符数确定为目标字符数;确定所述第一文字提示文件的所述行和所述第二文字提示文件的至少一行中的相同字符数;将所述相同字符数与所述目标字符数的比值,获取为所述行与所述第二文字提示文件的至少一行之间的相似度。在一种可能实现方式中,所述获取模块用于:获取多个版本的文字提示文件,所述多个版本的文字提示文件均对应所述同一个多媒体文件;确定所述多个版本的文字提示文件中,每个文字提示文件所包括的文件字符数、以及多个所述文件字符数中的中位数;在所述多个版本的文件提示文件中,将文件字符数与所述中位数最相近的文字提示文件获取为所述第一文字提示信息,将除所述第一文字提示文件之外的文字提示文件获取为所述第二文字提示文件。在一种可能实现方式本文档来自技高网...
获取文字提示文件的方法及装置

【技术保护点】
一种获取文字提示文件的方法,其特征在于,所述方法包括:获取第一文字提示文件和至少一个第二文字提示文件,所述第一文字提示文件和所述第二文字提示文件均对应同一个多媒体文件;对于所述第一文字提示文件中多行提示信息中的每行,如果所述行与任一个第二文字提示文件的至少一行之间的相似度大于第一数值,则将所述第二文字提示文件的至少一行确定为第一目标行,将所述第一目标行所在的第二文字提示文件确定为第一目标文字提示文件;如果所述第一目标文字提示文件的数量与所述至少一个第二文字提示文件的数量的比例大于第二数值,则将与所述行之间相似度最高的第一目标行确定为待合成的行;根据所述第一文字提示文件中多行提示信息对应的待合成的行,合成文字提示文件。

【技术特征摘要】
1.一种获取文字提示文件的方法,其特征在于,所述方法包括:获取第一文字提示文件和至少一个第二文字提示文件,所述第一文字提示文件和所述第二文字提示文件均对应同一个多媒体文件;对于所述第一文字提示文件中多行提示信息中的每行,如果所述行与任一个第二文字提示文件的至少一行之间的相似度大于第一数值,则将所述第二文字提示文件的至少一行确定为第一目标行,将所述第一目标行所在的第二文字提示文件确定为第一目标文字提示文件;如果所述第一目标文字提示文件的数量与所述至少一个第二文字提示文件的数量的比例大于第二数值,则将与所述行之间相似度最高的第一目标行确定为待合成的行;根据所述第一文字提示文件中多行提示信息对应的待合成的行,合成文字提示文件。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对于所述第一文字提示文件中多行提示信息中的每行、以及所述至少一个第二文字提示文件中的每个第二文字提示文件,比较所述第一文字提示文件的所述行与所述第二文字提示文件的至少一行所包括的字符数;当所述第一文字提示文件的所述行所包括的字符数不小于所述第二文字提示文件的至少一行所包括的字符数,则将所述行所包括的字符数确定为目标字符数;或,当所述第一文字提示文件的所述行所包括的字符数小于所述第二文字提示文件的至少一行所包括的字符数,则将所述第二文字提示文件的至少一行所包括的字符数确定为目标字符数;确定所述第一文字提示文件的所述行和所述第二文字提示文件的至少一行中的相同字符数;将所述相同字符数与所述目标字符数的比值,获取为所述行与所述第二文字提示文件的至少一行之间的相似度。3.根据权利要求1所述的方法,其特征在于,所述获取第一文字提示文件和至少一个第二文字提示文件包括:获取多个版本的文字提示文件,所述多个版本的文字提示文件均对应所述同一个多媒体文件;确定所述多个版本的文字提示文件中,每个文字提示文件所包括的文件字符数、以及多个所述文件字符数中的中位数;在所述多个版本的文件提示文件中,将文件字符数与所述中位数最相近的文字提示文件获取为所述第一文字提示信息,将除所述第一文字提示文件之外的文字提示文件获取为所述第二文字提示文件。4.根据权利要求3所述的方法,其特征在于,所述获取多个版本的文字提示文件包括:获取待检测的多个版本的文字提示文件,所述待检测的多个版本的文字提示文件均对应所述同一多媒体文件;如果检测到所述待检测的多个版本的文字提示文件所包括的字符中存在英文字符,则将所述英文字符转换为预置词形的英文字符;或,如果检测到所述待检测的多个版本的文字提示文件所包括的字符中存在繁体中文字符,则将所述繁体中文字符转换为简体中文字符;将字符转换后的所述待检测的多个版本的文字提示文件获取为所述多个版本的文字提示文件。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:对于所述第一文字提示文件中多行提示信息中的每行,如果所述行与任一个第二文字提示文件的至少一行之间的相似度均不大于所述第一数值,或,如果所述第一目标文字提示文件的数量与所述至少一个第二文字提示文件的数量的比例不大于所述第二数值,则将所述行与所述行的下一行合并,且与所述第二文字提示文件的至少一行比较相似度;如果合并后的行与所述第二文字提示文件的至少一行的相似度大于所述第一数值,则将所述第二文字提示文件的至少一行确定为第二目标行,将所述第二目标行所在的第二文字提示文件确定为第二目标文字提示文件;如果所述第二目标文字提示文件的数量与所述至少一个第二文字提示文件的数量的比例大于所述第二数值,则将与所述行之间相似度最高的第二目标行确定为所述待合成的行。6.根据权利要求1所述的方法,其特征在于,对于所述第一文字提示文件中多行提示信息中的每行,所述任一个第二文字提示文件的至少一行是指:所述第二文字提示文件中未进行过相似度计算的第一行、第一行和第一行的上一行或第一行和第一行的下一行;或者,如果确定所述第一文字提示文件的第三数值的行与对应的所述第二文字提示文件的至少一行的相似度均不大于所述第一数值,则所述行的下一行对应的所述第二文字提示文件的至少一行是指:所述第二文字提示文件中未进行过相似度计算的第二行、第二行和第二行的上一行或第二行和第二行的下一行。7.一种...

【专利技术属性】
技术研发人员:刘勇庄正中刘翠陈传艺李祖辉
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1