确定文本中说话者角色的方法和装置制造方法及图纸

技术编号:37351990 阅读:19 留言:0更新日期:2023-04-27 07:03
本申请公开了一种确定文本中说话者角色的方法和装置,属于文本识别技术领域。方法包括:获取目标文本中的目标对白句,使用第一预设字符对标记目标对白句。在所述目标对白句的上文和下文中获取参考句。确定参考句中包括的主角,作为候选主角。对于每个候选主角,在参考句中将候选主角的名称替换为第二预设字符,将替换处理后的参考句、以及标记处理后的目标对白句,作为对应的预测文本。将预测文本输入角色预测模型,得到候选主角为目标对白句的说话者的置信度。根据置信度确定满足预设主角条件的候选主角,作为目标对白句的说话者,如果不存在满足预设主角条件的候选主角,则确实目标对白句的说话者为配角。可以提高文本中说话者的确定效率。的确定效率。的确定效率。

【技术实现步骤摘要】
确定文本中说话者角色的方法和装置


[0001]本申请涉及文本识别
,特别涉及一种确定文本中说话者角色的方法和装置。

技术介绍

[0002]语音合成技术在很多领域被广泛应用,其中较为常见的应用便是有声小说。有声小说即通过语音合成技术使用不同音色朗读出小说中不同角色的对白。然而,在长篇小说中通常会有大量角色,而其中有些配角角色仅仅出现在少数章节中出现过,甚至有些配角角色仅仅出现过少数几次。那么,对于这些配角可以使用相同音色朗读。而对于那些出现次数很多,在大部分章节都有出现的主角,可以使用不同音色朗读,以使得用户有更好的收听体验。
[0003]目前,通常由技术人员人工对小说中的角色区分为主角和配角,并人工对每个对白句标记说话者为主角还是配角。
[0004]然而,小说通常内容较多,由人工进行角色区分效率较低。

技术实现思路

[0005]本申请实施例提供了一种确定文本中说话者角色的方法和装置,能够提高角色区分效率。所述技术方案如下:
[0006]第一方面,提供了一种确定文本中说话者角色的方法,所述方法包括:
[0007]获取目标文本中的目标对白句,其中,所述目标对白句是所述目标文本的任一对白句;
[0008]使用第一预设字符对所述目标对白句进行标记;
[0009]在所述目标对白句的上文和下文中,分别获取多个句子,作为参考句;
[0010]根据所述目标文本对应的主角名单,确定所述参考句中包括的主角,作为候选主角,其中,所述主角名单中包括所述目标文本中的至少一个主角的角色名称;
[0011]对于每个候选主角,在所述参考句中将所述候选主角的名称替换为第二预设字符,将替换处理后的参考句、以及标记处理后的目标对白句,作为所述候选主角对应的预测文本,将所述候选主角对应的预测文本输入角色预测模型,得到所述候选主角为所述目标对白句的说话者的置信度;
[0012]根据每个候选主角为所述目标对白句的说话者的置信度,在所述候选主角中,确定满足预设主角条件的候选主角,作为所述目标对白句的说话者,如果不存在满足预设主角条件的候选主角,则确实所述目标对白句的说话者为配角。
[0013]在一种可能的实现方式中,所述在所述参考句中将所述候选主角的名称替换为第二预设字符,将替换处理后的参考句、以及标记处理后的目标对白句,作为所述候选主角对应的预测文本,包括:
[0014]在所述参考句中将所述候选主角的名称替换为第二预设字符,并在所述参考句的
预设位置添加第三预设字符,将替换和添加处理后的参考句、以及标记处理后的目标对白句,作为所述候选主角对应的预测文本。
[0015]在一种可能的实现方式中,得到所述候选主角为所述目标对白句的说话者的置信度,包括:
[0016]得到所述第二预设字符对应的第一预测概率和所述第三预设字符对应的第二预测概率,将所述第一预测概率作为所述候选主角为所述目标对白句的说话者的置信度;
[0017]所述根据每个候选主角为所述目标对白句的说话者的置信度,在所述候选主角中,确定满足预设主角条件的候选主角,作为所述目标对白句的说话者,包括:
[0018]对于每个候选主角,如果所述候选主角为所述目标对白句的说话者的置信度大于所述候选主角对应的预测文本中的第三预设字符对应的第二预测概率,则确定所述候选主角满足预设主角条件;
[0019]如果存在多个候选主角满足所述预设主角条件,则将最大置信度对应的候选主角,作为所述目标对白句的说话者。
[0020]在一种可能的实现方式中,所述如果所述候选主角为所述目标对白句的说话者的置信度大于所述候选主角对应的预测文本中的第三预设字符对应的第二预测概率,则确定所述候选主角满足预设主角条件,包括:
[0021]如果所述候选主角对应的预测文本中包括N个第二预设字符,则在N个第二预设字符分别对应的第一预测概率中,确定大于所述第二预测概率的第一预测概率的目标数目,如果所述目标数目大于N/2,则确定所述候选主角满足预设主角条件,其中,N为大于1的正整数。
[0022]在一种可能的实现方式中,所述使用第一预设字符对所述目标对白句进行标记,包括:
[0023]将所述目标对白句替换为第一预设字符。
[0024]在一种可能的实现方式中,所述使用第一预设字符对所述目标对白句进行标记,包括:
[0025]将所述目标对白句的引号替换为第一预设字符;
[0026]所述方法还包括:
[0027]将所述参考句中的对白句的引号替换为第四预设字符。
[0028]在一种可能的实现方式中,所述方法还包括:
[0029]确定所述目标文本中各角色的角色名称的出现次数,将出现次数前M的角色名称作为所述目标文本的主角的角色名称,添加到所述目标文本对应的主角名单中。
[0030]在一种可能的实现方式中,所述在所述目标对白句的上文和下文中,分别获取多个句子,作为参考句之前,所述方法还包括:
[0031]根据句尾标点对所述目标文本进行分句;
[0032]对于分句得到的包含引号的句,将引号内的内容和引号外的内容分为不同的句。
[0033]第二方面,提供了一种确定文本中说话者角色的装置,所述装置包括:
[0034]获取模块,用于获取目标文本中的目标对白句,其中,所述目标对白句是所述目标文本的任一对白句;
[0035]标记模块,用于使用第一预设字符对所述目标对白句进行标记;
[0036]所述获取模块,还用于在所述目标对白句的上文和下文中,分别获取多个句子,作为参考句;
[0037]确定模块,用于根据所述目标文本对应的主角名单,确定所述参考句中包括的主角,作为候选主角,其中,所述主角名单中包括所述目标文本中的至少一个主角的角色名称;
[0038]预测模块,用于对于每个候选主角,在所述参考句中将所述候选主角的名称替换为第二预设字符,将替换处理后的参考句、以及标记处理后的目标对白句,作为所述候选主角对应的预测文本,将所述候选主角对应的预测文本输入角色预测模型,得到所述候选主角为所述目标对白句的说话者的置信度;
[0039]决策模块,用于根据每个候选主角为所述目标对白句的说话者的置信度,在所述候选主角中,确定满足预设主角条件的候选主角,作为所述目标对白句的说话者,如果不存在满足预设主角条件的候选主角,则确实所述目标对白句的说话者为配角。
[0040]在一种可能的实现方式中,所述预测模块,用于:
[0041]在所述参考句中将所述候选主角的名称替换为第二预设字符,并在所述参考句的预设位置添加第三预设字符,将替换和添加处理后的参考句、以及标记处理后的目标对白句,作为所述候选主角对应的预测文本。
[0042]在一种可能的实现方式中,所述预测模块,用于:
[0043]得到所述第二预设字符对应的第一预测概率和所述第三预设字符对应的第二预测概率,将所述第一预测概率作为所述候选主角为所述目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种确定文本中说话者角色的方法,其特征在于,所述方法包括:获取目标文本中的目标对白句,其中,所述目标对白句是所述目标文本的任一对白句;使用第一预设字符对所述目标对白句进行标记;在所述目标对白句的上文和下文中,分别获取多个句子,作为参考句;根据所述目标文本对应的主角名单,确定所述参考句中包括的主角,作为候选主角,其中,所述主角名单中包括所述目标文本中的至少一个主角的角色名称;对于每个候选主角,在所述参考句中将所述候选主角的名称替换为第二预设字符,将替换处理后的参考句、以及标记处理后的目标对白句,作为所述候选主角对应的预测文本,将所述候选主角对应的预测文本输入角色预测模型,得到所述候选主角为所述目标对白句的说话者的置信度;根据每个候选主角为所述目标对白句的说话者的置信度,在所述候选主角中,确定满足预设主角条件的候选主角,作为所述目标对白句的说话者,如果不存在满足预设主角条件的候选主角,则确定所述目标对白句的说话者为配角。2.根据权利要求1所述的方法,其特征在于,所述在所述参考句中将所述候选主角的名称替换为第二预设字符,将替换处理后的参考句、以及标记处理后的目标对白句,作为所述候选主角对应的预测文本,包括:在所述参考句中将所述候选主角的名称替换为第二预设字符,并在所述参考句的预设位置添加第三预设字符,将替换和添加处理后的参考句、以及标记处理后的目标对白句,作为所述候选主角对应的预测文本。3.根据权利要求2所述的方法,其特征在于,所述得到所述候选主角为所述目标对白句的说话者的置信度,包括:得到所述第二预设字符对应的第一预测概率和所述第三预设字符对应的第二预测概率,将所述第一预测概率作为所述候选主角为所述目标对白句的说话者的置信度;所述根据每个候选主角为所述目标对白句的说话者的置信度,在所述候选主角中,确定满足预设主角条件的候选主角,作为所述目标对白句的说话者,包括:对于每个候选主角,如果所述候选主角为所述目标对白句的说话者的置信度大于所述候选主角对应的预测文本中的第三预设字符对应的第二预测概率,则确定所述候选主角满足预设主角条件;如果存在多个候选主角满足所述预设主...

【专利技术属性】
技术研发人员:徐东赵伟峰姜涛杜嘉晨周蓝珺潘树燊周文江
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1