小说人物性别判断方法及装置制造方法及图纸

技术编号:36939318 阅读:23 留言:0更新日期:2023-03-22 19:01
本发明专利技术提供了一种小说人物性别判断方法及装置,该方法包括:提取目标小说的小说文本;筛选小说文本中的多个第一关键句,并为第一关键句中的代词添加标识符获得第二关键句;将第二关键句输入BERT模型,触发BERT模型对第二关键句中的代词进行分析,并输出代词的标识符对应的分析结果;基于分析结果,确定代词所指向的目标人物姓名组合;确定目标人物姓名组合是否为第二关键句中任一人物名称;若是,则在结束对第二关键句中的代词的分析后,确定代词的目标代词类型;基于代词的目标代词类型,确定人物性别。应用本发明专利技术提供的方法,可以通过小说中出现的代词确定小说人物的性别,提高判断小说人物性别的准确率。小说人物性别的准确率。小说人物性别的准确率。

【技术实现步骤摘要】
小说人物性别判断方法及装置


[0001]本专利技术涉及机器学习
,特别是涉及一种小说人物性别判断方法及装置。

技术介绍

[0002]在对小说内容进行审核或需要对小说角色进行分析时,需要判断小说中人物角色的性别。现有技术中对小说中人物角色的性别判断通常是通过小说中人物姓名或者小说中对人物进行外貌体征的描述确定小说中人物的性别。但并非所有的小说都会涉及到对小说人物外貌体征的描述,且仅通过姓名进行性别判断,结果准确率不高,容易出错的问题,尤其是在一些架空的玄幻或者武侠小说中,许多人物名称以及其行为和性别没有什么联系。

技术实现思路

[0003]有鉴于此,本专利技术提供一种小说人物性别判断方法,通过该方法,可以通过小说中出现的代词确定小说人物的性别,提高判断小说人物性别的准确率。
[0004]本专利技术还提供了一种小说人物性别判断装置,用以保证上述方法在实际中的实现及应用。
[0005]一种小说人物性别判断方法,包括:
[0006]提取目标小说的小说文本,所述目标小说包含多个小说人物;
[0007]筛选所述小说文本中的多个第一关键句,并为各个所述第一关键句中的代词添加标识符,获得第二关键句,所述第一关键句包含所述目标小说中的人物名称;
[0008]将各个所述第二关键句按照小说文本的文本内容顺序依次输入预设的BERT模型,触发所述BERT模型对每次输入的第二关键句中的代词进行分析,并输出当前的代词的标识符对应的分析结果;
[0009]基于所述BERT模型输出的所述当前的代词的标识符对应的分析结果,确定所述当前的代词所指向的目标人物姓名组合;
[0010]确定所述目标人物姓名组合是否为所述当前的第二关键句中任一人物名称;
[0011]若所述目标人物姓名组合为所述当前的第二关键句中任一人物名称,则在结束对所有第二关键句中的代词的分析后,确定所述小说文本中指向所述目标人物姓名组合的代词的目标代词类型;
[0012]基于所述小说文本中指向所述目标人物姓名组合的代词的目标代词类型,确定所述目标小说中人物名称与所述目标姓名组合一致的小说人物的人物性别。
[0013]上述的方法,可选的,所述筛选所述小说文本中的多个第一关键句,包括:
[0014]将所述小说文本划分成多个句子;
[0015]识别每个所述句子中是否包含至少两个小说人物的人物名称以及是否包含第三人称代词;
[0016]当任意句子中包含至少两个小说人物的人物名称以及第三人称代词时,确定所述句子为第一关键句;
[0017]当任意句子中的人物名称少于两个或不包含第三人称代词时,确定所述句子为普通句子。
[0018]上述的方法,可选的,所述为各个所述第一关键句中的代词添加标识符,包括:
[0019]在每个所述第一关键句的第三人称代词后添加由四个占位符构成的标识符。
[0020]上述的方法,可选的,所述基于所述BERT模型输出的所述当前的代词的标识符对应的分析结果,确定所述当前的代词所指向的目标人物姓名组合,包括:
[0021]获取所述BERT模型的分析结果中所述当前的代词的标识符中每个占位符对应的单词信息;所述单词信息包括多个姓名单词,及每个所述姓名单词对应的单词概率;
[0022]提取每个所述单词信息中单词概率最大的姓名单词,并按照每个所述占位符在标识符中的位置对已提取的各个姓名单词进行组合,获得所述当前的代词所指向的目标人物姓名组合。
[0023]上述的方法,可选的,所述基于所述小说文本中指向所述目标人物姓名组合的代词的代词类型,确定所述目标小说中与所述目标姓名组合一致的小说人物名称的人物性别,包括:
[0024]确定每个所述第二关键句中包含的第三人称代词的代词类型;
[0025]筛选出所有指向所述目标人物姓名组合的代词,并计算每个所述代词类型的在所有筛选出的代词中所占的比例;
[0026]将比例最大的代词类型确定为目标代词类型,并确定所述目标小说中人物名称与所述目标姓名组合一致的小说人物的人物性别为所述目标代词类型所指定的性别。
[0027]一种小说人物性别判断装置,包括:
[0028]提取单元,用于提取目标小说的小说文本,所述目标小说包含多个小说人物;
[0029]筛选单元,用于筛选所述小说文本中的多个第一关键句,并为各个所述第一关键句中的代词添加标识符,获得第二关键句,所述第一关键句包含所述目标小说中的人物名称;
[0030]分析单元,用于将各个所述第二关键句按照小说文本的文本内容顺序依次输入预设的BERT模型,触发所述BERT模型对每次输入的第二关键句中的代词进行分析,并输出当前的代词的标识符对应的分析结果;
[0031]第一确定单元,用于基于所述BERT模型输出的所述当前的代词的标识符对应的分析结果,确定所述当前的代词所指向的目标人物姓名组合;
[0032]第二确定单元,用于确定所述目标人物姓名组合是否为所述当前的第二关键句中任一人物名称;
[0033]第三确定单元,用于若所述目标人物姓名组合为所述当前的第二关键句中任一人物名称,则在结束对所有第二关键句中的代词的分析后,确定所述小说文本中指向所述目标人物姓名组合的代词的目标代词类型;
[0034]第四确定单元,用于基于所述小说文本中指向所述目标人物姓名组合的代词的目标代词类型,确定所述目标小说中人物名称与所述目标姓名组合一致的小说人物的人物性别。
[0035]上述的装置,可选的,所述筛选单元,包括:
[0036]划分子单元,用于将所述小说文本划分成多个句子;
[0037]识别子单元,用于识别每个所述句子中是否包含至少两个小说人物的人物名称以及是否包含第三人称代词;
[0038]第一确定子单元,用于当任意句子中包含至少两个小说人物的人物名称以及第三人称代词时,确定所述句子为第一关键句;
[0039]第二确定子单元,用于当任意句子中的人物名称少于两个或不包含第三人称代词时,确定所述句子为普通句子。
[0040]上述的装置,可选的,所述筛选单元,包括:
[0041]添加子单元,用于在每个所述第一关键句的第三人称代词后添加由四个占位符构成的标识符。
[0042]上述的装置,可选的,所述第一确定单元,包括:
[0043]获取子单元,用于获取所述BERT模型的分析结果中所述当前的代词的标识符中每个占位符对应的单词信息;所述单词信息包括多个姓名单词,及每个所述姓名单词对应的单词概率;
[0044]组合子单元,用于提取每个所述单词信息中单词概率最大的姓名单词,并按照每个所述占位符在标识符中的位置对已提取的各个姓名单词进行组合,获得所述当前的代词所指向的目标人物姓名组合。
[0045]上述的装置,可选的,所述第三确定单元,包括:
[0046]第三确定子单元,用于确定每个所述第二关键句中包含的第三人称代词的代词类型;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种小说人物性别判断方法,其特征在于,包括:提取目标小说的小说文本,所述目标小说包含多个小说人物;筛选所述小说文本中的多个第一关键句,并为各个所述第一关键句中的代词添加标识符,获得第二关键句,所述第一关键句包含所述目标小说中的人物名称;将各个所述第二关键句按照小说文本的文本内容顺序依次输入预设的BERT模型,触发所述BERT模型对每次输入的第二关键句中的代词进行分析,并输出当前的代词的标识符对应的分析结果;基于所述BERT模型输出的所述当前的代词的标识符对应的分析结果,确定所述当前的代词所指向的目标人物姓名组合;确定所述目标人物姓名组合是否为所述当前的第二关键句中任一人物名称;若所述目标人物姓名组合为所述当前的第二关键句中任一人物名称,则在结束对所有第二关键句中的代词的分析后,确定所述小说文本中指向所述目标人物姓名组合的代词的目标代词类型;基于所述小说文本中指向所述目标人物姓名组合的代词的目标代词类型,确定所述目标小说中人物名称与所述目标姓名组合一致的小说人物的人物性别。2.根据权利要求1所述的方法,其特征在于,所述筛选所述小说文本中的多个第一关键句,包括:将所述小说文本划分成多个句子;识别每个所述句子中是否包含至少两个小说人物的人物名称以及是否包含第三人称代词;当任意句子中包含至少两个小说人物的人物名称以及第三人称代词时,确定所述句子为第一关键句;当任意句子中的人物名称少于两个或不包含第三人称代词时,确定所述句子为普通句子。3.根据权利要求2所述的方法,其特征在于,所述为各个所述第一关键句中的代词添加标识符,包括:在每个所述第一关键句的第三人称代词后添加由四个占位符构成的标识符。4.根据权利要求3所述的方法,其特征在于,所述基于所述BERT模型输出的所述当前的代词的标识符对应的分析结果,确定所述当前的代词所指向的目标人物姓名组合,包括:获取所述BERT模型的分析结果中所述当前的代词的标识符中每个占位符对应的单词信息;所述单词信息包括多个姓名单词,及每个所述姓名单词对应的单词概率;提取每个所述单词信息中单词概率最大的姓名单词,并按照每个所述占位符在标识符中的位置对已提取的各个姓名单词进行组合,获得所述当前的代词所指向的目标人物姓名组合。5.根据权利要求4所述的方法,其特征在于,所述基于所述小说文本中指向所述目标人物姓名组合的代词的代词类型,确定所述目标小说中与所述目标姓名组合一致的小说人物名称的人物性别,包括:确定每个所述第二关键句中包含的第三人称代词的代词类型;筛选出所有指向所述目标人物姓名组合的代词,并计算每个所述代词类型的在所有筛
选出的代词中所占的比例;将比例最大的代词类型确定为目标代词类型,并确定所述目标小说中人物名称与所述目标姓名组合一致的小说人物的人物性别为所述目标代词类型所指定的性别。6.一种小说人物性别判...

【专利技术属性】
技术研发人员:蒋松岐周红喆
申请(专利权)人:北京海马轻帆娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1