【技术实现步骤摘要】
用于处理信息的方法、装置、设备和介质
本公开的实施例涉及计算机
,具体涉及用于处理信息的方法和装置。
技术介绍
有声读物是将读物中的内容朗读出来并进行录音后获得的音频形式的读物。有声读物可以包括多个人物角色,而每个人物角色可以对应一个朗读者。实践中,在针对某个人物角色进行朗读时,需要确定出读物中的哪些对话属于该人物角色。然而,在读物中,一个人物角色通常可以关联多个称谓(比如小说男主“张三”可以关联公子、少爷、你、我、他等称谓)。人物角色关联的称谓的对话也可以是属于该人物角色的对话。所以,在确定哪些对话属于该人物角色时,需要确定该人物角色关联的称谓,以将所关联的称谓的对话划分到该人物角色的对话中。目前,通常采用人工标注的方式确定读物中的各个人物角色关联的称谓。
技术实现思路
本公开提出了用于处理信息的方法和装置。第一方面,本公开的实施例提供了一种用于处理信息的方法,该方法包括:获取目标文本;对目标文本进行命名实体识别,获得名词序列;分别从名词序列中提取角色名序列和称谓序列;对于 ...
【技术保护点】
1.一种用于处理信息的方法,包括:/n获取目标文本;/n对所述目标文本进行命名实体识别,获得名词序列;/n分别从所述名词序列中提取角色名序列和称谓序列;/n对于所述称谓序列中的称谓,执行以下匹配步骤:/n从所述角色名序列中确定与该称谓相匹配的角色名作为该称谓对应的匹配角色名;/n建立该称谓对应的匹配角色名与该称谓之间的关联关系。/n
【技术特征摘要】
1.一种用于处理信息的方法,包括:
获取目标文本;
对所述目标文本进行命名实体识别,获得名词序列;
分别从所述名词序列中提取角色名序列和称谓序列;
对于所述称谓序列中的称谓,执行以下匹配步骤:
从所述角色名序列中确定与该称谓相匹配的角色名作为该称谓对应的匹配角色名;
建立该称谓对应的匹配角色名与该称谓之间的关联关系。
2.根据权利要求1所述的方法,其中,所述从所述角色名序列中确定与该称谓相匹配的角色名作为该称谓对应的匹配角色名包括:
对于所述角色名序列中的角色名,执行以下步骤:
提取该角色名与该称谓的关联特征,生成关联向量;
将所提取的关联特征输入预先训练的匹配用模型,获得用于表征该角色名与该称谓的匹配程度的匹配结果;
基于所获得的匹配结果,从所述角色名序列中确定与该称谓相匹配的角色名作为该称谓对应的匹配角色名。
3.根据权利要求2所述的方法,其中,关联特征包括以下至少一项:
用于表征称谓与角色名对应的性别是否相同的特征;
用于表征称谓与角色名是否包括相同的文字的特征;
用于表征称谓与角色名是否位于所述目标文本中的相同的句子的特征;
用于表征称谓与角色名是否位于所述目标文本中的相同的段落的特征;
用于表征在所述名词序列中,称谓的位置与角色名的位置的距离的特征;
用于表征角色名在称谓对应的目标名词集合中出现的次数的特征,其中,称谓对应的目标名词集合是在所述名词序列中,与称谓的距离小于或等于预设距离的名词所组成的集合。
4.根据权利要求1所述的方法,其中,所述从所述名词序列中提取角色名序列包括:
按照预设条件,对所述名词序列中的名词进行过滤,获得初始角色名序列,其中,预设条件包括以下至少一项:名词为人称代词;名词的字数小于2;名词的字数大于4;
基于所述初始角色名序列,生成角色名序列。
5.根据权利要求4...
【专利技术属性】
技术研发人员:伍林,潘俊杰,
申请(专利权)人:北京字节跳动网络技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。