用于处理信息的方法、装置、设备和介质制造方法及图纸

技术编号:26172222 阅读:32 留言:0更新日期:2020-10-31 13:48
本公开的实施例公开了用于处理信息的方法和装置。该方法的一具体实施方式包括:获取目标文本;对目标文本进行命名实体识别,获得名词序列;将名词序列中的每两个名词组成名词对,生成名词对集合;对于名词对集合中的名词对,执行以下识别步骤:对该名词对中的两个名词进行识别,获得用于指示该名词对中的两个名词是否表征相同的角色的识别结果;响应于所获得的识别结果指示该名词对中的两个名词表征相同的角色,建立该名词对中的两个名词的关联关系。该实施方式可以节省人力,提高信息处理的效率。

Methods, devices, devices and media for processing information

【技术实现步骤摘要】
用于处理信息的方法、装置、设备和介质
本公开的实施例涉及计算机
,具体涉及用于处理信息的方法和装置。
技术介绍
有声读物是将读物中的内容朗读出来并进行录音后获得的音频形式的读物。有声读物可以包括多个人物角色,而每个人物角色可以对应一个朗读者。实践中,在针对某个人物角色进行朗读时,需要确定出读物中的哪些对话属于该人物角色。然而,在读物中,一个人物角色通常可以关联多个称谓(比如小说男主“张三”可以关联公子、少爷、你、我、他等称谓)。人物角色关联的称谓的对话也可以是属于该人物角色的对话。所以,在确定哪些对话属于该人物角色时,需要确定该人物角色关联的称谓,以将所关联的称谓的对话划分到该人物角色的对话中。目前,通常采用人工标注的方式确定读物中的各个人物角色关联的称谓。
技术实现思路
本公开提出了用于处理信息的方法和装置。第一方面,本公开的实施例提供了一种用于处理信息的方法,包括:获取目标文本;对目标文本进行命名实体识别,获得名词序列;将名词序列中的每两个名词组成名词对,生成名词对集合;对于名词对集合中的名本文档来自技高网...

【技术保护点】
1.一种用于处理信息的方法,包括:/n获取目标文本;/n对所述目标文本进行命名实体识别,获得名词序列;/n将所述名词序列中的每两个名词组成名词对,生成名词对集合;/n对于所述名词对集合中的名词对,执行以下识别步骤:/n对该名词对中的两个名词进行识别,获得用于指示该名词对中的两个名词是否表征相同的角色的识别结果;/n响应于所获得的识别结果指示该名词对中的两个名词表征相同的角色,建立该名词对中的两个名词的关联关系。/n

【技术特征摘要】
1.一种用于处理信息的方法,包括:
获取目标文本;
对所述目标文本进行命名实体识别,获得名词序列;
将所述名词序列中的每两个名词组成名词对,生成名词对集合;
对于所述名词对集合中的名词对,执行以下识别步骤:
对该名词对中的两个名词进行识别,获得用于指示该名词对中的两个名词是否表征相同的角色的识别结果;
响应于所获得的识别结果指示该名词对中的两个名词表征相同的角色,建立该名词对中的两个名词的关联关系。


2.根据权利要求1所述的方法,其中,所述对该名词对中的两个名词进行识别,获得用于指示该名词对中的两个名词是否表征相同的角色的识别结果包括:
提取该名词对中的两个名词的关联特征,生成关联向量;
将所生成的关联向量输入预先训练的识别模型,获得用于指示该名词对中的两个名词是否表征相同的角色的识别结果。


3.根据权利要求2所述的方法,其中,在所述将所生成的关联向量输入预先训练的识别模型,获得用于指示该名词对中的两个名词是否表征相同的角色的识别结果之前,所述识别步骤还包括:
提取该名词对中的两个名词的词向量;以及
所述将所生成的关联向量输入预先训练的识别模型,获得用于指示该名词对中的两个名词是否表征相同的角色的识别结果包括:
将该名词对中的两个名词的词向量和关联向量组成识别用向量;
将所组成的识别用向量输入预先训练的识别模型,获得用于指示该名词对中的两个名词是否表征相同的角色的识别结果。


4.根据权利要求2所述的方法,其中,关联特征包括以下至少一项:
用于表征两个名词对应的性别是否相同的特征;
用于表征两个名词是否包括相同的文字的特征;
用于表征两个名词是否位于所述目标文本中的相同的句子的特征;
用于表征两个名词是否位于所述目标文本中的相同的段落的特征;
用于表征在所述名词序列中,两个名词的位置的距离的特征;
用于表征两个名词分别对应的两个关联名词集合中,重合的关联名词的数量的特征,其中,名词对应的关联名词集合是在所述名词序列中,与名词的距离小于或等于预设距离的关联名词所组成的集合...

【专利技术属性】
技术研发人员:伍林潘俊杰
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1