文本处理方法、相关设备及可读存储介质技术

技术编号:26032773 阅读:44 留言:0更新日期:2020-10-23 21:10
本申请公开了一种文本处理方法、相关设备及可读存储介质,在获取待处理文本之后,确定该待处理文本包含的对象集合,针对对象集合中每一对象,确定与该对象对应的属性,并将该属性与该对象组合,得到目标对象。本申请中采用对文本进行处理识别目标对象的方法,相对于人工的方式,可以节省人力和时间。进一步的,本申请中,通过不同的对象属性能够明确目标对象的具体指代关系,能够使识别的目标对象准确度更高。

【技术实现步骤摘要】
文本处理方法、相关设备及可读存储介质
本申请涉及自然语言处理
,更具体的说,是涉及一种文本处理方法、相关设备及可读存储介质。
技术介绍
在一些场景中,往往需要从文本中识别某种对象,比如,在司法领域,需要从司法卷宗中的文书(如,起诉意见书、鉴定报告、询问笔录、勘验笔录、辨认笔录等)中识别属于赃物的物体。目前,多采用人工的方式,从文本中识别某种对象,然而,人工的方式,将消耗大量的人力及时间,效率低,识别准确度低。
技术实现思路
鉴于上述问题,本申请提出了一种文本处理方法、相关设备及可读存储介质。具体方案如下:一种文本处理方法,包括:获取待处理文本;确定所述待处理文本包含的对象集合;针对所述对象集合中每一对象,确定与所述对象对应的属性,并将该属性与所述对象组合,得到目标对象。可选地,所述确定所述待处理文本包含的对象集合,包括:确定所述待处理文本中每个字符的字符级特征,以及,所述待处理文本的文本级特征;对待处理文本中每个字符,将该字符的字符级特征与所述待处理文本的文本级特征进行拼接,得到该字符拼接后的特征;对各个字符拼接后的特征进行识别,得到每个字符的对象识别结果;基于各个字符的对象识别结果,确定所述待处理文本中包含的对象集合。可选地,所述针对所述对象集合中每一对象,确定与所述对象对应的属性,包括:获取所述待处理文本中各个字符之间的依存句法关系;针对所述待处理文本中的每个字符,根据所述字符的字符级特征、所述字符的对象识别结果、所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征;对所述待处理文本中各个字符的对象属性特征进行识别,确定所述对象集合中每一对象对应的属性。可选地,所述针对所述待处理文本中的每个字符,根据所述字符的字符级特征、所述字符的对象识别结果、所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征,包括:根据所述字符的字符级特征、所述字符的对象识别结果,生成所述字符的对象识别特征;根据所述待处理文本中各个字符的对象识别特征,以及,所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征。可选地,所述待处理文本为多个,所述方法还包括:将各待处理文本对应的目标对象进行同一对象的关联。可选地,所述将各待处理文本对应的目标对象进行同一对象的关联,包括:从各待处理文本对应的目标对象中,确定两个待判定的目标对象,所述两个待判定的目标对象分别包含于不同的待处理文本;判断所述两个待判定的目标对象是否匹配;如果匹配,则确定所述两个待判定的目标对象是同一对象。可选地,所述判断所述两个待判定的目标对象是否匹配,包括:利用匹配判定模型处理所述两个待判定的目标对象,得到所述匹配判定模型输出的所述两个待判定的目标对象是否匹配的判定结果,所述匹配判定模型是以目标对象对为训练样本,以目标对象对标注的是否匹配的判定结果为样本标签为训练得到的。可选地,所述利用匹配判定模型处理所述两个待判定的目标对象,得到所述匹配判定模型输出的所述两个待判定的目标对象是否匹配的判定结果的过程,包括:利用所述匹配判定模型的第一匹配判定模块,比较所述两个待判定的目标对象,得出第一匹配判定结果;利用所述匹配判定模型的第二匹配判定模块,比较所述两个待判定的目标对象中的相同对象属性,得出第二匹配判定结果;利用所述匹配判定模型的综合匹配判定模块,基于所述第一匹配判定结果和所述第二匹配判定结果,确定所述两个待判定的目标对象是否匹配。一种文本处理装置,包括:获取单元,用于获取待处理文本;对象集合确定单元,用于确定所述待处理文本包含的对象集合;目标对象确定单元,用于针对所述对象集合中每一对象,确定与所述对象对应的属性,并将该属性与所述对象组合,得到目标对象。可选地,所述对象集合确定单元,包括:特征确定单元,用于确定所述待处理文本中每个字符的字符级特征,以及,所述待处理文本的文本级特征;特征拼接单元,用于对待处理文本中每个字符,将该字符的字符级特征与所述待处理文本的文本级特征进行拼接,得到该字符拼接后的特征;特征识别单元,用于对各个字符拼接后的特征进行识别,得到每个字符的对象识别结果;对象集合确定子单元,用于基于各个字符的对象识别结果,确定所述待处理文本中包含的对象集合。可选地,所述目标对象确定单元,包括:依存句法关系获取单元,用于获取所述待处理文本中各个字符之间的依存句法关系;对象属性特征确定单元,用于针对所述待处理文本中的每个字符,根据所述字符的字符级特征、所述字符的对象识别结果、所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征;对象属性特征识别单元,用于对所述待处理文本中各个字符的对象属性特征进行识别,确定所述对象集合中每一对象对应的属性。可选地,对象属性特征确定单元,包括:对象识别特征确定单元,用于根据所述字符的字符级特征、所述字符的对象识别结果,生成所述字符的对象识别特征;对象属性特征确定子单元,用于根据所述待处理文本中各个字符的对象识别特征,以及,所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征。可选地,所述待处理文本为多个,所述装置还包括:对象关联单元,用于将各待处理文本对应的目标对象进行同一对象的关联。可选地,所述对象关联单元,包括:待判定的目标对象确定单元,用于从各待处理文本对应的目标对象中,确定两个待判定的目标对象,所述两个待判定的目标对象分别包含于不同的待处理文本;判断单元,用于判断所述两个待判定的目标对象是否匹配;如果匹配,则确定所述两个待判定的目标对象是同一对象。可选地,所述判断单元,具体用于:利用匹配判定模型处理所述两个待判定的目标对象,得到所述匹配判定模型输出的所述两个待判定的目标对象是否匹配的判定结果,所述匹配判定模型是以目标对象对为训练样本,以目标对象对标注的是否匹配的判定结果为样本标签为训练得到的。可选地,所述利用匹配判定模型处理所述两个待判定的目标对象,得到所述匹配判定模型输出的所述两个待判定的目标对象是否匹配的判定结果的过程,包括:利用所述匹配判定模型的第一匹配判定模块,比较所述两个待判定的目标对象,得出第一匹配判定结果;利用所述匹配判定模型的第二匹配判定模块,比较所述两个待判定的目标对象中的相同对象属性,得出第二匹配判定结果;利用所述匹配判定模型的综合匹配判定模块,基于所述第一匹配判定结果和所述第二匹配判定结果,确定所述两个待判定的目标对象是否匹配。一种文本处理设备,包括存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如上所述的文本处理方法的各个步骤。一种可读本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n获取待处理文本;/n确定所述待处理文本包含的对象集合;/n针对所述对象集合中每一对象,确定与所述对象对应的属性,并将该属性与所述对象组合,得到目标对象。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
获取待处理文本;
确定所述待处理文本包含的对象集合;
针对所述对象集合中每一对象,确定与所述对象对应的属性,并将该属性与所述对象组合,得到目标对象。


2.根据权利要求1所述的方法,其特征在于,所述确定所述待处理文本包含的对象集合,包括:
确定所述待处理文本中每个字符的字符级特征,以及,所述待处理文本的文本级特征;
对待处理文本中每个字符,将该字符的字符级特征与所述待处理文本的文本级特征进行拼接,得到该字符拼接后的特征;
对各个字符拼接后的特征进行识别,得到每个字符的对象识别结果;
基于各个字符的对象识别结果,确定所述待处理文本中包含的对象集合。


3.根据权利要求2所述的方法,其特征在于,所述针对所述对象集合中每一对象,确定与所述对象对应的属性,包括:
获取所述待处理文本中各个字符之间的依存句法关系;
针对所述待处理文本中的每个字符,根据所述字符的字符级特征、所述字符的对象识别结果、所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征;
对所述待处理文本中各个字符的对象属性特征进行识别,确定所述对象集合中每一对象对应的属性。


4.根据权利要求3所述的方法,其特征在于,所述针对所述待处理文本中的每个字符,根据所述字符的字符级特征、所述字符的对象识别结果、所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征,包括:
根据所述字符的字符级特征、所述字符的对象识别结果,生成所述字符的对象识别特征;
根据所述待处理文本中各个字符的对象识别特征,以及,所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征。


5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述待处理文本为多个,所述方法还包括:
将各待处理文本对应的目标对象进行同一对象的关联。


6.根据权利要求5所述的方法,其特征在于,所述将各待处理文本对应的目...

【专利技术属性】
技术研发人员:王硕盛志超郭冬杰李浩李永帅段纪丁
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1