文本处理方法、装置、设备及存储介质制造方法及图纸

技术编号:29330601 阅读:23 留言:0更新日期:2021-07-20 17:48
本申请实施例公开了一种文本处理方法、装置、设备及存储介质,应用于自然语言处理领域,包括:获取待处理文本,并从待处理文本中确定出多个实体文本以及多个实体文本中各实体文本的标注信息;将待处理文本存储为树状标签存储结构的根节点,并将各实体文本的标注信息存储至树状标签存储结构中的各级子节点中;根据树状标签存储结构中存储的待处理文本以及各实体文本的标注信息对待处理文本中的各实体文本进行标注,以便于各实体文本的查阅或者筛选。采用本申请实施例,可利用树状存储结构存储待处理文本的标注信息,并按照树状存储结构中存储的待处理文本的标注信息对文本进行标注,提高文本的标注效率,丰富了文本标注的适用场景。

【技术实现步骤摘要】
文本处理方法、装置、设备及存储介质
本申请涉及自然语言处理领域,尤其涉及一种文本处理方法、装置、设备及存储介质。
技术介绍
随着人工智能领域的发展,自然语言处理技术(NaturalLanguageProcessing,NLP)在众多场景中得到了广泛运用,比如情感分析、文本相似度、评论观点抽取、文本分类、词法分析等场景。在这些自然语言处理场景的应用中,需要利用大量标注好的文本对NLP模型进行训练。在现有技术中,比较通用的标注方式有利用excel或者其他划词标注工具对文本进行标注,这些划词标注工具通常使用线性链表式的存储结构对标签进行存储,按照这种存储结构,对于一个实体文本而言,只能同时显示这个实体文本的一个标签。然而,在具体应用场景中,经常会出现一个实体文本对应多个标签,或者一个实体文本的子文本也对应一个标签的情况,普通的文本标注工具无法直接对一个实体文本对应的多个标签以及一个实体文本的子文本对应的标签进行存储,也无法直接对一个实体文本对应的嵌套标签以及一个实体文本的子文本对应的标签进行标注,这极大地限制了文本的标注效率与使用场景。...

【技术保护点】
1.一种文本处理方法,其特征在于,所述方法包括:/n获取待处理文本,并从所述待处理文本中确定出多个实体文本以及所述多个实体文本中各实体文本的标注信息;/n将所述待处理文本存储至树状标签存储结构的根节点中,并将所述各实体文本的标注信息存储至所述树状标签存储结构中的各级子节点中,以得到以树状标签存储结构存储的所述待处理文本以及所述各实体文本的标注信息,其中,所述树状标签存储结构的一个子节点用于存储一个实体文本的标注信息;/n根据所述树状标签存储结构中存储的所述待处理文本以及所述各实体文本的标注信息对所述待处理文本中的所述各实体文本进行标注和/或展示,以便于所述各实体文本的查阅或者筛选。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:
获取待处理文本,并从所述待处理文本中确定出多个实体文本以及所述多个实体文本中各实体文本的标注信息;
将所述待处理文本存储至树状标签存储结构的根节点中,并将所述各实体文本的标注信息存储至所述树状标签存储结构中的各级子节点中,以得到以树状标签存储结构存储的所述待处理文本以及所述各实体文本的标注信息,其中,所述树状标签存储结构的一个子节点用于存储一个实体文本的标注信息;
根据所述树状标签存储结构中存储的所述待处理文本以及所述各实体文本的标注信息对所述待处理文本中的所述各实体文本进行标注和/或展示,以便于所述各实体文本的查阅或者筛选。


2.根据权利要求1所述的方法,其特征在于,所述将各实体文本的标注信息存储至所述树状标签存储结构的各级子节点中,包括:
基于所述各实体文本的标注信息确定出各实体文本的起止字符信息和文本长度;
基于所述各实体文本的起止字符信息和文本长度确定出所述待处理文本中包括一级实体文本在内的各级实体文本的次级实体文本,并将任一级实体文本的次级实体文本的标注信息存储至所述树状标签存储结构中所述任一级实体文本的标注信息所存储的子节点的次级子节点,以将所述各实体文本的标注信息存储至所述树状标签存储结构的各级子节点中;
其中,所述一级实体文本是所述待处理文本的次级实体文本,所述一级实体文本的标注信息存储至所述树状标签存储结构中所述根节点的次级子节点,任一个文本的次级实体文本包括在所述任一个文本的实体文本中与其他实体文本不存在重复字符的实体文本,以及在所述任一个文本的实体文本中与其他实体文本存在重复字符且文本长度大于存在重复字符的其他实体文本的实体文本。


3.根据权利要求2所述的方法,其特征在于,所述基于所述各实体文本的起止字符信息和文本长度确定出所述待处理文本中包括一级实体文本在内的各级实体文本的次级实体文本包括:
根据各实体文本的起止字符信息确定各实体文本的起止字符位置;
在任一文本的实体文本中,如果目标实体文本的起止字符位置中不包括非目标实体文本的起止字符位置,则将所述目标实体文本确定为所述任一文本的次级实体文本,其中,所述任一文本为所述待处理文本或者所述待处理文本中的实体文本,所述非目标实体文本为所述任一文本的实体文本中除所述目标实体文本之外的实体文本;
如果所述目标实体文本的起止字符位置中包括所述非目标实体文本的起止字符位置,且所述目标实体文本的文本长度大于重合非目标实体文本的文本长度,则将所述目标实体文本确定为所述任一文本的次级实体文本,其中,所述重合非目标实体文本为起止字符位置包括在所述目标实体文本的起止字符位置中的非目标实体文本。


4.根据权利要求1-3任一项所述的方法,其特征在于,所述树状标签存储结构中的各级子节点包括单标签子节点和多标签子节点,所述将各实体文本的标注信息存储至所述树状标签存储结构中的各级子节点中包括:
根据所述各实体文本的标注信息确定所述各实体文本的标签;
若任一实体文本对应一个标签,则确定所述任一实体文本为单标签实体文本,将所述单标签实体文本的标注信息存储至所述树状标签存储结构的子节点中,并将存储所述单标签实体文本的标注信息的子节点设置为单标签子节点;
若任一实体文本对应多个标签,则确定所述任一实体文本为多标签实体文本,将所述多标签实体文本的标注信息存储至所述...

【专利技术属性】
技术研发人员:王水桃
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1