一种文本结构化方法、文本结构化装置及终端设备制造方法及图纸

技术编号:26172219 阅读:34 留言:0更新日期:2020-10-31 13:48
本申请适用于自然语言处理技术领域,提供了一种文本结构化方法、文本结构化装置及终端设备,所述方法包括:对待处理文本进行分词,得到词语序列,所述词语序列中包括至少一个词语;对所述词语序列中的各个词语进行词性标注,得到各个词语的词性;对所述待处理文本进行命名实体识别,得到命名实体序列,所述命名实体序列中包括至少一个命名实体;对所述命名实体序列中的各个命名实体进行语义角色标注,得到语义角色标注结果;根据所述词语序列、各个词语的词性、所述命名实体序列和所述语义角色标注结果,对所述待处理文本进行结构化处理,得到结构化文本。通过上述方法,可以在非结构化文本中发现关键信息,并将这些关键信息进行结构化。

【技术实现步骤摘要】
一种文本结构化方法、文本结构化装置及终端设备
本申请属于自然语言处理
,尤其涉及一种文本结构化方法、文本结构化装置、终端设备及计算机可读存储介质。
技术介绍
随着互联网技术的发展和普及,越来越多的文本(如政法文书)实现了电子化。在数量日益增长的电子文本中,又有一大部分属于非结构化文本,如何快速地从海量的非结构化文本中发现关键信息,并将这些关键信息进行结构化是一个难题。
技术实现思路
有鉴于此,本申请提供了一种文本结构化方法、文本结构化装置、终端设备及计算机可读存储介质,可以在非结构化文本中发现关键信息,并将这些关键信息进行结构化。第一方面,本申请实施例提供了一种文本结构化方法,包括:对待处理文本进行分词,得到词语序列,上述词语序列中包括至少一个词语;对上述词语序列中的各个词语进行词性标注,得到各个词语的词性;对上述待处理文本进行命名实体识别,得到命名实体序列,上述命名实体序列中包括至少一个命名实体;对上述命名实体序列中的各个命名实体进行语义角色标注,得到语义角色标注结果;本文档来自技高网...

【技术保护点】
1.一种文本结构化方法,其特征在于,包括:/n对待处理文本进行分词,得到词语序列,所述词语序列中包括至少一个词语;/n对所述词语序列中的各个词语进行词性标注,得到各个词语的词性;/n对所述待处理文本进行命名实体识别,得到命名实体序列,所述命名实体序列中包括至少一个命名实体;/n对所述命名实体序列中的各个命名实体进行语义角色标注,得到语义角色标注结果;/n根据所述词语序列、各个词语的词性、所述命名实体序列和所述语义角色标注结果,对所述待处理文本进行结构化处理,得到结构化文本。/n

【技术特征摘要】
1.一种文本结构化方法,其特征在于,包括:
对待处理文本进行分词,得到词语序列,所述词语序列中包括至少一个词语;
对所述词语序列中的各个词语进行词性标注,得到各个词语的词性;
对所述待处理文本进行命名实体识别,得到命名实体序列,所述命名实体序列中包括至少一个命名实体;
对所述命名实体序列中的各个命名实体进行语义角色标注,得到语义角色标注结果;
根据所述词语序列、各个词语的词性、所述命名实体序列和所述语义角色标注结果,对所述待处理文本进行结构化处理,得到结构化文本。


2.根据权利要求1所述的文本结构化方法,其特征在于,在所述根据所述词语序列、各个词语的词性、所述命名实体序列和所述语义角色标注结果,对所述待处理文本进行结构化处理,得到结构化文本之前,所述文本结构化方法还包括:
获取所述待处理文本的种类;
在预设的至少一个要素解析模板中,确定与所述待处理文本的种类对应的目标要素解析模板,所述要素解析模板包括要素字段、所述要素字段的上下文信息以及所述要素字段的提取规则;
相应地,所述根据所述词语序列、各个词语的词性、所述命名实体序列和所述语义角色标注结果,对所述待处理文本进行结构化处理,得到结构化文本,包括:
根据所述上下文信息,确定所述要素字段的字段值在所述待处理文本中的位置范围;
根据所述提取规则、各个词语的词性和所述语义角色标注结果,从候选词中提取出所述要素字段的字段值,得到结构化文本,所述候选词包括所述词语序列中属于所述位置范围内的词语和所述命名实体序列中属于所述位置范围内的命名实体。


3.根据权利要求1所述的文本结构化方法,其特征在于,所述对所述命名实体序列中的各个命名实体进行语义角色标注,得到语义角色标注结果,包括:
基于训练后的语义角色标注模型对所述命名实体序列中的各个命名实体进行语义角色标注,得到语义角色标注结果,所述语义角色标注模型的训练样本包括属于预设领域的文本,且所述文本采用人工标注的方式进行了预设领域的专业术语的语义角色的标注处理。


4.根据权利要求3所述的文本结构化方法,其特征在于,在所述对所述命名实体序列中的各个命名实体进行语义角色标注,得到语义角色标注结果之前,所述文本结构化方法还包括:
将所述词语序列中,属于同一命名实体的词语进行重组,得到组合序列;
相应地,所述基于训练后的语义角色标注模型对所述命名实体序列中的各个命名实体...

【专利技术属性】
技术研发人员:陈国杨凤玲魏政
申请(专利权)人:深圳航天科创实业有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1