一种文本处理方法、装置、设备及可读存储介质制造方法及图纸

技术编号:22055207 阅读:44 留言:0更新日期:2019-09-07 15:14
本申请公开了一种文本处理方法、装置、设备及可存储介质,针对任一段材料文本,在获取该材料文本所属的目标业务场景后,进一步获取材料文本中包含的与目标业务场景相关的关键信息。基于目标业务场景下,文本片段的特征信息和关键信息的特征信息,确定关键要素间的依存关系。其中,关键要素包括关键信息和材料文本中所包含的与目标业务场景相关的文本片段。显然,关键要素包括的文本片段和关键信息均为对理解材料文本有价值的信息。所以,本方案提供的文本处理方法基于文本片段的特征信息和关键信息的特征信息,所确定的关键要素间的依存关系可以表征材料文本中的各有价值信息之间的联系。

A Text Processing Method, Device, Equipment and Readable Storage Media

【技术实现步骤摘要】
一种文本处理方法、装置、设备及可读存储介质
本申请涉及自然语言处理领域,更具体地说,涉及一种文本处理方法、装置、设备及可读存储介质。
技术介绍
在飞速发展的信息时代,信息日益成为社会各领域中最活跃、最具有决定意义的因素。在海量数据组成的信息材料中存在大量的有价值信息,有价值信息指的是对信息材料的分析与理解具有重要作用的信息,可以理解的是,有价值信息之间存在不同程度的联系。显然,有价值信息及其之间的联系对于信息材料的分析与理解至关重要。例如,在社会生活的各个领域,人们接触的信息材料中可能包括大量且晦涩难懂的数据,以电子产品为例,在电子产品的使用说明书中往往包括专业的工作原理、复杂的数字以及注意事项。显然,仅依靠人的阅读难以在短时间内筛选出对理解该使用说明书有帮助的有价值信息,以及有价值信息之间的联系。综上,如何快速准确提取信息材料中有价值信息及其之间联系是本领域技术人员的技术难题。
技术实现思路
有鉴于此,本申请提供了一种文本处理方法装置、设备及可读存储介质,可以在材料信息中提取有价值信息,且获取有价值信息之间的依存关系。为了实现上述目的,现提出的方案如下:一种文本处理方法,包括:获取材料本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:获取材料文本所属的目标业务场景,所述材料文本由文本片段组成;获取所述材料文本包含的与所述目标业务场景相关的关键信息;基于所述目标业务场景下,所述文本片段的特征信息和所述关键信息的特征信息,确定关键要素间的依存关系,所述关键要素包括所述材料文本中的文本片段及所述关键信息。

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取材料文本所属的目标业务场景,所述材料文本由文本片段组成;获取所述材料文本包含的与所述目标业务场景相关的关键信息;基于所述目标业务场景下,所述文本片段的特征信息和所述关键信息的特征信息,确定关键要素间的依存关系,所述关键要素包括所述材料文本中的文本片段及所述关键信息。2.根据权利要求1所述的方法,其特征在于,还包括:基于所述关键要素间的依存关系建立语义树,所述语义树的根结点表示所述目标业务场景,子结点表示所述关键要素,两个子结点间的弧表示所述两个子结点对应的关键要素间的依存关系。3.根据权利要求1所述的方法,其特征在于,所述基于所述目标业务场景下,所述文本片段的特征信息和所述关键信息的特征信息,确定关键要素间的依存关系,包括:基于当前解析环境的特征信息,确定当前的转移动作;当前解析环境c=[ST,S,K,A],其中ST用于存储所述目标业务场景,及响应转移动作的解析,暂存所确定的关键要素;S用于存储未处理的文本片段;K用于存储未处理的关键信息;A用于存储确定的存在依存关系的关键要素对;解析当前的转移动作,以更新当前解析环境,得到更新后的解析环境,并以更新后的解析环境作为新的当前解析环境,返回执行确定当前的转移动作的步骤,直至S和K为空,且ST中不存在关键要素为止,得到最后一次更新后的解析环境中的A存储的关键要素间的依存关系。4.根据权利要求3所述的方法,其特征在于,所述基于当前解析环境的特征信息,确定当前的转移动作,包括:将当前解析环境输入预置的转移动作解析模型,得到转移动作解析模型输出的当前的转移动作;所述转移动作解析模型被配置为,接收输入的解析环境,并基于解析环境的特征信息进行处理,以生成对应的转移动作的内部状态表示。5.根据权利要求3所述的方法,其特征在于,转移动作至少包括二类,分别为:第一类,取X中的首个对象,转移至ST中或丢弃,其中X为S或K;第二类,确定ST中顶端的前两个对象间的依存关系,并将该前两个对象中的一个对象从ST中删除。6.根据权利要求4所述的方法,其特征在于,所述将当前解析环境输入预置的转移动作解析模型,得到转移动作解析模型输出的当前的转移动作,包括:利用预置的转移动作解析模型,提取并处理当前解析环境的特征信息,以输出当前的转移动作,所述特征信息包括以下至少一项:目标业务场景特征;上下文特征:S中的前n1个文本片段,和/或,前n1个文本片段在材料文本中的位置;结点特征:ST中的前n2个关键要素,和/或,前n2个关键要素的类型,和/或,前n2个关键要素在材料文本中的位置;孩子结点特征:与ST中的前n3个关键要素存在依存关系的目标关键要素,和/或,所述目标关键要素的类型,和/或,所述目标关键要素在材料文本中的位置;依存关系类型特征:ST中前n3个关键要素与所述目标关键要素间的依存关系的类型;关键信息布尔特征:K中第一个关键信息是否存在于S中第一个文本片段中的真伪结果。7.根据权利要求4所述的方法,其特征在于,所述转移动作解析模型的训练数据的确定过程,包括:获取材料训练文本的标注结果,所述标注结果包括材料训练文本所属的业务场景,所包含的关键要素及关键要素间的依存关系;将所述标注结果表示为树形结构,得到标注树;基于上述标注树,获取扩展标注树;遍历扩展标注树;将当前遍历到的结点到根结点路径上的结点按照在材料训练文本中的先后顺序添加到当前ST中;将当前遍历到的结点在材料训练文本中后续的文本片段添加到当前S...

【专利技术属性】
技术研发人员:刘加新刘琴方逸群胡加学
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1