文本处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:23891791 阅读:33 留言:0更新日期:2020-04-22 06:46
本公开的实施例提供了一种文本处理方法、装置、电子设备及可读存储介质,所述方法包括:对待识别语句进行分词处理,得到第一分词序列;根据所述第一分词序列,生成第一向量;将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系;其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。本公开实施例可以提高识别施事实体和受事实体的准确率和效率,并且可以降低识别成本。

Text processing method, device, electronic equipment and readable storage medium

【技术实现步骤摘要】
文本处理方法、装置、电子设备及可读存储介质
本公开的实施例涉及计算机
,尤其涉及一种文本处理方法、装置、电子设备及可读存储介质。
技术介绍
随着互联网信息技术的飞速发展,互联网上的文本信息呈现爆炸式增长。如何从大规模的文本信息中快速而准确地抽取人们需要的信息成为研究的热点。实体关系抽取作为信息抽取的重要组成部分,其目的在于从自然语言文本挖掘出实体间的语义关联,例如,识别句子中的施事实体和受事实体。不仅有助于领域本体的建立,促进知识图谱的构建,而且通过对实体间的语义信息深入挖掘与分析能够进一步理解用户的意图,从而在闲聊对话系统、人机交互系统、以及搜索系统等多个应用领域,可以为用户提供更加精准的服务,提高用户体验。然而,目前在实体关系抽取过程中,需要对文本的句法进行分析,并且人工标注句子中的各个成分,以及确定句子中各成分之间的关系。其中,人工标注专业要求程度较高,不仅导致实体关系抽取的成本较高,而且句法分析过程中的细微错误都会导致最终的抽取结果出错。因此,目前的实体关系抽取方式不仅准确率较低而且成本较高。
技术实现思路
本公开的实施例提供一种文本处理方法、装置、电子设备及可读存储介质,用以提高识别施事实体和受事实体的准确率和效率,并且可以降低识别成本。根据本公开的实施例的第一方面,提供了一种文本处理方法,所述方法包括:对待识别语句进行分词处理,得到第一分词序列;根据所述第一分词序列,生成第一向量;将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系;其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。根据本公开的实施例的第二方面,提供了一种模型训练方法,所述方法包括:获取待训练语句;对所述待训练语句按照预设规则进行标注,得到用于训练识别模型的标注样本,其中,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系;对所述待训练语句进行分词处理,得到第二分词序列;根据所述第二分词序列,生成第二向量;根据所述第二向量以及所述标注样本,训练深度神经网络模型得到识别模型。根据本公开的实施例的第三方面,提供了一种文本处理装置,所述装置包括:第一分词模块,用于对待识别语句进行分词处理,得到第一分词序列;第一转换模块,用于根据所述第一分词序列,生成第一向量;关系识别模块,用于将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系;其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。根据本公开的实施例的第四方面,提供了一种模型训练装置,所述装置包括:获取模块,用于获取待训练语句;标注模块,用于对所述待训练语句按照预设规则进行标注,得到用于训练识别模型的标注样本,其中,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系;分词模块,用于对所述待训练语句进行分词处理,得到第二分词序列;生成模块,用于根据所述第二分词序列,生成第二向量;训练模块,用于根据所述第二向量以及所述标注样本,训练深度神经网络模型得到识别模型。根据本公开的实施例的第五方面,提供了一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现前述文本处理方法。根据本公开的实施例的第六方面,提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述文本处理方法。本公开的实施例提供了一种文本处理方法、装置、电子设备及可读存储介质,所述方法包括:对待识别语句进行分词处理,得到第一分词序列;根据所述第一分词序列,生成第一向量;将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系;其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。通过本公开实施例,无需对句子中的每一个分词进行语义分析以及人工标注,只需要以句子为单位,对待训练语句进行标注,得到用于表示所述待训练语句中施事实体和受事实体的顺序关系的标注样本,进而训练得到用于输出待识别语句中施事实体和受事实体的顺序关系的深度神经网络模型,不仅可以降低识别成本,而且根据该深度神经网络模型的输出结果,即可确定句子的主动关系或者被动关系,进而可以提高识别施事实体和受事实体的准确率和效率。附图说明为了更清楚地说明本公开的实施例的技术方案,下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1示出了本公开的一个实施例中的文本处理方法的步骤流程图;图2示出了本公开的一个实施例中的模型训练方法的步骤流程图;图3示出了在本公开的一个实施例中的文本处理装置的结构图;图4示出了在本公开的一个实施例中的模型训练装置的结构图;图5示出了本公开的一个实施例提供的电子设备的结构图。具体实施方式下面将结合本公开的实施例中的附图,对本公开的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的实施例一部分实施例,而不是全部的实施例。基于本公开的实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开的实施例保护的范围。实施例一参照图1,其示出了本公开的一个实施例中的文本处理方法的步骤流程图,包括:步骤101、对待识别语句进行分词处理,得到第一分词序列;步骤102、根据所述第一分词序列,生成第一向量;步骤103、将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系;其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。本公开的文本处理方法可用于识别句子中施事实体和受事实体的顺序关系,所述方法可应用于终端中,所述终端具体包括但不限于:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,MovingPictureExpertsGroupAudioLayerIII)播放器、MP4(动态影像专家压缩标准音频层面4,MovingP本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,所述方法包括:/n对待识别语句进行分词处理,得到第一分词序列;/n根据所述第一分词序列,生成第一向量;/n将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系,其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:
对待识别语句进行分词处理,得到第一分词序列;
根据所述第一分词序列,生成第一向量;
将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系,其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。


2.根据权利要求1所述的方法,其特征在于,所述通过所述识别模型输出标注信息的步骤之后,所述方法还包括:
提取所述待识别语句中的实体词;
根据所述实体词在所述待识别语句中的顺序以及所述标注信息中施事实体和受事实体的顺序关系,在所述实体词中确定施事实体和受事实体。


3.根据权利要求1所述的方法,其特征在于,所述将所述第一向量输入识别模型的步骤之前,所述方法还包括:
获取待训练语句;
对所述待训练语句按照预设规则进行标注,得到用于训练识别模型的标注样本,其中,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系;
对所述待训练语句进行分词处理,得到第二分词序列;
根据所述第二分词序列,生成第二向量;
根据所述第二向量以及所述标注样本,训练深度神经网络模型得到所述识别模型。


4.根据权利要求3所述的方法,其特征在于,所述对所述待训练语句按照预设规则进行标注的步骤,包括:
对所述待训练语句进行语义分析,确定所述待训练语句包含的语义角色,所述语义角色包括:施事角色、受事角色、其他角色中的两项;
确定所述语义角色在所述待训练语句中出现的顺序;
对于每一个待训练语句,将其包含的语义角色对应的角色标记,按照语义角色在待训练语句中出现的顺序,组织得到所述每一个待训练语句对应的标注样本。


5.根据权利要求4所述的方法,其特征在于,所述对所述待训练语句进行语义分析,确定所述待训练语句包含的语义角色的步骤,包括:
对所述待训练语句进行语义分析,以识别所述待训练语句中的施事角色和受事角色;
若所述待训练语句中不存在施事角色和/或受事角色,则使用其他角色代替,使得每一个待训练语句包含两个语义角色。


6.根据权利要求1所述的方法,其特征在于,所述根据所述第一分词序列,生成第一向量的步骤之前,所述方法还包括:
对所述第一分词序列进行过滤,以去除所述第一分词序列中的停用词,得到过滤后的第一分词序列;...

【专利技术属性】
技术研发人员:刘凡冯云王一冰聂璐月
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1