【技术实现步骤摘要】
文本处理方法、装置、电子设备及可读存储介质
本公开的实施例涉及计算机
,尤其涉及一种文本处理方法、装置、电子设备及可读存储介质。
技术介绍
随着互联网信息技术的飞速发展,互联网上的文本信息呈现爆炸式增长。如何从大规模的文本信息中快速而准确地抽取人们需要的信息成为研究的热点。实体关系抽取作为信息抽取的重要组成部分,其目的在于从自然语言文本挖掘出实体间的语义关联,例如,识别句子中的施事实体和受事实体。不仅有助于领域本体的建立,促进知识图谱的构建,而且通过对实体间的语义信息深入挖掘与分析能够进一步理解用户的意图,从而在闲聊对话系统、人机交互系统、以及搜索系统等多个应用领域,可以为用户提供更加精准的服务,提高用户体验。然而,目前在实体关系抽取过程中,需要对文本的句法进行分析,并且人工标注句子中的各个成分,以及确定句子中各成分之间的关系。其中,人工标注专业要求程度较高,不仅导致实体关系抽取的成本较高,而且句法分析过程中的细微错误都会导致最终的抽取结果出错。因此,目前的实体关系抽取方式不仅准确率较低而且成本较高。
技术实现思路
本公开的实施例提供一种文本处理方法、装置、电子设备及可读存储介质,用以提高识别施事实体和受事实体的准确率和效率,并且可以降低识别成本。根据本公开的实施例的第一方面,提供了一种文本处理方法,所述方法包括:对待识别语句进行分词处理,得到第一分词序列;根据所述第一分词序列,生成第一向量;将所述第一向量输入识别模型,以通过所述识别模型输出标 ...
【技术保护点】
1.一种文本处理方法,其特征在于,所述方法包括:/n对待识别语句进行分词处理,得到第一分词序列;/n根据所述第一分词序列,生成第一向量;/n将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系,其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。/n
【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:
对待识别语句进行分词处理,得到第一分词序列;
根据所述第一分词序列,生成第一向量;
将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系,其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。
2.根据权利要求1所述的方法,其特征在于,所述通过所述识别模型输出标注信息的步骤之后,所述方法还包括:
提取所述待识别语句中的实体词;
根据所述实体词在所述待识别语句中的顺序以及所述标注信息中施事实体和受事实体的顺序关系,在所述实体词中确定施事实体和受事实体。
3.根据权利要求1所述的方法,其特征在于,所述将所述第一向量输入识别模型的步骤之前,所述方法还包括:
获取待训练语句;
对所述待训练语句按照预设规则进行标注,得到用于训练识别模型的标注样本,其中,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系;
对所述待训练语句进行分词处理,得到第二分词序列;
根据所述第二分词序列,生成第二向量;
根据所述第二向量以及所述标注样本,训练深度神经网络模型得到所述识别模型。
4.根据权利要求3所述的方法,其特征在于,所述对所述待训练语句按照预设规则进行标注的步骤,包括:
对所述待训练语句进行语义分析,确定所述待训练语句包含的语义角色,所述语义角色包括:施事角色、受事角色、其他角色中的两项;
确定所述语义角色在所述待训练语句中出现的顺序;
对于每一个待训练语句,将其包含的语义角色对应的角色标记,按照语义角色在待训练语句中出现的顺序,组织得到所述每一个待训练语句对应的标注样本。
5.根据权利要求4所述的方法,其特征在于,所述对所述待训练语句进行语义分析,确定所述待训练语句包含的语义角色的步骤,包括:
对所述待训练语句进行语义分析,以识别所述待训练语句中的施事角色和受事角色;
若所述待训练语句中不存在施事角色和/或受事角色,则使用其他角色代替,使得每一个待训练语句包含两个语义角色。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一分词序列,生成第一向量的步骤之前,所述方法还包括:
对所述第一分词序列进行过滤,以去除所述第一分词序列中的停用词,得到过滤后的第一分词序列;...
【专利技术属性】
技术研发人员:刘凡,冯云,王一冰,聂璐月,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。