【技术实现步骤摘要】
文本处理方法、装置、计算机设备及存储介质
[0001]本申请涉及人工智能
,特别涉及一种文本处理方法、装置、计算机设备及存储介质。
技术介绍
[0002]中文自然语言理解具有广泛的应用,如搜索、问答以及语义检测等。然而,在文本中包括某个专业领域的专业词语时,如何准确的理解该专业词语的专业释义,是一个研究方向。
[0003]目前,理解语句中专业词语的方式是将专业领域的专业知识图谱和语言模型相结合,将专业知识图谱中每个节点所对应的三元组都枚举出来,将每个三元组都构造成样本语句,该样本语句中遮盖掉了任一实体或者实体关系,基于该样本语句进行训练,由语言模型来预测被遮盖的内容。由于实体即为专业词语,从而语言模型能够学习到专业词语之间的联系,进而理解专业词语的专业释义。
[0004]上述方案并未考虑到语言模型适用于处理序列信息,而不适用于处理专业知识图谱的图结构,需要将知识图谱转化为序列化的结构才能够进行处理,导致图结构中的信息被损失,从而准确性较低。
技术实现思路
[0005]本申请实施例提供了一 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:基于输入文本中的多个词语,从知识图谱中获取目标子图,所述目标子图包括所述多个词语对应的多个节点和表示所述多个节点之间关联关系的多条边;对所述输入文本进行编码,得到所述输入文本的文本编码特征;将所述文本编码特征作为文本节点加入所述目标子图,基于所述多个词语与所述多个节点的对应关系在所述目标子图中添加边;基于所述目标子图中多个节点的实体关系特征和所述文本编码特征,确定所述输入文本的文本语义信息,所述实体关系特征用于表示对应节点的节点特征、对应节点在所述目标子图中的邻居节点的节点特征以及对应节点与在所述目标子图中的邻居节点之间的关系特征。2.根据权利要求1所述的方法,其特征在于,所述基于所述目标子图中多个节点的实体关系特征和所述文本编码特征,确定所述输入文本的文本语义信息,包括:从所述目标子图中多个节点的实体关系特征中,获取所述文本节点对应的文本实体关系特征;对所述多个节点的实体关系特征进行池化,得到所述目标子图的子图特征,所述子图特征用于表示所述多个节点的实体关系特征;对所述子图特征、所述文本实体关系特征和所述文本编码特征进行拼接,得到所述输入文本的文本语义信息。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:对于所述目标子图中的任一节点,确定所述节点的至少一个邻居节点;确定所述至少一个邻居节点对应的至少一个邻居关系特征,所述邻居关系特征用于指示对应的邻居节点与所述节点之间的关系特征以及对应的邻居节点的节点特征,所述关系特征用于指示节点之间的关联关系;将所述至少一个邻居关系特征聚合到所述节点的节点特征中,得到所述节点的实体关系特征。4.根据权利要求3所述的方法,其特征在于,所述确定所述至少一个邻居节点对应的至少一个邻居关系特征,包括:对于所述至少一个邻居节点中的任一邻居节点,获取所述邻居节点与所述节点之间的关系特征;将所述邻居节点的节点特征与所述关系特征进行拼接,得到所述邻居节点对应的邻居关系特征。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:对所述目标子图中的多条边进行特征提取,得到多个关系特征,所述多个关系特...
【专利技术属性】
技术研发人员:程轶,刘文阁,唐鉴恒,赵瑞辉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。