【技术实现步骤摘要】
文本处理方法、装置、电子设备和存储介质
[0001]本公开涉及文本处理
,特别涉及一种文本处理方法、装置、电子设备和存储介质。
技术介绍
[0002]在相关技术中,在确定待解答题目对应的答案时,需要在预先积累的海量题目数据中挑选与待解答题目的文本相似度最高的题目,并将该最接近的题目的配套答案作为待解答题目的答案。
技术实现思路
[0003]根据本公开一些实施例的第一个方面,提供一种文本处理方法,包括:生成题目文本中的自然语言对应的自然语言嵌入向量、以及公式对应的公式嵌入向量;根据自然语言嵌入向量和公式嵌入向量,生成题目文本对应的题目文本向量;基于题目文本向量,确定题目文本中的条件和问题;将题目文本中的条件和问题分别转换为预设格式的条件和问题,生成预设格式的题目文本;基于预设格式的题目文本,执行与预设格式的题目文本匹配的方法,以生成题目文本对应的答案。
[0004]在一些实施例中,生成题目文本中的自然语言对应的自然语言嵌入向量、以及公式对应的公式嵌入向量包括:利用预先训练的编码器,对具有自然语言标 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,包括:生成题目文本中的自然语言对应的自然语言嵌入向量、以及公式对应的公式嵌入向量;根据所述自然语言嵌入向量和公式嵌入向量,生成所述题目文本对应的题目文本向量;基于所述题目文本向量,确定所述题目文本中的条件和问题;将所述题目文本中的条件和问题分别转换为预设格式的条件和问题,生成预设格式的题目文本;基于所述预设格式的题目文本,执行与所述预设格式的题目文本匹配的方法,以生成所述题目文本对应的答案。2.根据权利要求1所述的文本处理方法,其中,所述生成题目文本中的自然语言对应的自然语言嵌入向量、以及公式对应的公式嵌入向量包括:利用预先训练的编码器,对具有自然语言标记和公式标记的题目文本进行处理,其中,所述编码器包括词嵌入层、自然语言嵌入层和公式嵌入层;获得所述词嵌入层生成的词嵌入向量、所述自然语言嵌入层生成的自然语言嵌入向量和所述公式嵌入层生成的公式嵌入向量。3.根据权利要求2所述的文本处理方法,还包括:利用识别模型对所述题目文本进行处理,获得所述题目文本中的自然语言和公式;在所述题目文本中,向所述自然语言所在的位置添加自然语言标记、以及向所述公式所在的位置添加公式标记。4.根据权利要求1所述的文本处理方法,其中,所述自然语言嵌入向量和公式嵌入向量的维度数量相同,并且所述根据所述自然语言嵌入向量和公式嵌入向量,生成所述题目文本对应的题目文本向量包括:将所述自然语言嵌入向量和公式嵌入向量进行按位相加;根据按位相加的结果,生成所述题目文本对应的题目文本向量。5.根据权利要求1所述的文本处理方法,其中,所述将所述题目文本中的条件和问题分别转换为预设格式的条件和问题包括:将所述题目文本中的条件与预设的条件模板进行匹配,并按照匹配的条件模板的规则,将所述条件转换为预设格式的条件;将所述题目文本中的问题与预设的问题模板进行匹配,并按照匹配的问题模板的规则,将所述问题转换为预设格式的问题。6.根据权利要求1所述的文本处理方法,其中,所述将所述题目文本中的条件和问题分别转换为预设格式的条件和问题包括:利用序列对序列seq2seq模型对所述题目文本中的条件和问题进行处理,获得预设格式的条件和问题。7.根据权利要求1所述的文本处理方法,其中,所述将所述题目文本中的条件和问题分别转换为预设格式的条件和问题包括:将所述题目文本中的条件与预设的条件模板进行匹配、以及将所述题目文本中的问题与预设的问题模板进行匹配;
在所述题目文本中的条件或问题不存在匹配结果的情况下,利用序列对序列seq2seq模型对所述题目文本中的条件和问题进行处理,获得预设格式的条件和问题。8.根据权利要求1所述的文本处理方法,还包括:将所述预设格式的题目文本与预设的一个或多个...
【专利技术属性】
技术研发人员:许少岩,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。