问题语句的改写方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:27203051 阅读:28 留言:0更新日期:2021-01-31 12:17
本申请涉及人工智能技术领域,可应用于智慧医疗领域中,以推动智慧城市的发展,提供一种问题语句的改写方法、装置、计算机设备和存储介质,获取用户输入的问题语句;基于同义词匹配,识别问题语句中每个可被替换的词,以及替换每个词的候选同义词;将每个词的候选同义词作为节点,将问题语句的起点作为起始节点,问题语句的终点作为结束节点;将候选同义词之间的句子片段作为连接节点之间的边,构建有向图;基于N

【技术实现步骤摘要】
问题语句的改写方法、装置、计算机设备和存储介质


[0001]本申请涉及人工智能
,特别涉及一种问题语句的改写方法、装置、计算机设备和存储介质。

技术介绍

[0002]在医疗领域的FAQ(问题解答)模块中,用户可以提出与医疗相关的医疗问题,针对用户提出的医疗问题,其回复答案生成主要将用户的问题与问题模板匹配的方式完成。但是在某些情况下用户问题与模板问题语义相近,却无法召回答案。比如:用户问“抑郁症可以投保吗?”,而模板问为“精神病可以投保吗?”,这种情况下可以通过同义词改写的方式扩充输入的问题语句,如:“抑郁症”的同义词为“精神病”,则可以在一定程度上提高召回率。
[0003]在具体的应用场景,比如在数字医疗的FAQ问答机器人中,数据库会事先存储多个医疗问题的模板,当用户提问时会匹配到相应的模板问题从而进行自动回复。
[0004]然而,对于同一类问题,用户的提问方式却多种多样,同时也包含大量的口语表述,如:“注射疫苗->打疫苗”、“腿骨折->腿瘸了”、“取消->退保”等。
[0005]因此,在实际中虽然用户问题与模板问题的语义相近,却无法正确匹配到相应的回复。
[0006]因此,可以对用户的问题语句中的词进行同义词替换,但是在不同语境下同义词的合理性却存在差异。如“打疫苗”可以改写为“注射疫苗”,此时,“打”与“注射”是一组同义词,然而将“打篮球”改写为“注射篮球”却十分不合理。这样的例子普遍存在,如“可以投保吗?”可以改写为“能投保吗?”,而将“这个想法可以”改写为“这个想法能”却很滑稽。因此,目前的同义词替换存在不符合语境的缺陷。

技术实现思路

[0007]本申请的主要目的为提供一种问题语句的改写方法、装置、计算机设备和存储介质,旨在克服目前同义词改写时出现不符合语境的缺陷。
[0008]为实现上述目的,本申请提供了一种问题语句的改写方法,包括以下步骤:
[0009]获取用户输入的问题语句;
[0010]基于同义词匹配,识别所述问题语句中每个可被替换的词,以及替换每个所述词的候选同义词;
[0011]将每个所述词的候选同义词作为节点,将所述问题语句的起点作为起始节点,所述问题语句的终点作为结束节点;
[0012]将所述候选同义词之间的句子片段作为连接节点之间的边,分别在所述起始节点、结束节点与所述节点之间构建边;基于所述起始节点、结束节点、各个所述节点以及所述边,构建有向图;其中,所述有向图中的各个节点对应的候选同义词之间不存在交叉,所述有向图中由起始节点开始,由结束节点结束,且连接所述节点之间的边的方向为所述问题语句中排列在前的候选同义词对应的节点指向所述问题语句中排列在后的候选同义词
对应的节点;
[0013]基于N-gram语言模型,计算所述有向图中各个边的边权重;
[0014]基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句。
[0015]进一步地,所述基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句的步骤之后,包括:
[0016]计算所述问题语句与所述改写后的问题语句的语义相似度;
[0017]判断所述语义相似度是否大于阈值;
[0018]若不大于,则基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出第二短路径,将所述第二短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句;
[0019]若大于,则在数据库中匹配对应所述改写后的问题语句的答案,并将匹配出的所述答案推送至所述用户所在的用户终端。
[0020]进一步地,所述计算所述问题语句与所述改写后的问题语句的语义相似度的步骤,包括:
[0021]基于预设的编码器,得到所述问题语句对应的第一向量矩阵,以及得到所述改写后的问题语句对应的第二向量矩阵;
[0022]计算第一向量矩阵与所述第二向量矩阵的相似度。
[0023]相似度的计算公式为:
[0024][0025]其中,Ai为所述第一向量矩阵的第i个分向量的数值,Bi为所述第二向量矩阵的第i个分向量的数值,所述第一向量矩阵和所述第二向量矩阵均包括n个分向量。
[0026]进一步地,所述基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句的步骤之后,包括:
[0027]基于所述改写后的问题语句,识别所述用户的意图;
[0028]判断所述意图是否为指定意图;所述指定意图为购买产品意图;
[0029]若是,则获取对应所述指定意图的产品信息文本,并对所述产品信息文本进行哈希计算,得到对应的哈希值存储于数据库中;
[0030]将所述产品信息文本以及所述哈希值发送至所述用户所在的用户终端,并提醒所述用户在所述产品信息文本中输入用户信息,并基于所述哈希值对所述产品信息文本进行加密。
[0031]进一步地,所述边权重的计算公式为:
[0032][0033]其中,所述问题语句中包括m个字,所述问题语句表示为:
[0034]s=w1,w2,w3,

,w
m
[0035]P(w)为问题语句中的字的概率分数,i,j分别为两个节点对应在所述问题语句中的位置;事件代表事件w
j-n+1

w
j-1
同时发生,n为N-gram语言模型的窗口大小;
[0036]所述最短路径的计算公式为:
[0037][0038]本申请还提供了一种问题语句的改写装置,包括:
[0039]获取单元,用于获取用户输入的问题语句;
[0040]第一识别单元,用于基于同义词匹配,识别所述问题语句中每个可被替换的词,以及替换每个所述词的候选同义词;
[0041]第一构建单元,用于将每个所述词的候选同义词作为节点,将所述问题语句的起点作为起始节点,所述问题语句的终点作为结束节点;
[0042]第二构建单元,用于将所述候选同义词之间的句子片段作为连接节点之间的边,分别在所述起始节点、结束节点与所述节点之间构建边;基于所述起始节点、结束节点、各个所述节点以及所述边,构建有向图;其中,所述有向图中的各个节点对应的候选同义词之间不存在交叉,所述有向图中由起始节点开始,由结束节点结束,且连接所述节点之间的边的方向为所述问题语句中排列在前的候选同义词对应的节点指向所述问题语句中排列在后的候选同义词对应的节点;
[0043]第一计算单元,用于基于N-gram语言模型,计算所述有向图中各个边的边权重;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问题语句的改写方法,其特征在于,包括以下步骤:获取用户输入的问题语句;基于同义词匹配,识别所述问题语句中每个可被替换的词,以及替换每个所述词的候选同义词;将每个所述词的候选同义词作为节点,将所述问题语句的起点作为起始节点,所述问题语句的终点作为结束节点;将所述候选同义词之间的句子片段作为连接节点之间的边,分别在所述起始节点、结束节点与所述节点之间构建边;基于所述起始节点、结束节点、各个所述节点以及所述边,构建有向图;其中,所述有向图中的各个节点对应的候选同义词之间不存在交叉,所述有向图中由起始节点开始,由结束节点结束,且连接所述节点之间的边的方向为所述问题语句中排列在前的候选同义词对应的节点指向所述问题语句中排列在后的候选同义词对应的节点;基于N-gram语言模型,计算所述有向图中各个边的边权重;基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句。2.根据权利要求1所述的问题语句的改写方法,其特征在于,所述基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句的步骤之后,包括:计算所述问题语句与所述改写后的问题语句的语义相似度;判断所述语义相似度是否大于阈值;若不大于,则基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出第二短路径,将所述第二短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句;若大于,则在数据库中匹配对应所述改写后的问题语句的答案,并将匹配出的所述答案推送至所述用户所在的用户终端。3.根据权利要求2所述的问题语句的改写方法,其特征在于,所述计算所述问题语句与所述改写后的问题语句的语义相似度的步骤,包括:基于预设的编码器,得到所述问题语句对应的第一向量矩阵,以及得到所述改写后的问题语句对应的第二向量矩阵;计算第一向量矩阵与所述第二向量矩阵的相似度。相似度的计算公式为:其中,Ai为所述第一向量矩阵的第i个分向量的数值,Bi为所述第二向量矩阵的第i个分向量的数值,所述第一向量矩阵和所述第二向量矩阵均包括n个分向量。4.根据权利要求1所述的问题语句的改写方法,其特征在于,所述基于所述有向图以及
所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句的步骤之后,包括:基于所述改写后的问题语句,识别所述用户的意图;判断所述意图是否为指定意图;所述指定意图为购买产品意图;若是,则获取对应所述指定意图的产品信息文本,并对所述产品信息文本进行哈希计算,得到对应的哈希值存储于数据库中;将所述产品信息文本以及所述哈希值发送至所述用户所在的用户终端,并提醒所述用户在所述产品信息文本中输入用户信息,并基于所述哈希值对所述产品信息文本进行加密。5.根据权利要求1所述的问题语句的改写方法,其特征在于,...

【专利技术属性】
技术研发人员:刘东煜陈乐清曾增烽
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1