【技术实现步骤摘要】
一种检索式人工智能问答机器人开发方法
本专利技术涉及一种检索式人工智能问答机器人开发方法。
技术介绍
问答机器人是自然语言处理中的一个重要应用。随着人工智能的发展,问答机器人的实现方式从传统的基于规则匹配,发展成了基于人工智能的问答机器人。基于人工智能的问答机器人相较传统的基于规则匹配优势非常明显:一、对问句的泛用性和鲁棒性更强,更贴近人类的使用习惯。二、无需维护海量的规则库,维护成本更低。当前,人工智能的问答机器人主要有两种实现方式,基于检索式的问答机器人和基于SequencetoSequence(序列到序列)模型的问答机器人,其中,基于检索式的问答机器人是当前学术及业内问答机器人研发领域的焦点,因为相较于基于SequencetoSequence的问答机器人,基于检索式的问答机器人具有能够面向具体任务且答案更具可靠性的特点,能够被应用于“智能客服”、“智能助手”等实际业务场景中。当前的“检索式”问答机器人基于支持向量机(SVM)、梯度提升树(GDBT树)等机器学习算法对问句进行分类,根据分类结果在预先构筑的知识图谱中检索对应答案。答案和问题的匹配度取决于算法的分 ...
【技术保护点】
1.一种检索式人工智能问答机器人开发方法,其特征在于,包含以下步骤:步骤1、云端上传文本形式的一问一答对话语料,并进行数据预处理;步骤2、对预处理完成的问句使用Lancaster词干提取算法提取词干,再转换成词向量;步骤3、对问句词向量调用LDA主题聚类算法进行聚类;步骤4、将聚类结果保存在存储器中,以供神经网络分类器训练使用;步骤5、使用Lancaster词干提取算法和深度神经网络问句分类算法,借助通过读取训练日志作成的可视化界面对聚类结果进行训练,并以文本形式保存分类模型。
【技术特征摘要】
1.一种检索式人工智能问答机器人开发方法,其特征在于,包含以下步骤:步骤1、云端上传文本形式的一问一答对话语料,并进行数据预处理;步骤2、对预处理完成的问句使用Lancaster词干提取算法提取词干,再转换成词向量;步骤3、对问句词向量调用LDA主题聚类算法进行聚类;步骤4、将聚类结果保存在存储器中,以供神经网络分类器训练使用;步骤5、使用Lancaster词干提取算法和深度神经网络问句分类算法,借助通过读取训练日志作成的可视化界面对聚类结果进行训练,并以文本形式保存分类模型。2.如权利要求1所述的一种检索式人工智能问答机器人开发方法,其特征在于,所述步骤1中,数据预处理的步骤包含:步骤11、根据不同的前缀区分问句和答句,形成问句-答句一问一答的格式;步骤12、将文本形式的问句转换成一个由词汇组成的列表,以便于后续处理;步骤13、通过停用词表,在文本中去掉对文本分析起不到任何的帮助的虚词、代词或者没有特定含义的动词、名词。3.如权利要求1所述的一种检索式人工智能问答机器人开发方法,其特征在于,所述步骤2通过词频-逆文本频率来转换成词向量;所述的词频是问句中各个词的出现频率统计;所述的逆文本频率是指一个词在所有文本中出现的频率;词频-逆文本频率=词频*逆文本频率。4.如权利要求3所述的一种检索式人工智能问答机器人开发方法,其特征在于,所述的逆文本频率的表达式为其中,N代表语料库中问句的总数;N(x)代表语料库中包含词x的文本总数。5.如权利要求1所述的一种检索式人工智能问答机器人开发方法,其特征...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。