The embodiment of the invention provides a database maintenance method and a device, and solves the problem of low efficiency of the database maintenance mode in the prior art. The maintenance of the database maintenance method database includes a plurality of standard questions and multiple expansion question set, wherein each of the standard questions corresponding to one of the extended question set, the method includes: to storage data input standard classification model to obtain the matching standard question, the standard classification model a natural language sentence and a plurality of standard questions corresponding to the plurality of natural language statements were established based on the extension of the question; and for storage of data stored in the standard question database matching and the corresponding set.
【技术实现步骤摘要】
数据库维护方法和装置
本专利技术涉及人工智能
,具体涉及一种数据库维护方法和装置。
技术介绍
随着人工智能技术的不断发展以及人们对于交互体验要求的不断提高,智能交互方式已逐渐开始替代一些传统的人机交互方式,并且已成为一个研究热点。智能交互方式一般是基于一个数据库来实现的,该数据库包括多个标准问句和多个扩展问句集,其中每个标准问句对应一个扩展问句集,基于该数据库来分析识别用户所发出的用户消息并将对应的应答信息反馈给用户。因此,作为智能交互的数据基础,该数据库需要不断的维护以更新其中的数据来实现更加智能更加精准的交互体验。然而在现有技术中,该用于智能交互的数据库的维护过程却仍需要通过人工完成。例如,在智能客服交互场景下,就需要客服人员凭借工作经验,手工导入人工客服问答数据来维护该用于智能客户交互的数据库,这显然效率极低。而若数据库中的数据维护不够及时,则势必会导致智能交互体验的下降。由此可见,急需一种高效的数据库维护方式。
技术实现思路
有鉴于此,本专利技术实施例提供了一种数据库维护方法和装置,解决了现有技术中数据库维护方式的效率低的问题。本专利技术一实施例提供的一种数据库维护方法,所述数据库包括多个标准问句和多个扩展问句集,其中每个所述标准问句对应一个所述扩展问句集,该方法包括:将待入库数据输入标准分类模型以获得匹配的标准问句,其中所述标准分类模型基于多个自然语言语句和与所述多个自然语言语句分别对应的多个标准问句而建立;以及将所述待入库数据存入数据库中与所述匹配的标准问句所对应的扩展问句集。本专利技术一实施例提供的一种数据库维护装置,所述数据库包括多个标准 ...
【技术保护点】
一种数据库维护方法,所述数据库包括多个标准问句和多个扩展问句集,其中每个所述标准问句对应一个所述扩展问句集,其特征在于,包括:将待入库数据输入标准分类模型以获得匹配的标准问句,其中所述标准分类模型基于多个自然语言语句和与所述多个自然语言语句分别对应的多个标准问句而建立;以及将所述待入库数据存入数据库中与所述匹配的标准问句所对应的扩展问句集。
【技术特征摘要】
1.一种数据库维护方法,所述数据库包括多个标准问句和多个扩展问句集,其中每个所述标准问句对应一个所述扩展问句集,其特征在于,包括:将待入库数据输入标准分类模型以获得匹配的标准问句,其中所述标准分类模型基于多个自然语言语句和与所述多个自然语言语句分别对应的多个标准问句而建立;以及将所述待入库数据存入数据库中与所述匹配的标准问句所对应的扩展问句集。2.根据权利要求1所述的方法,其特征在于,所述标准分类模型通过如下方式建立:将所述多个自然语言语句和与所述多个自然语言语句中每个自然语言语句分别对应的标准问句分别进行分词处理以得到分词向量;以及将所述分词向量输入分类器中进行训练以建立所述标准分类模型,其中,所述标准分类模型所对应的向量空间包括至少一个分类超平面分割所述向量空间得到的多个空间区域,其中每个所述空间区域对应一个所述标准问句。3.根据权利要求2所述的方法,其特征在于,所述自然语言语句为所述数据库中已存储的与所述标准问句对应的扩展问句集中的扩展问句。4.根据权利要求2所述的方法,其特征在于,进一步包括:向基于所述数据库的问答模块中输入所述多个自然语言问句,通过所述问答模块进行语义匹配以得到所述数据库中匹配的标准问句作为所述多个自然语言语句分别对应的多个标准问句。5.根据权利要求2所述的方法,其特征在于,所述分类器包括以下几项中的一种或多种的组合:libshorttext分类器、LR分类器、SVM分类器和fastText分类器。6.根据权利要求1至5中任一所述的方法,其特征在于,进一步包括:将所述待入库数据进行聚类以获取多个数据聚类集;其中所述将待入库数据输入标准分类模型以获得匹配的标准问句包括:将一个数据聚类集中所包括的多个待入库数据分别输入所述标准分类模型以获得与所述一个数据聚类集所匹配的标准问句。7.根据权利要求6所述的方法,其特征在于,所述将一个数据聚类集中所包括的多个待入库数据分别输入所述标准分类模型以获得与所述一个数据聚类集所匹配的标准问句包括:将所述一个数据聚类集中所包括的N个待入库数据分别输入所述标准分类模型以获得与所述N个待入库数据所分别匹配的N个标准问句,N为大于等于1的整数;将所述N个标准问句中匹配所述一个数据聚类集中的待入库数据的数量最多的S个标准问句作为所述一个数据聚类集的S个推荐标准问句,其中S为大于等于1且小于等于N的整数;以及选取所述S个推荐标准问句中的一个作为所述一个数据聚类集所匹配的标准问句。8.根据权利要求7所述的方法,其特征在于,所述选取所述S个推荐标准问句中的一个作为所述一个数据聚类集所匹配的标准问句包括:展示所述S个推荐标准问句;以及接收选取指令以选取所述S个推荐标准问句中的一个作为所述一个数据聚类集所匹配的标准问句。9.根据权利要求6所述的方法,其特征在于,所述数据库中包括知识点,所述知识点包括标准问句、扩展问句集和答案;所述待入库数据为已采集数据中的问句,所述方法进一步包括:获取一个数据聚类集中所包括的多个所述问句各自对应的预设数量个所述答案以形成所述一个数据聚类的答案集,其中与一个问句对应的预设数量个答案为多个已采集的答案中距离所述一个问句的采集时间最近的预设数量个答案;对所述一个数据聚类集的答案集中的答案进行聚类以获取所述一个数据聚类集的多个答案聚类集;以及从所述多个答案聚类集中选取一个答案聚类集中的一个答案作为与所述一个数据聚类集匹配的标准问句所对应知识点的答案存入所述数据库。10.根据权利要求9所述的方法,其特征在于,所述问句为人工客服数据中的用户问句,所述答案为所述人工客服数据中的人工客服答案。11.根据权利要求9所述的方法,其特征在于,进一步包括:将所述待入库数据进行过滤以得到包括预设的业务关键词的待入库数据;和/或,过滤以去除已存储在所述数据库中的待入库数据;和/或,将所述已采集的问句和/或答案进行过滤以去除采用反问句式和/或仅包含礼貌用语的问句和/或答案。12.根据权利要求11所述的方法,其特征在于,所述反问句式包括预设的开头标识和预设的结尾标识;其中,所述预设的开头标识包括以下几种中的任一种:如何办、咋整、怎么办、如何弄、咋办、怎莫办、则么办、迮么办、怎么整、怎么弄、怎样办、何处、哪儿、在哪和去哪;所述预设的结尾标识包括以下几种中任的一种:中英文问号,吗、呢和哦。13.根据权利要求9所述的方法,其特征在于,所述多个数据聚类集和/或所述多个答案聚类集通过语义相似度计算的聚类方式获取。14.根据权利要求13所述的方法,其特征在于,所述语义相似度计算的聚类方式包括:将待聚类的多个待入库数据或多个答案引入向量空间以获取对应的多个句向量;分别获取第M个句向量与已聚类的K个数据聚类集或答案聚类集的句向量平均值之间的最大相似度值,当所述最大相似度值大于预设值时,将第M个句向量所对应的待入库数据或答案聚类到所述最大相似度值对应的数据聚类集或答案聚类集中;当所述最大相似度值小于预设值时,将第M个句向量所对应的待入库数据或答案聚类为第K+1个数据聚类集或答案聚类集,所述K≤M-1,M≥2。15.根据权利要求14所述的方法,其特征在于,所述语义相似度计算的聚类方式具体包括:将待聚类的多个待入库数据或多个答案引入向量空间以获取对应的T个句向量QT,其中T≥M;初始K值、中心点PK-1、以及聚类集{K,[PK-1]},其中,K表示聚类的类别数,K的初始值为1,中心点PK-1的初始值为P0,P0=Q1,Q1表示第1个句向量,聚类集的初始值为{1,[Q1]};以及依次对剩下的QT进行聚类,计算当前句向量与每个聚类集的中心点的相似度,如果当前句向量与某个聚类集的中心点的相似度大于或等于预设值,则将当前句向量聚类到相应的聚类集中,保持K值不变,将相应的中心点更新为聚类集中所有句向量的向量平均值,相应的聚类集为{K,[句向量的向量平均值]};如果当前句向量与所有聚类集中的中心点的相似度均小于预设值,则令K=K+1,增加新的中心点,所述新的中心点的值为当前句向量,并增加新的聚类集{K,[当前句向量]};其中,所述聚类集为数据聚类集或答案聚类集。16.根据权利要求13至15中任一所述的方法,其特征在于,所述多个数据聚类集通过如下聚类方式获取:对所述待入库数据进行初步聚类以获取多个初步数据聚类集;以及在每个所述初步数据聚类集中以所述语义相似度计算的聚类方式进行二次聚类以获取多个所述数据聚类集;和/或所述多个答案聚类集通过如下聚类方式获取:对所述一个数据聚类集的答案集中的答案进行初步聚类以获取多个初步答案聚类集;以及在每个所述初步答案聚类集中以所述语义相似度计算的聚类方式进行二次聚类以获取多个所述答案聚类集。17.根据权利要求16所述的方法,其特征在于,所述初步聚类包括:基于所述待入库数据或所述答案中所包括的关键词进行聚类,或以所述语义相似度计算的聚类方式进行聚类。18.一种数据库维护装置,所述数据库包括多个标准问句和多个扩展问句集,其中每个所述标准问句对应一个所述扩展问句集,其特征在于,包括:标准分类模型,基于多个自然语言语...
【专利技术属性】
技术研发人员:李广增,白杨,张磊,林涵,朱频频,
申请(专利权)人:上海智臻智能网络科技股份有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。