数据库维护方法和装置制造方法及图纸

技术编号:15329820 阅读:61 留言:0更新日期:2017-05-16 13:24
本发明专利技术实施例提供了一种数据库维护方法和装置,解决了现有技术中数据库维护方式的效率低的问题。其中的数据库维护方法所维护的数据库包括多个标准问句和多个扩展问句集,其中每个所述标准问句对应一个所述扩展问句集,该方法具体包括:将待入库数据输入标准分类模型以获得匹配的标准问句,其中所述标准分类模型基于多个自然语言语句和与所述多个自然语言语句分别对应的多个标准问句而建立;以及将所述待入库数据存入数据库中与所述匹配的标准问句所对应的扩展问句集。

Database maintenance method and apparatus

The embodiment of the invention provides a database maintenance method and a device, and solves the problem of low efficiency of the database maintenance mode in the prior art. The maintenance of the database maintenance method database includes a plurality of standard questions and multiple expansion question set, wherein each of the standard questions corresponding to one of the extended question set, the method includes: to storage data input standard classification model to obtain the matching standard question, the standard classification model a natural language sentence and a plurality of standard questions corresponding to the plurality of natural language statements were established based on the extension of the question; and for storage of data stored in the standard question database matching and the corresponding set.

【技术实现步骤摘要】
数据库维护方法和装置
本专利技术涉及人工智能
,具体涉及一种数据库维护方法和装置。
技术介绍
随着人工智能技术的不断发展以及人们对于交互体验要求的不断提高,智能交互方式已逐渐开始替代一些传统的人机交互方式,并且已成为一个研究热点。智能交互方式一般是基于一个数据库来实现的,该数据库包括多个标准问句和多个扩展问句集,其中每个标准问句对应一个扩展问句集,基于该数据库来分析识别用户所发出的用户消息并将对应的应答信息反馈给用户。因此,作为智能交互的数据基础,该数据库需要不断的维护以更新其中的数据来实现更加智能更加精准的交互体验。然而在现有技术中,该用于智能交互的数据库的维护过程却仍需要通过人工完成。例如,在智能客服交互场景下,就需要客服人员凭借工作经验,手工导入人工客服问答数据来维护该用于智能客户交互的数据库,这显然效率极低。而若数据库中的数据维护不够及时,则势必会导致智能交互体验的下降。由此可见,急需一种高效的数据库维护方式。
技术实现思路
有鉴于此,本专利技术实施例提供了一种数据库维护方法和装置,解决了现有技术中数据库维护方式的效率低的问题。本专利技术一实施例提供的一种数据库维护方法,所述数据库包括多个标准问句和多个扩展问句集,其中每个所述标准问句对应一个所述扩展问句集,该方法包括:将待入库数据输入标准分类模型以获得匹配的标准问句,其中所述标准分类模型基于多个自然语言语句和与所述多个自然语言语句分别对应的多个标准问句而建立;以及将所述待入库数据存入数据库中与所述匹配的标准问句所对应的扩展问句集。本专利技术一实施例提供的一种数据库维护装置,所述数据库包括多个标准问句和多个扩展问句集,其中每个所述标准问句对应一个所述扩展问句集,该装置包括:标准分类模型,基于多个自然语言语句和与所述多个自然语言语句分别对应的多个标准问句而建立;标准问句获取模块,配置为将待入库数据输入所述标准分类模型以获得匹配的标准问句;以及处理模块,配置为将所述待入库数据存入数据库中与所述匹配的标准问句所对应的扩展问句集。本专利技术实施例提供的一种数据库维护方法和装置,通过建立标准分类模型来获取与待入库数据匹配的标准问句,并将待入库数据存入所匹配的标准问句的扩展问句集,避免了以人工的方式来维护数据库,提高了数据库维护的效率。同时,由于数据库中的数据能够得到及时的自动维护更新,也提升了用户的智能交互体验。附图说明图1所示为本专利技术一实施例提供的一种数据库维护方法的流程示意图。图2所示为本专利技术一实施例提供的一种数据库维护方法中标准分类模型的建立过程的流程示意图。图3所示为本专利技术一实施例提供的一种数据库维护方法中标准分类模型输出与一个输入的待入库数据匹配的标准问句的流程示意图。图4所示为本专利技术一实施例提供的一种数据库维护方法中的语义相似度计算的聚类方式的流程示意图。图5所示为本专利技术另一实施例提供的一种数据库维护方法中改进的语义相似度计算的聚类方式的流程示意图。图6所示为本专利技术一实施例提供的一种数据库维护方法中获得与一个数据聚类集所匹配的标准问句的流程示意图。图7所示为本专利技术一实施例提供的一种数据库维护方法中获取并存储与一个数据聚类集所匹配的答案的流程示意图。图8所示为本专利技术一实施例提供的一种数据库维护装置的结构示意图。图9所示为本专利技术另一实施例提供的一种数据库维护装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1所示为本专利技术一实施例提供的一种数据库维护方法的流程示意图。所维护的数据库包括多个标准问句和多个扩展问句集,其中每个标准问句对应一个扩展问句集。每个标准问句代表一定语义内容的标准表述方式,为所对应扩展问句集中扩展问句的扩展基础,可由业务专家根据实际的工作经验预设在数据库中;与标准问句对应的扩展问句集中可以直接包括具体的扩展问句,也可以包括用于展开成扩展问句的抽象语义表达式。如图1所示,该方法包括:步骤101:将待入库数据输入标准分类模型以获得匹配的标准问句,其中标准分类模型基于多个自然语言语句和与该多个自然语言语句分别对应的多个标准问句而建立。待入库数据为准备要更新入数据库的数据,待入库数据待录入作为数据库中扩展问句集中的语句,例如当该数据库为用于智能客服交互的数据库时,该待入库数据就可为一些人工客服交互数据中的请求(输入)数据。通过将这些人工客服交互数据导入数据库中对应的标准问句的扩展数据集中,以实现更加智能更加精准的交互体验。标准分类模型为一种根据输入的待入库数据而输出匹配的标准问句的模型工具。该标准分类模型要依据多个自然语言语句和与该多个自然语言语句分别对应的多个标准问句而建立。在本专利技术一实施例中,由于数据库中已经存储有多个标准问句以及与该多个标准问句分别对应的多个扩展问句集,因此标准分类模型可以是直接根据这些已存储的标准问句和扩展问句集中的扩展问句而建立。此时用于建立标准分类模型的自然语言语句就可为与标准问句对应的扩展问句集中的扩展问句。利用该标准分类模型便可在后续的过程中根据输入的待入库数据来输出与待入库数据匹配的标准问句。在本专利技术另一实施例中,与自然语言语句对应的标准问句是要通过一个基于数据库的问答模块而获取的。此时就要先向该基于数据库的问答模块中输入多个自然语言问句,通过该问答模块进行语义匹配以得到数据库中匹配的标准问句作为该多个自然语言语句分别对应的多个标准问句。然后再根据这些自然语言语句和对应的标准问句来建立该标准分类模型,后续利用该标准分类模型便可根据输入的待入库数据来输出与待入库数据匹配的标准问句。在本专利技术一实施例中,自然语言语句对应的标准问句也可以通过问答模块的历史已答数据中直接获取,此时就不用重复执行该语义匹配过程了该基于数据库的问答模块的语义匹配过程可通过语义相似度的计算过程实现。通过计算当前自然语言语句与多个预设的扩展问句集之间的相似度,然后将相似度最高的扩展问句集所对应的标准问句作为匹配的标准问句。相似度计算过程可采用如下计算方法中的一种或多种:编辑距离计算方法,n-gram计算方法,JaroWinkler计算方法以及Soundex计算方法。在本专利技术一实施例中,扩展问句集可采用语义模板的形式,语义模板可为表示某一种语义内容的一个或多个抽象语义表达式的集合,由开发人员根据预定的规则结合语义内容生成,即通过一个语义模板就可描述一个标准问句所对应语义内容的多种不同表达方式的语句,以应对当前自然语言语句可能的多种变形。这样将自然语言语句的文本内容与预设的语义模板进行匹配,避免了利用仅能描述一种表达方式的“标准问”来识别用户消息时的局限性。每一个抽象语义表达式主要可包括语义成分词和语义规则词。语义成分词由语义成分符表示,当这些语义成分符被填充了相应的值(即内容)后可以表达各式各样的具体语义。抽象语义的语义成分符可包括:[concept]:表示主体或客体成份的词或短语。比如:“彩铃如何开通”中的“彩铃”。[action]:表示动作成分的词或短语。比如:“信用卡如何办理”中的“办理”。[attr本文档来自技高网...
数据库维护方法和装置

【技术保护点】
一种数据库维护方法,所述数据库包括多个标准问句和多个扩展问句集,其中每个所述标准问句对应一个所述扩展问句集,其特征在于,包括:将待入库数据输入标准分类模型以获得匹配的标准问句,其中所述标准分类模型基于多个自然语言语句和与所述多个自然语言语句分别对应的多个标准问句而建立;以及将所述待入库数据存入数据库中与所述匹配的标准问句所对应的扩展问句集。

【技术特征摘要】
1.一种数据库维护方法,所述数据库包括多个标准问句和多个扩展问句集,其中每个所述标准问句对应一个所述扩展问句集,其特征在于,包括:将待入库数据输入标准分类模型以获得匹配的标准问句,其中所述标准分类模型基于多个自然语言语句和与所述多个自然语言语句分别对应的多个标准问句而建立;以及将所述待入库数据存入数据库中与所述匹配的标准问句所对应的扩展问句集。2.根据权利要求1所述的方法,其特征在于,所述标准分类模型通过如下方式建立:将所述多个自然语言语句和与所述多个自然语言语句中每个自然语言语句分别对应的标准问句分别进行分词处理以得到分词向量;以及将所述分词向量输入分类器中进行训练以建立所述标准分类模型,其中,所述标准分类模型所对应的向量空间包括至少一个分类超平面分割所述向量空间得到的多个空间区域,其中每个所述空间区域对应一个所述标准问句。3.根据权利要求2所述的方法,其特征在于,所述自然语言语句为所述数据库中已存储的与所述标准问句对应的扩展问句集中的扩展问句。4.根据权利要求2所述的方法,其特征在于,进一步包括:向基于所述数据库的问答模块中输入所述多个自然语言问句,通过所述问答模块进行语义匹配以得到所述数据库中匹配的标准问句作为所述多个自然语言语句分别对应的多个标准问句。5.根据权利要求2所述的方法,其特征在于,所述分类器包括以下几项中的一种或多种的组合:libshorttext分类器、LR分类器、SVM分类器和fastText分类器。6.根据权利要求1至5中任一所述的方法,其特征在于,进一步包括:将所述待入库数据进行聚类以获取多个数据聚类集;其中所述将待入库数据输入标准分类模型以获得匹配的标准问句包括:将一个数据聚类集中所包括的多个待入库数据分别输入所述标准分类模型以获得与所述一个数据聚类集所匹配的标准问句。7.根据权利要求6所述的方法,其特征在于,所述将一个数据聚类集中所包括的多个待入库数据分别输入所述标准分类模型以获得与所述一个数据聚类集所匹配的标准问句包括:将所述一个数据聚类集中所包括的N个待入库数据分别输入所述标准分类模型以获得与所述N个待入库数据所分别匹配的N个标准问句,N为大于等于1的整数;将所述N个标准问句中匹配所述一个数据聚类集中的待入库数据的数量最多的S个标准问句作为所述一个数据聚类集的S个推荐标准问句,其中S为大于等于1且小于等于N的整数;以及选取所述S个推荐标准问句中的一个作为所述一个数据聚类集所匹配的标准问句。8.根据权利要求7所述的方法,其特征在于,所述选取所述S个推荐标准问句中的一个作为所述一个数据聚类集所匹配的标准问句包括:展示所述S个推荐标准问句;以及接收选取指令以选取所述S个推荐标准问句中的一个作为所述一个数据聚类集所匹配的标准问句。9.根据权利要求6所述的方法,其特征在于,所述数据库中包括知识点,所述知识点包括标准问句、扩展问句集和答案;所述待入库数据为已采集数据中的问句,所述方法进一步包括:获取一个数据聚类集中所包括的多个所述问句各自对应的预设数量个所述答案以形成所述一个数据聚类的答案集,其中与一个问句对应的预设数量个答案为多个已采集的答案中距离所述一个问句的采集时间最近的预设数量个答案;对所述一个数据聚类集的答案集中的答案进行聚类以获取所述一个数据聚类集的多个答案聚类集;以及从所述多个答案聚类集中选取一个答案聚类集中的一个答案作为与所述一个数据聚类集匹配的标准问句所对应知识点的答案存入所述数据库。10.根据权利要求9所述的方法,其特征在于,所述问句为人工客服数据中的用户问句,所述答案为所述人工客服数据中的人工客服答案。11.根据权利要求9所述的方法,其特征在于,进一步包括:将所述待入库数据进行过滤以得到包括预设的业务关键词的待入库数据;和/或,过滤以去除已存储在所述数据库中的待入库数据;和/或,将所述已采集的问句和/或答案进行过滤以去除采用反问句式和/或仅包含礼貌用语的问句和/或答案。12.根据权利要求11所述的方法,其特征在于,所述反问句式包括预设的开头标识和预设的结尾标识;其中,所述预设的开头标识包括以下几种中的任一种:如何办、咋整、怎么办、如何弄、咋办、怎莫办、则么办、迮么办、怎么整、怎么弄、怎样办、何处、哪儿、在哪和去哪;所述预设的结尾标识包括以下几种中任的一种:中英文问号,吗、呢和哦。13.根据权利要求9所述的方法,其特征在于,所述多个数据聚类集和/或所述多个答案聚类集通过语义相似度计算的聚类方式获取。14.根据权利要求13所述的方法,其特征在于,所述语义相似度计算的聚类方式包括:将待聚类的多个待入库数据或多个答案引入向量空间以获取对应的多个句向量;分别获取第M个句向量与已聚类的K个数据聚类集或答案聚类集的句向量平均值之间的最大相似度值,当所述最大相似度值大于预设值时,将第M个句向量所对应的待入库数据或答案聚类到所述最大相似度值对应的数据聚类集或答案聚类集中;当所述最大相似度值小于预设值时,将第M个句向量所对应的待入库数据或答案聚类为第K+1个数据聚类集或答案聚类集,所述K≤M-1,M≥2。15.根据权利要求14所述的方法,其特征在于,所述语义相似度计算的聚类方式具体包括:将待聚类的多个待入库数据或多个答案引入向量空间以获取对应的T个句向量QT,其中T≥M;初始K值、中心点PK-1、以及聚类集{K,[PK-1]},其中,K表示聚类的类别数,K的初始值为1,中心点PK-1的初始值为P0,P0=Q1,Q1表示第1个句向量,聚类集的初始值为{1,[Q1]};以及依次对剩下的QT进行聚类,计算当前句向量与每个聚类集的中心点的相似度,如果当前句向量与某个聚类集的中心点的相似度大于或等于预设值,则将当前句向量聚类到相应的聚类集中,保持K值不变,将相应的中心点更新为聚类集中所有句向量的向量平均值,相应的聚类集为{K,[句向量的向量平均值]};如果当前句向量与所有聚类集中的中心点的相似度均小于预设值,则令K=K+1,增加新的中心点,所述新的中心点的值为当前句向量,并增加新的聚类集{K,[当前句向量]};其中,所述聚类集为数据聚类集或答案聚类集。16.根据权利要求13至15中任一所述的方法,其特征在于,所述多个数据聚类集通过如下聚类方式获取:对所述待入库数据进行初步聚类以获取多个初步数据聚类集;以及在每个所述初步数据聚类集中以所述语义相似度计算的聚类方式进行二次聚类以获取多个所述数据聚类集;和/或所述多个答案聚类集通过如下聚类方式获取:对所述一个数据聚类集的答案集中的答案进行初步聚类以获取多个初步答案聚类集;以及在每个所述初步答案聚类集中以所述语义相似度计算的聚类方式进行二次聚类以获取多个所述答案聚类集。17.根据权利要求16所述的方法,其特征在于,所述初步聚类包括:基于所述待入库数据或所述答案中所包括的关键词进行聚类,或以所述语义相似度计算的聚类方式进行聚类。18.一种数据库维护装置,所述数据库包括多个标准问句和多个扩展问句集,其中每个所述标准问句对应一个所述扩展问句集,其特征在于,包括:标准分类模型,基于多个自然语言语...

【专利技术属性】
技术研发人员:李广增白杨张磊林涵朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1