一种数据录入方法、系统及数据库技术方案

技术编号:15355680 阅读:68 留言:0更新日期:2017-05-17 14:02
一种数据录入方法、系统及数据库,所述录入方法包括:对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算,其中,所述数据库包括知识点,所述特征语句用于标识所述待录入语句;若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值,则根据所述待录入语句生成新的知识点录入所述数据库。所述录入方法、系统可以提升录入效率。

【技术实现步骤摘要】

本专利技术涉及信息
,尤其涉及一种数据录入方法、系统及数据库
技术介绍
随着信息技术的发展,信息汇集与处理在各个领域的应用越来越广泛,信息的汇集和处理通常基于数据库进行。如何建立和维护数据库,或换言之,如何高效的对数据库进行数据录入,成为亟待解决的问题。但是,现有的数据库录入方法的效率较低。
技术实现思路
本专利技术解决的技术问题是提升录入方法的录入效率。为解决上述技术问题,本专利技术实施例提供一种数据录入方法,包括:对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算,其中,所述数据库包括知识点,所述特征语句用于标识所述待录入语句;若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值,则根据所述待录入语句生成新的知识点录入所述数据库。可选的,若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度大于预设的相似度阈值,则生成提醒信息以对录入数据的用户进行提醒。可选的,所述知识点包括标准问和扩展问;所述数据录入方法还包括:若所述待录入语句与所述数据库中的语句的语义相似度大于预设的相似度阈值,则将所述待录入语句中的特征语句作为数据库中与所述待录入语句的特征语句的语义相似度最高的标准问的扩展问。可选的,所述知识点包括特征语句和解释语句,所述待录入语句仅包括特征语句;根据所述待录入语句生成新的知识点录入所述数据库,包括:根据所述待录入语句的特征语句生成新的知识点的特征语句;录入所述新的知识点的特征语句至数据库;提醒录入数据的用户输入所述新的知识点的解释语句。可选的,所述知识点包括特征语句和解释语句,所述待录入语句包括特征语句和解释语句;根据所述待录入语句生成新的知识点录入所述数据库,包括:拆分所述待录入语句中的特征语句和解释语句,将所述待录入语句中的特征语句作为所述数据库中的新的知识点中的特征语句,将所述待录入语句中的解释语句作为所述数据库中的新的知识点中的解释语句。可选的,进行语义相似度计算之前还包括:提取所述待录入语句中的特征语句的关键词组,以得到待录入关键词组;提取所述数据库中的语句的关键词组,以得到已有关键词组;当所述已有关键词组中未包括所述待录入关键词组时,执行所述语义相似度计算。可选的,当所述已有关键词组中未包含所述待录入关键词组时,则生成提醒信息以对录入数据的用户进行提醒。可选的,通过爬虫爬取的数据生成所述待录入语句,或基于人工客服问答语句生成所述待录入语句。可选的,所述进行语义相似度计算包括:对所述待录入语句中的特征语句进行分词处理,以得到分词后的词语;根据对待录入语句中的特征语句的语义影响值,对所述分词后的词语进行筛选,以得到筛选后的词语;匹配所述筛选后的词语和所述知识点中的语义表达式,以得到所述语义相似度。可选的,根据对待录入语句的语义影响值对所述分词后的词语进行筛选包括:去除语气词以及助词。本专利技术实施例还包括一种数据录入系统,包括:语义相似度计算单元,适于对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算,其中,所述数据库包括知识点,所述特征语句用于标识所述待录入语句;新的知识点录入单元,适于若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值,则根据所述待录入语句生成新的知识点录入所述数据库。可选的,所述的数据录入系统还包括:第一提醒单元,适于若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度大于预设的相似度阈值,则生成提醒信息以对录入数据的用户进行提醒。可选的,所述知识点包括标准问和扩展问;所述数据录入系统还包括扩展问录入单元,适于若所述待录入语句与所述数据库中的语句的语义相似度大于预设的相似度阈值,则将所述待录入语句中的特征语句作为数据库中与所述待录入语句的特征语句的语义相似度最高的标准问的扩展问。可选的,所述知识点包括特征语句和解释语句,所述待录入语句仅包括特征语句;所述新的知识点录入单元,包括:新的知识点的特征语句生成子单元,适于根据所述待录入语句的特征语句生成新的知识点的特征语句;新的知识点的特征语句录入子单元,适于录入所述新的知识点的特征语句至数据库;解释语句提醒子单元,适于提醒录入数据的用户输入所述新的知识点的解释语句。可选的,所述知识点包括特征语句和解释语句,所述待录入语句包括特征语句和解释语句;所述新的知识点录入单元适于:拆分所述待录入语句中的特征语句和解释语句,将所述待录入语句中的特征语句作为所述数据库中的新的知识点中的特征语句,将所述待录入语句中的解释语句作为所述数据库中的新的知识点中的解释语句。可选的,所述数据录入系统还包括:待录入关键词组提取单元,适于进行语义相似度计算之前提取所述待录入语句中的特征语句的关键词组,以得到待录入关键词组;已有关键词组提取单元,适于提取所述数据库中的语句的关键词组,以得到已有关键词组;执行单元,适于当所述已有关键词组中未包括所述待录入关键词组时,执行所述语义相似度计算。可选的,所述的数据录入系统还包括:第二提醒单元,适于当所述已有关键词组中未包含所述待录入关键词组时,则生成提醒信息以对录入数据的用户进行提醒。可选的,通过爬虫爬取的数据生成所述待录入语句,或基于人工客服问答语句生成所述待录入语句。可选的,所述语义相似度计算单元包括:分词处理子单元,适于对所述待录入语句中的特征语句进行分词处理,以得到分词后的词语;筛选子单元,适于根据对待录入语句中的特征语句的语义影响值,对所述分词后的词语进行筛选,以得到筛选后的词语;匹配子单元,适于匹配所述筛选后的词语和所述知识点中的语义表达式,以得到所述语义相似度。可选的,所述筛选子单元适于去除语气词以及助词。本专利技术实施例还提供一种数据库,所述数据库包括知识点,且所述数据库中的知识点的至少一部分通过任一项所述的数据录入方法录入,所述数据库用于支持智能交互过程。与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:在本专利技术实施例中,对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算,由于特征语句用于标识待录入语句,故通过比较待录入语句和数据库中的语句的语义相似度,即可确定数据库中是否已包含与待录入语句对应的知识点。当待录入语句的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值时,表明数据库中未包含与待录入语句对应的知识点,此时根据待录入语句生成新的知识点录入数据库,可以对数据库进行完善,并且避免重复录入,进而可以数据库中知识点的重复。避免重复录入也可以提升数据录入方法的录入效率。进一步,若所述特征语句与所述数据库中的语句的语义相似度大于预设的相似度阈值,则说明数据库中可能包含与待录入语句对应的知识点,此时生成提醒信息对录入数据的用户进行提醒,可以为录入用户提供更加多样化的选择。在自然语言处理领域,自然人对语义的判断通常比程序化的判断更准确,故通过提醒录入数据的用户,由录入数据的用户基于提醒进行再次判断,录入用户可以选择继续录入待录入语句,或可以放弃录入待录入语句,故即可以避免知识点的重复录入,也可以避免知识点录入的遗漏。另外,由于在交互过程中,向用户返回的答句是依据数据库中的知识点生成的,若数据库中包含多个内容相似或重复的知识点,则本文档来自技高网...
一种数据录入方法、系统及数据库

【技术保护点】
一种数据录入方法,其特征在于,包括:对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算,其中,所述数据库包括知识点,所述特征语句用于标识所述待录入语句;若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值,则根据所述待录入语句生成新的知识点录入所述数据库。

【技术特征摘要】
1.一种数据录入方法,其特征在于,包括:对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算,其中,所述数据库包括知识点,所述特征语句用于标识所述待录入语句;若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值,则根据所述待录入语句生成新的知识点录入所述数据库。2.根据权利要求1所述的数据录入方法,其特征在于,还包括:若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度大于预设的相似度阈值,则生成提醒信息以对录入数据的用户进行提醒。3.根据权利要求1所述的数据录入方法,其特征在于,所述知识点包括标准问和扩展问;所述数据录入方法还包括:若所述待录入语句与所述数据库中的语句的语义相似度大于预设的相似度阈值,则将所述待录入语句中的特征语句作为数据库中与所述待录入语句的特征语句的语义相似度最高的标准问的扩展问。4.根据权利要求1所述的数据录入方法,其特征在于,所述知识点包括特征语句和解释语句,所述待录入语句仅包括特征语句;根据所述待录入语句生成新的知识点录入所述数据库,包括:根据所述待录入语句的特征语句生成新的知识点的特征语句;录入所述新的知识点的特征语句至数据库;提醒录入数据的用户输入所述新的知识点的解释语句。5.根据权利要求1所述的数据录入方法,其特征在于,所述知识点包括特征语句和解释语句,所述待录入语句包括特征语句和解释语句;根据所述待录入语句生成新的知识点录入所述数据库,包括:拆分所述待录入语句中的特征语句和解释语句,将所述待录入语句中的特征语句作为所述数据库中的新的知识点中的特征语句,将所述待录入语句中的解释语句作为所述数据库中的新的知识点中的解释语句。6.根据权利要求1所述的数据录入方法,其特征在于,进行语义相似度计算之前还包括:提取所述待录入语句中的特征语句的关键词组,以得到待录入关键词组;提取所述数据库中的语句的关键词组,以得到已有关键词组;当所述已有关键词组中未包括所述待录入关键词组时,执行所述语义相似度计算。7.根据权利要求6所述的数据录入方法,其特征在于,还包括当所述已有关键词组中未包含所述待录入关键词组时,则生成提醒信息以对录入数据的用户进行提醒。8.根据权利要求1所述的数据录入方法,其特征在于,通过爬虫爬取的数据生成所述待录入语句,或基于人工客服问答语句生成所述待录入语句。9.根据权利要求1所述的数据录入方法,其特征在于,所述进行语义相似度计算包括:对所述待录入语句中的特征语句进行分词处理,以得到分词后的词语;根据对待录入语句中的特征语句的语义影响值,对所述分词后的词语进行筛选,以得到筛选后的词语;匹配所述筛选后的词语和所述知识点中的语义表达式,以得到所述语义相似度。10.根据权利要求9所述的数据录入方法,其特征在于,根据对待录入语句的语义影响值对所述分词后的词语进行筛选包括:去除语气词以及助词。11.一种数据录入系统,其特征在于,包括:语义相似度计算单元,适于对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算,其中,所述数据库包括知识点,所述特征语句用于标识所述待录入语句;新的知识...

【专利技术属性】
技术研发人员:程新胡晟朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1