当前位置: 首页 > 专利查询>陈包容专利>正文

一种会话场景数据库的创建方法及装置制造方法及图纸

技术编号:15329597 阅读:75 留言:0更新日期:2017-05-16 13:14
本发明专利技术公开了一种会话场景数据库的创建方法及装置,该方法通过预先设定至少一个场景信息项;建立与场景信息项对应的初始数据库;获取与初始会话对语义关联的初始数据库作为初始会话对的关联数据库;在关联数据库中创建以关联数据库对应的场景信息项为会话主题且与初始会话对中的会话发起句对应的关联答复句,并将会话发起句以及关联答复句作为初始会话对的关联会话对;将场景信息项对应的初始数据库中的初始会话对,以及以初始数据库作为关联数据库时在其中创建的关联会话对,作为场景信息项的场景数据库;将场景信息项对应的场景数据库的集合作为会话场景数据库,解决了匹配精度和匹配效率不高的技术问题,增加了匹配多样性,提升了用户体验。

Method and device for creating session scene database

The invention discloses a method and apparatus for creating conversational scene database, this method is set in advance at least one scene information; the establishment of the initial database corresponding to the scene information; and obtaining the initial session of the initial semantic relation database as a relational database on the initial session; to create a relational database corresponding to the scene information items for a session with the initial session of the theme and the session initiation sentence corresponding association a sentence in the associated database, and will initiate a conversation sentence and associated answer sentence as association session on the initial session of the initial session; the initial database information corresponding to the scene, as well as the initial database as in relational database the association created a session on the scene, as the information of the scene database; the scene information corresponding to the scene database As a session scenario database, the set of matches solves the technical problem of low matching accuracy and low matching efficiency, increases the diversity of matches and improves the user experience.

【技术实现步骤摘要】
一种会话场景数据库的创建方法及装置
本专利技术涉及通讯
,具体涉及一种会话场景数据库的创建方法及装置。
技术介绍
目前,不管是智能聊天机器人系统提供的智能聊天回复内容、还是移动通讯终端提供给通讯双方用于选择或智能回复的聊天回复内容,大多是通过数据库匹配的方式获取,例如针对会话发起句“一起去旅游吗?”,其回答可通过匹配与“旅游”话题对应的数据库获得与之对应的回复结果(例如“好呀,我喜欢旅游。”),然而,针对同一个会话发起句(例如“一起去旅游吗?”)在现实生活中往往需要有不同的回复结果(例如“天气不好,下次再去,怎么样?”、“我比较喜欢宅在家,不喜欢旅游。”、“最近工作太忙了,抽不出时间去旅游。”等等)。针对该问题,尽管可以通过在不同的数据库中针对该会话发起句均设置会话答复句,例如针对上述会话发起句,便可以分别在关于天气、兴趣爱好、时间等数据库中设置会话答复句,或者在同一个数据库中针对该会话发起句设置多个会话答复句来解决。但是依然存在以下问题:1、通过在不同的数据库中针对同一个会话发起句均设置会话答复句,势必会增大数据库创建的复杂度和工作量,从而影响数据匹配的效率;2、匹配没有针对性,从而导致匹配精度低;3、通过在同一个数据库中针对同一个会话发起句设置多个会话答复句容易导致设置的会话答复句不完备,从而影响匹配的精度。
技术实现思路
本专利技术提供了一种会话场景数据库的创建方法及装置,以解决采用现有的会话场景数据库匹配与会话发起句对应的回复结果出现的匹配效率和匹配精度不高的技术问题。根据本专利技术的一方面,提供了一种会话场景数据库的创建方法,包括:预先设定至少一个场景信息项;建立与场景信息项对应的初始数据库,初始数据库包括至少一个以场景信息项为会话主题的初始会话对,初始会话对以二元句对的形式进行保存;获取与初始会话对语义关联的初始数据库作为初始会话对的关联数据库;在关联数据库中创建以关联数据库对应的场景信息项为会话主题且与初始会话对中的会话发起句对应的关联答复句,并将会话发起句以及关联答复句作为初始会话对的关联会话对;将场景信息项对应的初始数据库中的初始会话对,以及以初始数据库作为关联数据库时在其中创建的关联会话对,作为场景信息项的场景数据库;将场景信息项对应的场景数据库的集合作为会话场景数据库。进一步地,获取与初始会话对语义关联的初始数据库,作为初始会话对的关联数据库包括:选取预先设定的与初始会话对语义关联度大于预设关联阈值的场景信息项对应的初始数据库作为初始会话对的关联数据库。进一步地,获取与初始会话对语义关联的初始数据库,作为初始会话对的关联数据库包括:采集初始会话对所属的初始数据库中的所有初始会话对作为样本会话对;计算样本会话对中的样本会话发起句或样本会话答复句与除初始会话对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始会话对对应的场景信息项的关联场景信息项;将与初始会话对对应的场景信息项的关联场景信息项对应的初始数据库作为初始会话对的关联数据库。进一步地,计算样本会话对中的样本会话发起句或样本会话答复句与除初始会话对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始会话对对应的场景信息项的关联场景信息项包括:对样本会话对中的样本会话发起句或样本会话答复句进行预处理,获得分词文本,预处理包括分词、语义消歧、词性标注;计算分词文本对应的词向量与除初始会话对对应的场景信息项外的其他场景信息项对应的词向量之间的相似度;选取相似度大于预设相似度阈值的场景信息项作为与初始会话对对应的场景信息项的关联场景信息项。进一步地,选取相似度大于预设相似度阈值的场景信息项作为与初始会话对对应的场景信息项的关联场景信息项之后还包括:根据分词文本对应的词向量与除初始会话对对应的场景信息项外的其他场景信息项对应的词向量之间的相似度,创建分词文本与场景信息项之间的关联映射关系表,并保存关联映射关系表。进一步地,场景信息项包括:姓名、性别、年龄、即时通讯账号、电子邮箱地址、家庭地址、职业类别、职务、工作单位、单位地址、银行账号、好友印象、兴趣爱好、朋友圈状态、心情、最近关注话题、当前通讯状态、时间、节日、季节、地理位置信息、距离、标记添加的备注信息、通讯频率、通讯次数、通讯时长、发起历史通讯的选择方式,其中,选择方式包括从通讯录发起通讯方式、从历史通话记录发起通讯方式、从短信通讯模块发起通讯方式以及从拨号盘发起通讯方式。根据本专利技术的另一方面,提供了一种会话场景数据库的创建装置,包括:预设装置,用于预先设定至少一个场景信息项;初始数据库创建装置,用于建立与场景信息项对应的初始数据库,初始数据库包括至少一个以场景信息项为会话主题的初始会话对,初始会话对以二元句对的形式进行保存;关联数据库获取装置,用于获取与初始会话对语义关联的初始数据库作为初始会话对的关联数据库;关联答复句创建装置,用于在关联数据库中创建以关联数据库对应的场景信息项为会话主题且与初始会话对中的会话发起句对应的关联答复句,并将会话发起句以及关联答复句作为初始会话对的关联会话对;场景数据库获取装置,用于将场景信息项对应的初始数据库中的初始会话对,以及以初始数据库作为关联数据库时在其中创建的关联会话对作为场景信息项的场景数据库;会话场景数据库获取装置,用于将场景信息项对应的场景数据库的集合作为会话场景数据库。进一步地,关联数据库获取装置包括:关联数据库选取装置,用于选取预先设定的与初始会话对语义关联度大于预设关联阈值的场景信息项对应的初始数据库作为初始会话对的关联数据库。进一步地,关联数据库获取装置包括:样本会话对采集装置,用于采集初始会话对所属的初始数据库中的所有初始会话对作为样本会话对;关联场景信息项获取装置,用于计算样本会话对中的样本会话发起句或样本会话答复句与除初始会话对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始会话对对应的场景信息项的关联场景信息项;对应装置,用于将与初始会话对对应的场景信息项的关联场景信息项对应的初始数据库作为初始会话对的关联数据库。进一步地,关联场景信息项获取装置包括:预处理装置,用于对样本会话对中的样本会话发起句或样本会话答复句进行预处理,获得分词文本,预处理包括分词、语义消歧、词性标注;相似度计算装置,用于计算分词文本对应的词向量与除初始会话对对应的场景信息项外的其他场景信息项对应的词向量之间的相似度;相似度选取装置,用于选取相似度大于预设相似度阈值的场景信息项作为与初始会话对对应的场景信息项的关联场景信息项。本专利技术具有以下有益效果:本专利技术提供了一种会话场景数据库的创建方法及装置,该方法通过获取与初始数据库中的初始会话对语义关联的关联数据库,并在获得的关联数据库中均建立与关联数据库对应的场景信息项为会话主题且与初始会话对中的会话发起句对应的关联答复句,解决了采用现有的会话场景数据库匹配与会话发起句对应的回复结果出现的匹配效率和匹配精度不高的技术问题,通过在初始会话对的关联数据库中设置初始会话对的关联会话对,增加了匹配与初始会话对中的会话发起句对应的回复结果的多样性,使得匹配获得的回复结果更丰富,符合实际需要,增强用户体验,且通过仅在与初始会话对语义关联的初始数据库中建立关联会话对,减小了会话场本文档来自技高网...
一种会话场景数据库的创建方法及装置

【技术保护点】
一种会话场景数据库的创建方法,其特征在于,包括:预先设定至少一个场景信息项;建立与所述场景信息项对应的初始数据库,所述初始数据库包括至少一个以所述场景信息项为会话主题的初始会话对,所述初始会话对以二元句对的形式进行保存;获取与所述初始会话对语义关联的初始数据库作为所述初始会话对的关联数据库;在所述关联数据库中创建以所述关联数据库对应的场景信息项为会话主题且与所述初始会话对中的会话发起句对应的关联答复句,并将所述会话发起句以及所述关联答复句作为所述初始会话对的关联会话对;将所述场景信息项对应的初始数据库中的初始会话对,以及以所述初始数据库作为关联数据库时在其中创建的所述关联会话对,作为所述场景信息项的场景数据库;将所述场景信息项对应的场景数据库的集合作为会话场景数据库。

【技术特征摘要】
1.一种会话场景数据库的创建方法,其特征在于,包括:预先设定至少一个场景信息项;建立与所述场景信息项对应的初始数据库,所述初始数据库包括至少一个以所述场景信息项为会话主题的初始会话对,所述初始会话对以二元句对的形式进行保存;获取与所述初始会话对语义关联的初始数据库作为所述初始会话对的关联数据库;在所述关联数据库中创建以所述关联数据库对应的场景信息项为会话主题且与所述初始会话对中的会话发起句对应的关联答复句,并将所述会话发起句以及所述关联答复句作为所述初始会话对的关联会话对;将所述场景信息项对应的初始数据库中的初始会话对,以及以所述初始数据库作为关联数据库时在其中创建的所述关联会话对,作为所述场景信息项的场景数据库;将所述场景信息项对应的场景数据库的集合作为会话场景数据库。2.根据权利要求1所述的会话场景数据库的创建方法,其特征在于,获取与所述初始会话对语义关联的初始数据库,作为所述初始会话对的关联数据库包括:选取预先设定的与所述初始会话对语义关联度大于预设关联阈值的所述场景信息项对应的初始数据库作为所述初始会话对的关联数据库。3.根据权利要求1所述的会话场景数据库的创建方法,其特征在于,获取与所述初始会话对语义关联的初始数据库,作为所述初始会话对的关联数据库包括:采集所述初始会话对所属的初始数据库中的所有初始会话对作为样本会话对;计算所述样本会话对中的样本会话发起句或样本会话答复句与除所述初始会话对对应的场景信息项外的其他所述场景信息项之间的相似度,获得与所述初始会话对对应的场景信息项的关联场景信息项;将与所述初始会话对对应的场景信息项的关联场景信息项对应的初始数据库作为所述初始会话对的关联数据库。4.根据权利要求3所述的会话场景数据库的创建方法,其特征在于,计算所述样本会话对中的样本会话发起句或样本会话答复句与除所述初始会话对对应的场景信息项外的其他所述场景信息项之间的相似度,获得与所述初始会话对对应的场景信息项的关联场景信息项包括:对所述样本会话对中的样本会话发起句或样本会话答复句进行预处理,获得分词文本,所述预处理包括分词、语义消歧、词性标注;计算所述分词文本对应的词向量与除所述初始会话对对应的场景信息项外的其他所述场景信息项对应的词向量之间的相似度;选取所述相似度大于预设相似度阈值的场景信息项作为与所述初始会话对对应的场景信息项的关联场景信息项。5.根据权利要求4所述的会话场景数据库的创建方法,其特征在于,选取所述相似度大于预设相似度阈值的场景信息项作为与所述初始会话对对应的场景信息项的关联场景信息项之后还包括:根据所述分词文本对应的词向量与除所述初始会话对对应的场景信息项外的其他所述场景信息项对应的词向量之间的相似度,创建所述分词文本与所述场景信息项之间的关联映射关系表,并保存所述关联映射关系表。6.根据权利要求1-5任一所述的会话场景数据库的创建方法,其特征在于,所述场景信息...

【专利技术属性】
技术研发人员:陈包容
申请(专利权)人:陈包容
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1