一种基于同义词扩充的客服聊天机器人本体半自动构建的方法技术

技术编号：20588932 阅读：17 留言：0更新日期：2019-03-16 07:10

本发明专利技术公开了一种基于同义词扩充的客服聊天机器人本体半自动构建的方法，包括下列步骤：数据选取和预处理；体概念类的构建；基于商户的知识体系，通过本体构建工具人工构建相应的本体概念类以及相应的概念关系；设置爬虫工具获取实例的标准表达，完成本体实例的爬取，最后通过优质人工客服历史对话记录，将客服聊天机器人工作过程中客户可能使用的实例非标准表达加入本体库，从而完善本体库对领域知识的覆盖。本发明专利技术针对客服聊天机器人领域知识的特点，使用了结合词相关本体相似度的同义词扩充算法构建了一套半自动本体构建方法，能够有限减轻客服聊天机器人领域本体构建的成本和时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于同义词扩充的客服聊天机器人本体半自动构建的方法
本专利技术属于知识工程领域，具体涉及种基于同义词扩充的客服聊天机器人本体半自动构建的方法。
技术介绍
客服聊天机器人在工作过程中需要处理的问题涉及大量的商品、服务信息，这些信息通常会是客服所负责的某一领域的知识。限定在商家涉及的商务领域内，并且其中的个体相似度较高，一般具有相同的属性，并且属性值通常在一个限定的范围，可以针对性的构建一个相应的本体库来系统的、形式化地描述这些领域知识。目前为止本体工程仍处发展阶段，构建过程中还存在着很多问题。常用的构建方法根据构建过程中人工参与的程度分为手工构建本体，半自动构建本体和自动构建本体三类。其中使用手工方法构建本体，效率低、时间久，而且需要大量专业人员的参与。而全自动本体构建的方法还不成熟，无法构建合格的本体。而各个领域的半自动构建方法不尽相同，需要根据实际情况制定构建策略。在实际的应用中，常常会遇到客户提出的领域内问题不能正确的匹配到本体库中知识的情况，这种情况常常由以下两个原因造成的，包括客户输入不规范和存在实例的未记录别名。
技术实现思路
本专利技术的专利技术目的在于：针对上述存在的问题，提供一种基于同义词扩充的客服聊天机器人本体半自动构建的方法，针对客服聊天机器人领域知识的特点，通过使用词相关本体相似度进行同义词扩充的方法增加构建的本体对领域知识的覆盖范围。本专利技术的基于同义词扩充的客服聊天机器人本体半自动构建的方法，包括下列步骤：S1.数据选取和预处理：S11.提取使用客服聊天机器人的商户网站的骨架结构：根据商户网站所开展的业务及其商品列表对商户的知识...

【技术保护点】
1.一种基于同义词扩充的客服聊天机器人本体半自动构建的方法，其特征在于，包括下列步骤：S1.数据选取和预处理：S11.提取使用客服聊天机器人的商户网站的骨架结构；S12.根据提取到的商户网站的骨架结构对商户网站中的商品和/或业务的具体信息进行提取保存，将其作为本体实例的构建素材；S13.从商户的人工客服历史对话记录中筛选满足预设条件的人工客服历史对话记录作为优质人工客服历史对话记录；S14.对优质人工客服历史对话记录进行预处理，包括去除冗余对话、合并同一发言和发言顺序修正；对预处理后的优质人工客服历史对话记录进行分词处理，并建立包含优质人工客服历史对话记录所有词的词典W；再对词典W中的每个词训练含有语义信息的词向量；S2.本体概念类的构建：S21.确定概念范围；根据商户网站以及步骤S13获得的优质人工客服历史对话记录中所涉及的知识确定本体所涉及的知识领域；S22.提取本体层次结构；基于商户网站的骨架结构和商户网页的前端内容，设置本体概念类的结构层次；S23.确定概念类和概念关系；基于商户网站、商户网页信息分布规则和组织形式，以及优质人工客服历史记录中对相应信息的问答，获取概念类和概念间...

【技术特征摘要】
1.一种基于同义词扩充的客服聊天机器人本体半自动构建的方法，其特征在于，包括下列步骤：S1.数据选取和预处理：S11.提取使用客服聊天机器人的商户网站的骨架结构；S12.根据提取到的商户网站的骨架结构对商户网站中的商品和/或业务的具体信息进行提取保存，将其作为本体实例的构建素材；S13.从商户的人工客服历史对话记录中筛选满足预设条件的人工客服历史对话记录作为优质人工客服历史对话记录；S14.对优质人工客服历史对话记录进行预处理，包括去除冗余对话、合并同一发言和发言顺序修正；对预处理后的优质人工客服历史对话记录进行分词处理，并建立包含优质人工客服历史对话记录所有词的词典W；再对词典W中的每个词训练含有语义信息的词向量；S2.本体概念类的构建：S21.确定概念范围；根据商户网站以及步骤S13获得的优质人工客服历史对话记录中所涉及的知识确定本体所涉及的知识领域；S22.提取本体层次结构；基于商户网站的骨架结构和商户网页的前端内容，设置本体概念类的结构层次；S23.确定概念类和概念关系；基于商户网站、商户网页信息分布规则和组织形式，以及优质人工客服历史记录中对相应信息的问答，获取概念类和概念间关系；S24.构建概念类；根据步骤S21、S22和S23的处理结果，将确定的本体概念加入本体库；S3.本体实例的爬取，基于步骤S2构建的本体概念，设置爬虫工具获取实例的标准表达：S31.选择抓取页面；基于商户网站概念类下网页的源码中的标题类标签文本，使用概念以及属性进行匹配，若标签文本中包含属性的某一种表达方法，则将该链接保留，并记录属性、概念类和该种属性表达方法；S32.爬取页面内容：根据获取到的链接所在网站的组织形式设置爬虫工具，通过所述爬虫工具取出对应区块的内容，根据定义的概念类和概念间的关系，将抽取的内容组合成“...

【专利技术属性】
技术研发人员：罗光春，秦科，朱大勇，段贵多，田星，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人