一种基于同义词扩充的客服聊天机器人本体半自动构建的方法技术

技术编号:20588932 阅读:17 留言:0更新日期:2019-03-16 07:10
本发明专利技术公开了一种基于同义词扩充的客服聊天机器人本体半自动构建的方法,包括下列步骤:数据选取和预处理;体概念类的构建;基于商户的知识体系,通过本体构建工具人工构建相应的本体概念类以及相应的概念关系;设置爬虫工具获取实例的标准表达,完成本体实例的爬取,最后通过优质人工客服历史对话记录,将客服聊天机器人工作过程中客户可能使用的实例非标准表达加入本体库,从而完善本体库对领域知识的覆盖。本发明专利技术针对客服聊天机器人领域知识的特点,使用了结合词相关本体相似度的同义词扩充算法构建了一套半自动本体构建方法,能够有限减轻客服聊天机器人领域本体构建的成本和时间。

【技术实现步骤摘要】
一种基于同义词扩充的客服聊天机器人本体半自动构建的方法
本专利技术属于知识工程领域,具体涉及种基于同义词扩充的客服聊天机器人本体半自动构建的方法。
技术介绍
客服聊天机器人在工作过程中需要处理的问题涉及大量的商品、服务信息,这些信息通常会是客服所负责的某一领域的知识。限定在商家涉及的商务领域内,并且其中的个体相似度较高,一般具有相同的属性,并且属性值通常在一个限定的范围,可以针对性的构建一个相应的本体库来系统的、形式化地描述这些领域知识。目前为止本体工程仍处发展阶段,构建过程中还存在着很多问题。常用的构建方法根据构建过程中人工参与的程度分为手工构建本体,半自动构建本体和自动构建本体三类。其中使用手工方法构建本体,效率低、时间久,而且需要大量专业人员的参与。而全自动本体构建的方法还不成熟,无法构建合格的本体。而各个领域的半自动构建方法不尽相同,需要根据实际情况制定构建策略。在实际的应用中,常常会遇到客户提出的领域内问题不能正确的匹配到本体库中知识的情况,这种情况常常由以下两个原因造成的,包括客户输入不规范和存在实例的未记录别名。
技术实现思路
本专利技术的专利技术目的在于:针对上述存在的问题,提供一种基于同义词扩充的客服聊天机器人本体半自动构建的方法,针对客服聊天机器人领域知识的特点,通过使用词相关本体相似度进行同义词扩充的方法增加构建的本体对领域知识的覆盖范围。本专利技术的基于同义词扩充的客服聊天机器人本体半自动构建的方法,包括下列步骤:S1.数据选取和预处理:S11.提取使用客服聊天机器人的商户网站的骨架结构:根据商户网站所开展的业务及其商品列表对商户的知识体系进行信息骨架提取,获取骨架结构;S12.根据提取到的商户网站的骨架结构对商户网站中的商品和/或业务的具体信息进行提取保存,将其作为本体实例的构建素材;S13.选择商户的优质人工客服历史对话记录,即从商户的人工客服历史对话记录中筛选满足预设条件的人工客服历史对话记录作为优质人工客服历史对话记录,例如通过商户记录的服务质量评分等因素从商户的记录中选取合适的人工服务对话记录,作为之后本体实例扩充的素材;S14.优质人工客服历史对话记录的预处理;通过去除冗余对话、合并同一发言和发言顺序修正三步,将历史对话记录处理为合适的形式,之后对历史对话记录进行分词,并建立包含历史对话记录中所有词的词典W;然后再训练含有语义信息的词向量;S2.本体概念类的构建;使用S11步骤获得的商户的知识体系,通过本体构建工具人工构建相应的本体概念类以及相应的概念关系;S21.确定概念范围;根据商户网站以及步骤S13获得的优质人工客服历史对话记录中所涉及的知识确定本体所涉及的知识领域;S22.提取本体层次结构;基于商户网站结构和商户网页的前端内容,设置本体概念类的结构层次;S23.确定概念类和概念关系;基于商户网站、商户网页信息分布规则和组织形式,以及优质人工客服历史记录中对相应信息的问答,获取概念类和概念间关系;S24.构建概念类;根据S21、S22和S23步骤的结果,将确定的本体概念加入本体库,例如将其定义为问答库(QA库);S3.本体实例的爬取;通过S2步骤构建的本体概念,设置爬虫工具获取实例的标准表达:S31.选择抓取页面;对商户网站概念类下网页的源码中标题类标签文本进行分析,并使用概念以及属性进行匹配,若标签文本中包含属性的某一种表达方法,则将该链接保留,并记录属性、概念类和该种属性表达方法;S32.爬取页面内容;根据获取到的链接所在网站的组织形式针对性地设置爬虫工具,通过所述爬虫工具取出对应区块的内容,根据定义的概念和概念间的关系,将抽取的内容组合成“实例-实例属性-属性值”的三元组;S33.构建实例;使用步骤S32获得的三元组,将实例及其属性添加入本体库中;S4.本体实例的扩充;通过优质人工客服历史对话记录,将客服聊天机器人工作过程中客户可能使用的实例非标准表达加入本体库,从而完善本体库对领域知识的覆盖,对单个实例c的多轮扩充步骤如下:S41.选出可能的实例同义表达:查询本体库,将实例c已有的同义词构成同义词集C,计算词典W中每个词w与同义词集C的语义相似度SCw;将语义相似度SCw进行排序,根据实际情况选择相似度最高的1到n个词作为可能同义表达集X;S42.判断实例同义表达,使用词相关本体相似度对X中的每一个词x进行是否增加到同义词集C的判断处理:查询本体库,获取实例c的同义词构成同义词集C,计算词典W中每个词w与同义词集C的语义相似度SCw;对将语义相似度SCw进行排序,选择前n个相似度最高词作为可能同义表达集X,其中n≥1;S42.使用词相关本体相似度对表达集X中的每一个词x进行是否增加到同义词集C的判断处理:从本体库中提取词x和词集C的相关本体图Gx和GC;并使用图同构算法对相关本体图Gx和GC进行判断,若完全一致(图同构),或者其中一图被另一图所包含(子图同构),则将两者的词相关本体相似度SGx设为1;否则基于编码分解方式计算图Gx和GC的相似度SGx;判断相似度SGx是否大于预设相似度阈值,若是,则x加入同义词集C;否则执行步骤S43,所述相似度阈值小于1;其中,基于编码分解方式计算图Gx和GC的相似度SGx具体为:S42-1:获取相关本体图Gx和GC的更新后的编码序列和Lnew:对相关本体图的节点进行编码,得到每个节点的标签编码;对相关本体图进行分解处理,分解得到多个子树结构S1,S2,...,Sk,用k表示子树结构数量;对每个子树结构,对每个子树结构的根节点及其邻接节点的标签编码进行hash运算,生成每个子树结构的根节点的新标签编码其中i=1,…,k;基于所有子树结构的根节点的新标签编码得到相关本体图的更新后的编码序列;S42-2:根据公式计算两者的相似度SGx,其中Lnew对应相关本体图GC,对应相关本体图Gx;S43.迭代判断:若经过步骤S42后同义词集C有新词加入且未超过迭代最大轮数,返回步骤S41,若没有新词加入或者超过迭代最大轮数,扩充结束,进行步骤S44;S44.在当前本体中添加实例的同义表达:完成扩充后,再将获得的实例同义表达加入本体库。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:本专利技术针对客服聊天机器人领域知识的特点,使用了结合词相关本体相似度的同义词扩充算法构建了一套半自动本体构建方法,能够有限减轻客服聊天机器人领域本体构建的成本和时间。附图说明图1为客服领域本体构建流程示意图;图2为人工客服历史记录预处理示例图;图3为实例爬取流程示意图;图4为词相关本体图子树分解及编码示例图;图5为实例扩充算法流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本专利技术作进一步地详细描述。本专利技术针对客服聊天机器人领域知识的特点,通过使用词相关本体相似度进行同义词扩充的方法增加构建的本体对领域知识的覆盖范围,参见图1,其具体实现步骤如下:S1.数据选取和预处理。本步骤输入:所需要的商户信息,如商户网站内容、商户商品信息以及商户的人工客服在工作过程中产生的历史对话记录等等。本步骤输出:商户知识体系、信息骨架,商户商品、服务信息以及进行处理后的人工客服历史对话记录。S11.提取使用客服聊天机器人的商户网站的骨架结本文档来自技高网...

【技术保护点】
1.一种基于同义词扩充的客服聊天机器人本体半自动构建的方法,其特征在于,包括下列步骤:S1.数据选取和预处理:S11.提取使用客服聊天机器人的商户网站的骨架结构;S12.根据提取到的商户网站的骨架结构对商户网站中的商品和/或业务的具体信息进行提取保存,将其作为本体实例的构建素材;S13.从商户的人工客服历史对话记录中筛选满足预设条件的人工客服历史对话记录作为优质人工客服历史对话记录;S14.对优质人工客服历史对话记录进行预处理,包括去除冗余对话、合并同一发言和发言顺序修正;对预处理后的优质人工客服历史对话记录进行分词处理,并建立包含优质人工客服历史对话记录所有词的词典W;再对词典W中的每个词训练含有语义信息的词向量;S2.本体概念类的构建:S21.确定概念范围;根据商户网站以及步骤S13获得的优质人工客服历史对话记录中所涉及的知识确定本体所涉及的知识领域;S22.提取本体层次结构;基于商户网站的骨架结构和商户网页的前端内容,设置本体概念类的结构层次;S23.确定概念类和概念关系;基于商户网站、商户网页信息分布规则和组织形式,以及优质人工客服历史记录中对相应信息的问答,获取概念类和概念间关系;S24.构建概念类;根据步骤S21、S22和S23的处理结果,将确定的本体概念加入本体库;S3.本体实例的爬取,基于步骤S2构建的本体概念,设置爬虫工具获取实例的标准表达:S31.选择抓取页面;基于商户网站概念类下网页的源码中的标题类标签文本,使用概念以及属性进行匹配,若标签文本中包含属性的某一种表达方法,则将该链接保留,并记录属性、概念类和该种属性表达方法;S32.爬取页面内容:根据获取到的链接所在网站的组织形式设置爬虫工具,通过所述爬虫工具取出对应区块的内容,根据定义的概念类和概念间的关系,将抽取的内容组合成“实例‑实例属性‑属性值”的三元组;S33.构建实例;基于步骤S32获得的三元组,将实例及其属性添加入本体库中;S4.本体实例的扩充:S41.选出可能的实例同义表达:查询本体库,获取实例c的同义词构成同义词集C,计算词典W中每个词w与同义词集C的语义相似度SCw;对将语义相似度SCw进行排序,选择前n个相似度最高词作为可能同义表达集X,其中n≥1;S42.使用词相关本体相似度对表达集X中的每一个词x进行是否增加到同义词集C的判断处理:从本体库中提取词x和词集C的相关本体图Gx和GC;并使用图同构算法对相关本体图Gx和GC进行判断,若图同构或子图同构,则将两者的词相关本体相似度SGx设为1;否则基于编码分解方式计算图Gx和GC的相似度SGx;判断相似度SGx是否大于预设相似度阈值,若是,则x加入同义词集C;否则执行步骤S43,所述相似度阈值小于1;其中,基于编码分解方式计算图Gx和GC的相似度SGx具体为:S42‑1:获取相关本体图Gx和GC的更新后的编码序列...

【技术特征摘要】
1.一种基于同义词扩充的客服聊天机器人本体半自动构建的方法,其特征在于,包括下列步骤:S1.数据选取和预处理:S11.提取使用客服聊天机器人的商户网站的骨架结构;S12.根据提取到的商户网站的骨架结构对商户网站中的商品和/或业务的具体信息进行提取保存,将其作为本体实例的构建素材;S13.从商户的人工客服历史对话记录中筛选满足预设条件的人工客服历史对话记录作为优质人工客服历史对话记录;S14.对优质人工客服历史对话记录进行预处理,包括去除冗余对话、合并同一发言和发言顺序修正;对预处理后的优质人工客服历史对话记录进行分词处理,并建立包含优质人工客服历史对话记录所有词的词典W;再对词典W中的每个词训练含有语义信息的词向量;S2.本体概念类的构建:S21.确定概念范围;根据商户网站以及步骤S13获得的优质人工客服历史对话记录中所涉及的知识确定本体所涉及的知识领域;S22.提取本体层次结构;基于商户网站的骨架结构和商户网页的前端内容,设置本体概念类的结构层次;S23.确定概念类和概念关系;基于商户网站、商户网页信息分布规则和组织形式,以及优质人工客服历史记录中对相应信息的问答,获取概念类和概念间关系;S24.构建概念类;根据步骤S21、S22和S23的处理结果,将确定的本体概念加入本体库;S3.本体实例的爬取,基于步骤S2构建的本体概念,设置爬虫工具获取实例的标准表达:S31.选择抓取页面;基于商户网站概念类下网页的源码中的标题类标签文本,使用概念以及属性进行匹配,若标签文本中包含属性的某一种表达方法,则将该链接保留,并记录属性、概念类和该种属性表达方法;S32.爬取页面内容:根据获取到的链接所在网站的组织形式设置爬虫工具,通过所述爬虫工具取出对应区块的内容,根据定义的概念类和概念间的关系,将抽取的内容组合成“...

【专利技术属性】
技术研发人员:罗光春秦科朱大勇段贵多田星
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1