一种人机交互过程中的语言纠错方法及系统技术方案

技术编号:14886780 阅读:131 留言:0更新日期:2017-03-25 20:01
本发明专利技术公开了一种人机交互过程中的语言纠错方法及系统,其利用互联网信息进行获取语料,利用该语料进行构建语料库,对所述语料库中的语料进行分词处理得到分词数据,根据所述分词数据进行计算各个词之间的关联度,并根据所述分词数据中每个词出现的频率进行计算每个词的热度,然后根据所述分词数据进行训练语言模型,并将所述关联度和所述热度作为所述语言模型的模型参数;获取用户的输入数据时,对所述输入数据进行分词处理得到该输入数据对应的分词数据,利用所述语言模型对所述输入数据对应的分词数据按照所述关联度和所述热度进行排序,最后对排序后的分词数据进行合并及输出结果数据;能够较好的解决因输入法等原因造成的同音字错误的问题。

【技术实现步骤摘要】

本专利技术涉及通信
,特别是一种人机交互过程中的语言纠错方法及其应用该方法的系统。
技术介绍
随着互联网及电子商务、人工智能的普及应用,自动客服、聊天机器人等智能产品也越来越多。智能客服是在大规模知识处理基础上发展起来的一项面向行业应用的,例如大规模知识处理技术、自然语言理解技术、知识管理技术、自动问答系统、推理技术等等,具有行业通用性,不仅为企业提供了细粒度知识管理技术,还为企业与海量用户之间的沟通建立了一种基于自然语言的快捷有效的技术手段;同时还能够为企业提供精细化管理所需的统计分析信息。智能客服的工作方法为首先提取、识别用户提出的问题,然后将用户提出的问题转化为机器可识别的语言,再从预先部署的知识库中提取与用户问题相对应的数据,反馈给用户。现有技术的智能客服主要存在以下问题:由于输入法问题或者个人输入习惯、操作失误、网络新鲜词汇等因素,会导致智能客服所遇到的问题中经常出现无法理解的词语,从而导致智能客服无法作出及时、正确的反应。尤其是采用拼音输入法问题造成的同音字错误较为普遍,目前市面上使用拼音输入法的人占到了90%以上,所以同音字错误占到了总体错误率的半数以上。
技术实现思路
本专利技术为解决上述问题,提供了一种人机交互过程中的语言纠错方法及系统,能够较好的解决因输入法等原因造成的同音字错误的问题。为实现上述目的,本专利技术采用的技术方案为:一种人机交互过程中的语言纠错方法,其包括以下步骤:10)利用互联网信息进行获取语料,并利用该语料进行构建语料库;20)对所述语料库中的语料进行分词处理得到分词数据;30)根据所述分词数据进行计算各个词之间的关联度;40)根据所述分词数据中每个词出现的频率进行计算每个词的热度;50)根据所述分词数据进行训练语言模型,并将所述关联度和所述热度作为所述语言模型的模型参数;60)获取用户的输入数据,并对所述输入数据进行分词处理得到该输入数据对应的分词数据;70)利用所述语言模型对所述输入数据对应的分词数据按照所述关联度和所述热度进行排序,并对排序后的分词数据进行合并及输出结果数据。优选的,所述分词处理,是利用jieba分词工具对所述语料库中的语料以及对所述用户的输入数据进行分词处理。优选的,所述语言模型,是采用Bigram语言模型。优选的,所述的步骤70)中,所述分词数据的排序,进一步包括以下步骤:71)确定首词:将备选首词之后的备选相邻后词中热度最高的备选相邻后词作为第一参考后词,计算所述备选首词与所述第一参考后词之间的关联度,取关联度最高的备选首词作为结果首词;72)确定中间词:将备选中间词之后的备选相邻后词中热度最高的备选相邻后词作为第二参考后词,计算所述备选中间词与所述结果首词之间的关联度,并计算所述备选中间词与所述第二参考后词之间的关联度,取两个关联度均最高的备选中间词作为结果中间词;73)确定末词:计算备选末词与所述结果中间词之间的关联度,并对比各个备选末词的热度,取关联度和热度均最高的备选末词作为结果末词。另外,本专利技术还提供一种人机交互过程中的语言纠错系统,其包括:语料获取模块,其利用互联网信息进行获取语料,并利用该语料进行构建语料库;分词模块,用于对所述语料库中的语料进行分词处理得到分词数据;句子粒度纠错模块,其根据所述分词数据进行计算各个词之间的关联度;词粒度纠错模块,其根据所述分词数据中每个词出现的频率进行计算每个词的热度;模型训练模块,其根据所述分词数据进行训练语言模型,并将所述关联度和所述热度作为所述语言模型的模型参数;结果合成模块,其利用所述语言模型对分词数据进行重新排序与合并,得到结果数据;获取用户的输入数据时,所述分词模块对所述输入数据进行分词处理得到该输入数据对应的分词数据,所述结果合成模块利用所述语言模型将所述输入数据对应的分词数据按照所述关联度和所述热度进行排序,并对排序后的分词数据进行合并及输出结果数据。优选的,所述分词模块是利用jieba分词工具对所述语料库中的语料以及对所述用户的输入数据进行分词处理。优选的,所述模型训练模块是根据所述分词数据进行训练Bigram语言模型。优选的,所述结果合成模块进一步包括:首词确定单元:将备选首词之后的备选相邻后词中热度最高的备选相邻后词作为第一参考后词,计算所述备选首词与所述第一参考后词之间的关联度,取关联度最高的备选首词作为结果首词;中间词确定单元:将备选中间词之后的备选相邻后词中热度最高的备选相邻后词作为第二参考后词,计算所述备选中间词与所述结果首词之间的关联度,并计算所述备选中间词与所述第二参考后词之间的关联度,取两个关联度均最高的备选中间词作为结果中间词;末词确定单元:计算备选末词与所述结果中间词之间的关联度,并对比各个备选末词的热度,取关联度和热度均最高的备选末词作为结果末词。本专利技术的有益效果是:(1)本专利技术的语言纠错方法,通过对语料库中的语料进行分词处理构建语言模型,并将每个词的热度以及各个词之间的关联度作为该语言模型的模型参数,使用时,将用户的输入数据按照同样的方法进行分词处理得到对应的分词数据,并利用训练好的语言模型对该分词数据进行排序和合并,得到结果数据;能够根据用户的输入数据快速做出响应和纠错,并提供可靠的结果数据;应用在本专利技术的智能客服时,访客问题即为用户的输入数据,若访客问题是错误的,则很难得到智能客服的正确回复,因此,采用本专利技术的纠错方法能够提高访客问题的识别效率、回复效率,用户体验更好;(2)本专利技术对所述分词数据进行排序时,不仅考虑每个词的热度以及歌歌词之间的关联度,还进一步考虑每个词的前词及后词之间的关系,能够提高纠错的效率以及准确性。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术一种人机交互过程中的语言纠错方法的流程简图;图2为本专利技术一种人机交互过程中的语言纠错系统的结构示意图。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,本专利技术的一种人机交互过程中的语言纠错方法,其包括以下步骤:10)利用互联网信息进行获取语料,并利用该语料进行构建语料库;20)对所述语料库中的语料进行分词处理得到分词数据;30)根据所述分词数据进行计算各个词之间的关联度;40)根据所述分词数据中每个词出现的频率进行计算每个词的热度;50)根据所述分词数据进行训练语言模型,并将所述关联度和所述热度作为所述语言模型的模型参数;60)获取用户的输入数据,并对所述输入数据进行分词处理得到该输入数据对应的分词数据;70)利用所述语言模型对所述输入数据对应的分词数据按照所述关联度和所述热度进行排序,并对排序后的分词数据进行合并及输出结果数据。所述分词处理,是利用jieba分词工具对所述语料库中的语料以及对所述用户的输入数据进行分词处理。分词方法示例如下:输入数据为:科学技术是第一生产力;分词后得到的分词数据为:科学,技术,是,第一,生产力;输入数据为:科学发展是第一生产力;分词后得到的分词数据为:科学,发展,是,本文档来自技高网...
一种人机交互过程中的语言纠错方法及系统

【技术保护点】
一种人机交互过程中的语言纠错方法,其特征在于,包括以下步骤:10)利用互联网信息进行获取语料,并利用该语料进行构建语料库;20)对所述语料库中的语料进行分词处理得到分词数据;30)根据所述分词数据进行计算各个词之间的关联度;40)根据所述分词数据中每个词出现的频率进行计算每个词的热度;50)根据所述分词数据进行训练语言模型,并将所述关联度和所述热度作为所述语言模型的模型参数;60)获取用户的输入数据,并对所述输入数据进行分词处理得到该输入数据对应的分词数据;70)利用所述语言模型对所述输入数据对应的分词数据按照所述关联度和所述热度进行排序,并对排序后的分词数据进行合并及输出结果数据。

【技术特征摘要】
1.一种人机交互过程中的语言纠错方法,其特征在于,包括以下步骤:10)利用互联网信息进行获取语料,并利用该语料进行构建语料库;20)对所述语料库中的语料进行分词处理得到分词数据;30)根据所述分词数据进行计算各个词之间的关联度;40)根据所述分词数据中每个词出现的频率进行计算每个词的热度;50)根据所述分词数据进行训练语言模型,并将所述关联度和所述热度作为所述语言模型的模型参数;60)获取用户的输入数据,并对所述输入数据进行分词处理得到该输入数据对应的分词数据;70)利用所述语言模型对所述输入数据对应的分词数据按照所述关联度和所述热度进行排序,并对排序后的分词数据进行合并及输出结果数据。2.根据权利要求1所述的一种人机交互过程中的语言纠错方法,其特征在于:所述分词处理,是利用jieba分词工具对所述语料库中的语料以及对所述用户的输入数据进行分词处理。3.根据权利要求1所述的一种人机交互过程中的语言纠错方法,其特征在于:所述语言模型,是采用Bigram语言模型。4.根据权利要求1所述的一种人机交互过程中的语言纠错方法,其特征在于:所述的步骤70)中,所述分词数据的排序,进一步包括以下步骤:71)确定首词:将备选首词之后的备选相邻后词中热度最高的备选相邻后词作为第一参考后词,计算所述备选首词与所述第一参考后词之间的关联度,取关联度最高的备选首词作为结果首词;72)确定中间词:将备选中间词之后的备选相邻后词中热度最高的备选相邻后词作为第二参考后词,计算所述备选中间词与所述结果首词之间的关联度,并计算所述备选中间词与所述第二参考后词之间的关联度,取两个关联度均最高的备选中间词作为结果中间词;73)确定末词:计算备选末词与所述结果中间词之间的关联度,并对比各个备选末词的热度,取关联度和热度均最高的备选末词作为结果末词。5.一种人机交互过程中的语言纠错系统,其特征在于,包括:语料...

【专利技术属性】
技术研发人员:刘楚李稀敏蔡振华刘晓葳肖龙源朱敬华王宇
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1