一种人机交互过程中的语言纠错方法及系统技术方案

技术编号：14886780 阅读：131 留言：0更新日期：2017-03-25 20:01

本发明专利技术公开了一种人机交互过程中的语言纠错方法及系统，其利用互联网信息进行获取语料，利用该语料进行构建语料库，对所述语料库中的语料进行分词处理得到分词数据，根据所述分词数据进行计算各个词之间的关联度，并根据所述分词数据中每个词出现的频率进行计算每个词的热度，然后根据所述分词数据进行训练语言模型，并将所述关联度和所述热度作为所述语言模型的模型参数；获取用户的输入数据时，对所述输入数据进行分词处理得到该输入数据对应的分词数据，利用所述语言模型对所述输入数据对应的分词数据按照所述关联度和所述热度进行排序，最后对排序后的分词数据进行合并及输出结果数据；能够较好的解决因输入法等原因造成的同音字错误的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及通信
，特别是一种人机交互过程中的语言纠错方法及其应用该方法的系统。
技术介绍
随着互联网及电子商务、人工智能的普及应用，自动客服、聊天机器人等智能产品也越来越多。智能客服是在大规模知识处理基础上发展起来的一项面向行业应用的，例如大规模知识处理技术、自然语言理解技术、知识管理技术、自动问答系统、推理技术等等，具有行业通用性，不仅为企业提供了细粒度知识管理技术，还为企业与海量用户之间的沟通建立了一种基于自然语言的快捷有效的技术手段；同时还能够为企业提供精细化管理所需的统计分析信息。智能客服的工作方法为首先提取、识别用户提出的问题，然后将用户提出的问题转化为机器可识别的语言，再从预先部署的知识库中提取与用户问题相对应的数据，反馈给用户。现有技术的智能客服主要存在以下问题：由于输入法问题或者个人输入习惯、操作失误、网络新鲜词汇等因素，会导致智能客服所遇到的问题中经常出现无法理解的词语，从而导致智能客服无法作出及时、正确的反应。尤其是采用拼音输入法问题造成的同音字错误较为普遍，目前市面上使用拼音输入法的人占到了90％以上，所以同音字错误占到了总体错误率的半数以上。
技术实现思路
本专利技术为解决上述问题，提供了一种人机交互过程中的语言纠错方法及系统，能够较好的解决因输入法等原因造成的同音字错误的问题。为实现上述目的，本专利技术采用的技术方案为：一种人机交互过程中的语言纠错方法，其包括以下步骤：10)利用互联网信息进行获取语料，并利用该语料进行构建语料库；20)对所述语料库中的语料进行分词处理得到分词数据；30)根据所述分词数据进行计算各个词之间的...
一种人机交互过程中的语言纠错方法及系统

【技术保护点】
一种人机交互过程中的语言纠错方法，其特征在于，包括以下步骤：10)利用互联网信息进行获取语料，并利用该语料进行构建语料库；20)对所述语料库中的语料进行分词处理得到分词数据；30)根据所述分词数据进行计算各个词之间的关联度；40)根据所述分词数据中每个词出现的频率进行计算每个词的热度；50)根据所述分词数据进行训练语言模型，并将所述关联度和所述热度作为所述语言模型的模型参数；60)获取用户的输入数据，并对所述输入数据进行分词处理得到该输入数据对应的分词数据；70)利用所述语言模型对所述输入数据对应的分词数据按照所述关联度和所述热度进行排序，并对排序后的分词数据进行合并及输出结果数据。

【技术特征摘要】
1.一种人机交互过程中的语言纠错方法，其特征在于，包括以下步骤：10)利用互联网信息进行获取语料，并利用该语料进行构建语料库；20)对所述语料库中的语料进行分词处理得到分词数据；30)根据所述分词数据进行计算各个词之间的关联度；40)根据所述分词数据中每个词出现的频率进行计算每个词的热度；50)根据所述分词数据进行训练语言模型，并将所述关联度和所述热度作为所述语言模型的模型参数；60)获取用户的输入数据，并对所述输入数据进行分词处理得到该输入数据对应的分词数据；70)利用所述语言模型对所述输入数据对应的分词数据按照所述关联度和所述热度进行排序，并对排序后的分词数据进行合并及输出结果数据。2.根据权利要求1所述的一种人机交互过程中的语言纠错方法，其特征在于：所述分词处理，是利用jieba分词工具对所述语料库中的语料以及对所述用户的输入数据进行分词处理。3.根据权利要求1所述的一种人机交互过程中的语言纠错方法，其特征在于：所述语言模型，是采用Bigram语言模型。4.根据权利要求1所述的一种人机交互过程中的语言纠错方法，其特征在于：所述的步骤70)中，所述分词数据的排序，进一步包括以下步骤：71)确定首词：将备选首词之后的备选相邻后词中热度最高的备选相邻后词作为第一参考后词，计算所述备选首词与所述第一参考后词之间的关联度，取关联度最高的备选首词作为结果首词；72)确定中间词：将备选中间词之后的备选相邻后词中热度最高的备选相邻后词作为第二参考后词，计算所述备选中间词与所述结果首词之间的关联度，并计算所述备选中间词与所述第二参考后词之间的关联度，取两个关联度均最高的备选中间词作为结果中间词；73)确定末词：计算备选末词与所述结果中间词之间的关联度，并对比各个备选末词的热度，取关联度和热度均最高的备选末词作为结果末词。5.一种人机交互过程中的语言纠错系统，其特征在于，包括：语料...

【专利技术属性】
技术研发人员：刘楚，李稀敏，蔡振华，刘晓葳，肖龙源，朱敬华，王宇，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人