一种基于爬虫技术和机器学习的语音自动问答方法及系统技术方案

技术编号：20916492 阅读：38 留言：0更新日期：2019-04-20 09:41

本发明专利技术公开了一种基于爬虫技术和机器学习的语音自动问答方法及系统，属于语音识别、机器学习和网络爬虫技术领域。本发明专利技术对获取的提问语音进行解析，得到问题关键字集合；基于提升树算法，对问题关键字集合进行过滤检索，再从过滤检索后的结果中得到最终答案集合；在最终答案集合中选择最终答案，并根据最终答案对过滤检索后的结果进行处理，处理后过滤检索后的结果，用于下一次选择，对应方法还有相应的系统，系统包括语音识别模块、处理模块和选择处理模块。本发明专利技术用于语音自动问答。

A Method and System of Speech Question Answering Based on Crawler Technology and Machine Learning

The invention discloses an automatic voice question answering method and system based on crawler technology and machine learning, which belongs to the field of speech recognition, machine learning and network crawler technology. The invention parses the acquired question voice and obtains the set of question keywords; filters and retrieves the set of question keywords based on lifting tree algorithm, and then obtains the final answer set from the filtered search results; chooses the final answer set in the final answer set, and processes the filtered search results according to the final answer, and filters the retrieved results after processing. For the next selection, the corresponding method also has the corresponding system, which includes speech recognition module, processing module and selection processing module. The invention is used for voice automatic question and answer.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于爬虫技术和机器学习的语音自动问答方法及系统
一种基于爬虫技术和机器学习的语音自动问答方法及系统，用于语音自动问答，属于语音识别、机器学习和网络爬虫

技术介绍
微软语音识别模块(MicrosoftSpeechSDK)：MicrosoftSpeechSDK是微软提供的软件开发包，提供的SpeechAPI(SAPI)主要包含两大方面：1.APIforText-to-Speech2.APIforSpeechRecognition其中APlforText-to-Speech，就是微软TTS引擎的接口，通过它我们可以很容易地建立功能强大的文本语音程序，金山词霸的单词朗读功能就用到了这写APl，而目前几乎所有的文本朗读工具都是用这个SDK开发的。至于APIforSpeechRecognition就是与TTS相对应的语音识别，语音技术是一种令人振奋的技术，但由于目前语音识别技术准确度和识别速度不太理想，还未达到广泛应用的要求。斯坦福依存句法分析(StanfordCcreNLP)：Stanfordparser是由斯坦福大学自然语言处理小组开发的开源句法分析器，是基...

【技术保护点】
1.一种基于语音识别和机器学习的智能应答方法，其特征在于，如下步骤：步骤1、对获取的提问语音进行解析，得到问题关键字集合；步骤2、基于提升树算法，对问题关键字集合进行过滤检索，再从过滤检索后的结果中得到最终答案集合；步骤3、在最终答案集合中选择最终答案，并根据最终答案对过滤检索后的结果进行处理，处理后替换步骤2中过滤检索后的结果，用于下一次选择。

【技术特征摘要】
1.一种基于语音识别和机器学习的智能应答方法，其特征在于，如下步骤：步骤1、对获取的提问语音进行解析，得到问题关键字集合；步骤2、基于提升树算法，对问题关键字集合进行过滤检索，再从过滤检索后的结果中得到最终答案集合；步骤3、在最终答案集合中选择最终答案，并根据最终答案对过滤检索后的结果进行处理，处理后替换步骤2中过滤检索后的结果，用于下一次选择。2.根据权利要求1所述的一种基于语音识别和机器学习的智能应答方法，其特征在于，所述步骤1的具体步骤为：步骤1.1、对提问语音进行识别，得到问题；步骤1.2、使用斯坦福依存句法分析对问题进行分解，得到关键字集合。3.根据权利要求1或2所述的一种基于语音识别和机器学习的智能应答方法，其特征在于，所述步骤2的具体步骤为：步骤2.1、基于语法库对关键字集合中的关键字进行过滤解析，排除主语和语气助词，得到模板问题；步骤2.2、对模板问题中的各关键字进行解读延伸；步骤2.3、在题库中搜索解读延伸后的模板问题的答案，得到现有基础答案和答案对应的权值，得到的现有基础答案和答案对应的权值为一棵现有提升树；步骤2.4、采用网络爬虫的方式在互联网对延伸后的模板问题进行检索，得到互联网基础答案和答案对应的权值，根据得到的结果和提升树算法，建立提升树；步骤2.5、合并步骤2.3和步骤2.4的提升树得到新的提升树，从新提升树中选择权值排名前N位的基础答案，得到最终答案集合。4.根据权利要求3所述的一种基于语音识别和机器学习的智能应答方法，其特征在于，所述步骤3的具体步骤为：步骤3.1、用户在最终答案集合中选择最终答案；步骤3.2、记录最终答案，增加问题所对应的新的提升树中该答案的权值后，同时修剪增加权值后的新的提升树，去掉部分权值过低的答案，去掉权值过低的答案后替...

【专利技术属性】
技术研发人员：王月超，彭剑，陈灏，
申请(专利权)人：四川新网银行股份有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人