基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统技术方案

技术编号：23471744 阅读：31 留言：0更新日期：2020-03-06 13:24

基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统，步骤为：将文件通过IKAnalyzer进行分词解析形成索引文件，并把索引文件进行存储；通过hdfs把文件进行分片存储到hadoop服务器，同时把索引文件和hdfs分片存储的文件进行关联对应，以便通过关键字检索文件；3)移动端输入查询关键字语音，通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。本发明专利技术解决了电网现场作业人员手动查询作业规范所带来的不便，语音输入就能快速、方便的检索出所需的文件，同时降低了文件丢失的风险解决了手动备份文件的麻烦。

File storage and retrieval method and system based on speech recognition, ikanalyzer word segmentation and HDFS

全部详细技术资料下载

【技术实现步骤摘要】
基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统
本专利技术属于文件存储和文件检索
，具体涉及一种基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统。
技术介绍
随着电网的发展的速度越来越快，现场工作量也越来越大，而且存在各专业交叉作业。为了减少安全事故，电网有很多相应的作业制度和作业规范。现象作业人员在现场作业过程成不可避免会出现忘记相应规范和流程的情况。目前现场工作人员想查询相应的作业规范和流程只能通过纸质的文档或者在现场手动的查询，而且为了规范现场作业人员操作避免安全事故发生，相应的制度和作业规范越来越多，文件的存储、备份和检索也越来越麻烦。另外，传统的文件存储方式对硬件要求高、检索速度慢，现场作业人员通过纸质文档或者现场手动查询相应的作业规范效率低，操作不方便，影响现场作业效率。
技术实现思路
本专利技术针对上述现有技术的不足，提供了一种基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统。本专利技术是通过如下技术方案来实现的。基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法，步骤如下：1)将文件通过IKAnalyzer进行分词解析形成索引文件，并把索引文件进行存储；2)通过hdfs把文件进行分片存储到hadoop服务器，同时把索引文件和hdfs分片存储的文件进行关联对应，以便通过关键字检索文件；3)移动端输入查询关键字语音，通过语音识别把关键字...

【技术保护点】
1.基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法，其特征在于，步骤如下：/n1)将文件通过IKAnalyzer进行分词解析形成索引文件，并把索引文件进行存储；/n2)通过hdfs把文件进行分片存储到hadoop服务器，同时把索引文件和hdfs分片存储的文件进行关联对应，以便通过关键字检索文件；/n3)移动端输入查询关键字语音，通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。/n

【技术特征摘要】
1.基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法，其特征在于，步骤如下：
1)将文件通过IKAnalyzer进行分词解析形成索引文件，并把索引文件进行存储；
2)通过hdfs把文件进行分片存储到hadoop服务器，同时把索引文件和hdfs分片存储的文件进行关联对应，以便通过关键字检索文件；
3)移动端输入查询关键字语音，通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。

2.使用权利要求1所述方法的系统，其特征在于，由语音识别模块、IKAnalyzer分词模块、hdfs文件存储模块、文件全文检索模块组成；其中，
语音识别模块包含前端处理、特征提取、模型训练和解码四个模块；输入的语音数据流经过前端处理；经过前端处理之后的得到的分段语音数据送入特征提取模块，进行声学特征提取；最后解码模块对提取的特征数据进行解码；
IKAnalyzer分词模块分为加载词典、预处理、子分词器处理后续处理；IKAn...

【专利技术属性】
技术研发人员：赵从阳，姜虹云，李俊峰，张自勤，杨华，左世交，李枝念，
申请(专利权)人：云南电网有限责任公司德宏供电局，
类型：发明
国别省市：云南;53

全部详细技术资料下载我是这个专利的主人