基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统技术方案

技术编号:23471744 阅读:31 留言:0更新日期:2020-03-06 13:24
基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统,步骤为:将文件通过IKAnalyzer进行分词解析形成索引文件,并把索引文件进行存储;通过hdfs把文件进行分片存储到hadoop服务器,同时把索引文件和hdfs分片存储的文件进行关联对应,以便通过关键字检索文件;3)移动端输入查询关键字语音,通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。本发明专利技术解决了电网现场作业人员手动查询作业规范所带来的不便,语音输入就能快速、方便的检索出所需的文件,同时降低了文件丢失的风险解决了手动备份文件的麻烦。

File storage and retrieval method and system based on speech recognition, ikanalyzer word segmentation and HDFS

【技术实现步骤摘要】
基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统
本专利技术属于文件存储和文件检索
,具体涉及一种基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统。
技术介绍
随着电网的发展的速度越来越快,现场工作量也越来越大,而且存在各专业交叉作业。为了减少安全事故,电网有很多相应的作业制度和作业规范。现象作业人员在现场作业过程成不可避免会出现忘记相应规范和流程的情况。目前现场工作人员想查询相应的作业规范和流程只能通过纸质的文档或者在现场手动的查询,而且为了规范现场作业人员操作避免安全事故发生,相应的制度和作业规范越来越多,文件的存储、备份和检索也越来越麻烦。另外,传统的文件存储方式对硬件要求高、检索速度慢,现场作业人员通过纸质文档或者现场手动查询相应的作业规范效率低,操作不方便,影响现场作业效率。
技术实现思路
本专利技术针对上述现有技术的不足,提供了一种基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统。本专利技术是通过如下技术方案来实现的。基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法,步骤如下:1)将文件通过IKAnalyzer进行分词解析形成索引文件,并把索引文件进行存储;2)通过hdfs把文件进行分片存储到hadoop服务器,同时把索引文件和hdfs分片存储的文件进行关联对应,以便通过关键字检索文件;3)移动端输入查询关键字语音,通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索的方法的系统,由语音识别模块、IKAnalyzer分词模块、hdfs文件存储模块、文件全文检索模块组成;其中,语音识别模块包含前端处理、特征提取、模型训练和解码四个模块;输入的语音数据流经过前端处理;经过前端处理之后的得到的分段语音数据送入特征提取模块,进行声学特征提取;最后解码模块对提取的特征数据进行解码;IKAnalyzer分词模块分为加载词典、预处理、子分词器处理后续处理;IKAnalyzer分词模块把文件内容进行分词,形成文件对应的分词索引表;移动端语音识别到查询关键字后,通过分词索引表找到符合条件的文件把结果返回;hdfs文件存储模块把文件进行分片并通过分布式集群来存储和备份,具体为:hdfs文件存储模块把文件分成若干block,文件的block存放在若干Datanode节点上,同时hdfs文件存储模块会把每个block进行备份存储;当通过分词索引表找到对应的文件,hdfs客户端向NameNode发起读取文件的RPC请求,确定请求文件block所在的位置;NameNode会返回文件的部分或者全部block列表,然后根据相应的算法对block列表进行排序;hdfs客户端选取排序靠前的DataNode来读取block;最后所有读取来的block会合并成一个完整的最终文件。较佳地,本专利技术的系统在解码过程中利用发音字典、声学模型、语言模型信息构建WFST搜索空间,在搜索空间内寻找匹配概率最大的最优路径,得到最优的识别结果。有益效果:本专利技术通过IKAnalyzer中文分词对文件进行分词、语音识别查询关键字、hdfs对文件进行分片存储和hdfs文件分片备份等技术的整合,实现了基于语音识别、IKAnalyzer分词、hdfs存储的文件存储和检索的方案,通过该方案的实现解决了电网现场作业人员手动查询作业规范所带来的不便,语音输入就能快速、方便的检索出所需的文件,同时降低了文件丢失的风险解决了手动备份文件的麻烦。附图说明图1为本专利技术的结构图;图2为本专利技术语音识别流程图;图3为本专利技术分词解析流程图;图4为本专利技术Hdfs存储文件流程图;图5为本专利技术Hdfs读取文件流程图。具体实施方式如图1-5所示,基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法,步骤如下:1)将文件通过IKAnalyzer进行分词解析形成索引文件,并把索引文件进行存储;2)通过hdfs把文件进行分片存储到hadoop服务器,同时把索引文件和hdfs分片存储的文件进行关联对应,以便通过关键字检索文件;3)移动端输入查询关键字语音,通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索的方法的系统,由语音识别模块、IKAnalyzer分词模块、hdfs文件存储模块、文件全文检索模块组成;其中,语音识别模块包含前端处理、特征提取、模型训练和解码四个模块;输入的语音数据流经过前端处理;经过前端处理之后的得到的分段语音数据送入特征提取模块,进行声学特征提取;最后解码模块对提取的特征数据进行解码;在解码过程中利用发音字典、声学模型、语言模型信息构建WFST搜索空间,在搜索空间内寻找匹配概率最大的最优路径,得到最优的识别结果;IKAnalyzer分词模块分为加载词典、预处理、子分词器处理后续处理;IKAnalyzer分词模块把文件内容进行分词,形成文件对应的分词索引表;移动端语音识别到查询关键字后,通过分词索引表找到符合条件的文件把结果返回;hdfs文件存储模块把文件进行分片并通过分布式集群来存储和备份,具体为:hdfs文件存储模块把文件分成若干block,文件的block存放在若干Datanode节点上,同时hdfs文件存储模块会把每个block进行备份存储;当通过分词索引表找到对应的文件,hdfs客户端向NameNode发起读取文件的RPC请求,确定请求文件block所在的位置;NameNode会返回文件的部分或者全部block列表,然后根据相应的算法对block列表进行排序;hdfs客户端选取排序靠前的DataNode来读取block;最后所有读取来的block会合并成一个完整的最终文件。以上所揭露的为本专利技术的优选实施例,不能以此来限定本专利技术之权利范围,因此依本专利技术申请专利范围所作的等同变化,仍属本专利技术所涵盖的范围。本文档来自技高网...

【技术保护点】
1.基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法,其特征在于,步骤如下:/n1)将文件通过IKAnalyzer进行分词解析形成索引文件,并把索引文件进行存储;/n2)通过hdfs把文件进行分片存储到hadoop服务器,同时把索引文件和hdfs分片存储的文件进行关联对应,以便通过关键字检索文件;/n3)移动端输入查询关键字语音,通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。/n

【技术特征摘要】
1.基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法,其特征在于,步骤如下:
1)将文件通过IKAnalyzer进行分词解析形成索引文件,并把索引文件进行存储;
2)通过hdfs把文件进行分片存储到hadoop服务器,同时把索引文件和hdfs分片存储的文件进行关联对应,以便通过关键字检索文件;
3)移动端输入查询关键字语音,通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。


2.使用权利要求1所述方法的系统,其特征在于,由语音识别模块、IKAnalyzer分词模块、hdfs文件存储模块、文件全文检索模块组成;其中,
语音识别模块包含前端处理、特征提取、模型训练和解码四个模块;输入的语音数据流经过前端处理;经过前端处理之后的得到的分段语音数据送入特征提取模块,进行声学特征提取;最后解码模块对提取的特征数据进行解码;
IKAnalyzer分词模块分为加载词典、预处理、子分词器处理后续处理;IKAn...

【专利技术属性】
技术研发人员:赵从阳姜虹云李俊峰张自勤杨华左世交李枝念
申请(专利权)人:云南电网有限责任公司德宏供电局
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1