信息处理设备以及信息处理方法技术

技术编号:10458653 阅读:113 留言:0更新日期:2014-09-24 14:33
信息处理设备以及信息处理方法,所述信息处理设备包括:通信单元,配置来从网络获取具有多个第一字符串的第一字符串集合;处理单元,配置来对所述第一字符串集合进行数据扩展以形成第二字符串集合,所述第一字符串集合中的每一个第一字符串与所述第二字符串集合中的至少一个第二字符串对应,对所述第二字符串集合中的每一个第二字符串进行字音标准化处理,并且基于所述字音标准化处理的结果产生索引数据,其中在语音输入检索中,所述索引数据用来查找所述第二字符串集合中是否存在与所述语音输入对应的第二字符串;以及存储单元,配置来存储所述第一字符串集合、所述第二字符串集合以及所述索引数据。

【技术实现步骤摘要】

本专利技术涉及一种。
技术介绍
随着技术的发展,语音识别技术正在得到广泛的使用。但是,目前已经应用的通用 语音识别引擎的识别率通常在75%左右,距离人类96%以上的识别率还有很大的差距。此 夕卜,在语音识别引擎的数据库的内容过多的情况下,语音识别引擎的识别速度也往往不能 令人满意。 因此,希望提供一种能够提高语音输入的识别效率以及语音识别速度的技术。
技术实现思路
为了解决现有技术中的上述技术问题,根据本专利技术的一方面,提供一种信息处理 设备,包括:通信单元,配置来从网络获取具有多个第一字符串的第一字符串集合;处理单 元,配置来对所述第一字符串集合进行数据扩展以形成第二字符串集合,所述第一字符串 集合中的每一个第一字符串与所述第二字符串集合中的至少一个第二字符串对应,对所述 第二字符串集合中的每一个第二字符串进行字音标准化处理,并且基于所述字音标准化处 理的结果产生索引数据,其中在语音输入检索中,所述索引数据用来查找所述第二字符串 集合中是否存在与所述语音输入对应的第二字符串;以及存储单元,配置来存储所述第一 字符串集合、所述第二字符串集合以及所述索引数据。 此外,根据本专利技术的一个实施例,其中在所述处理单元进行所述数据扩展期间,所 述处理单元基于所述第一字符串的内容确定具有相关内容的至少一个第二字符串。 此外,根据本专利技术的一个实施例,其中在对第二字符串集合中的每一个第二字符 串进行字音标准化期间,所述处理单元将所述第二字符串集合中的每一个第二字符串中的 不发音字符排除以产生第三字符串;如果所述第三字符串中存在数字字符,则所述处理单 元将所述第三字符串中的数字字符标准化为同一类型的数字字符;以及所述处理单元基于 音素或拼音将所述第三字符串划分为多个音素字符或拼音字符,并且基于所述音素字符或 拼音字符产生索引数据。 此外,根据本专利技术的一个实施例,其中所述索引数据包括所述音素字符或所述拼 音字符与所述第二字符串集合中的第二字符的关联的信息。 此外,根据本专利技术的一个实施例,所述信息处理设备还包括输入数据存储单元,其 中在语音输入检索期间,所述处理单元将所述语音输入转换为第一输入字符串,并且对所 述第一输入字符串进行字音标准化处理以产生第二输入字符串作为输入数据,并且将所述 输入数据存储在所述输入数据存储单元。 此外,根据本专利技术的一个实施例,其中所述处理单元将基于第二输入字符串检索 所述索引数据来查找所述第二字符串集合中是否存在与所述语音输入对应的第二字符串。 此外,根据本专利技术的另一方面,提供一种信息处理方法,应用于信息处理设备,所 述信息处理设备包含通信单元以及存储单元,所述方法包括:通过所述通信单元从网络获 取具有多个第一字符串的第一字符串集合;对所述第一字符串集合进行数据扩展以形成第 二字符串集合,所述第一字符串集合中的每一个第一字符串与所述第二字符串集合中的至 少一个第二字符串对应,对所述第二字符串集合中的每一个第二字符串进行字音标准化处 理;基于所述字音标准化处理的结果产生索引数据,其中在语音输入检索中,所述索引数据 用来查找所述第二字符串集合中是否存在与所述语音输入对应的第二字符串;以及在所述 存储单元中存储所述第一字符串集合、所述第二字符串集合以及所述索引数据。 此外,根据本专利技术的一个实施例,其中在对所述第一字符串集合进行数据扩展的 步骤进一步包括:基于所述第一字符串的内容确定具有相关内容的至少一个第二字符串。 此外,根据本专利技术的一个实施例,其中在对第二字符串集合中的每一个第二字符 串进行字音标准化并基于所述字音标准化处理的结果产生索引数据的步骤进一步包括:将 所述第二字符串集合中的每一个第二字符串中的不发音字符排除以产生第三字符串;如果 所述第三字符串中存在数字字符,则将所述第三字符串中的数字字符标准化为同一类型的 数字字符;以及基于音素或拼音将所述第三字符串划分为多个音素字符或拼音字符,并且 基于所述音素字符或拼音字符产生索引数据。 此外,根据本专利技术的一个实施例,其中所述索引数据包括所述音素字符或所述拼 音字符与所述第二字符串集合中的第二字符串的关联的信息。 此外,根据本专利技术的一个实施例,所述方法进一步包括:在语音输入检索期间,将 所述语音输入转换为第一输入字符串,并且对所述第一输入字符串进行字音标准化处理以 产生第二输入字符串作为输入数据,并且存储所述输入数据。 此外,根据本专利技术的一个实施例,其中将基于第二输入字符串检索所述索引数据 来查找所述第二字符串集合中是否存在与所述语音输入对应的第二字符串。 通过上述方式,在获取第一字符串集合之后,对第一字符串集合中的第一字符串 进行扩展,并且基于扩展结果产生索引数据,这不仅可以通过扩展增加语音输入检索的准 确率/命中率,而且可以通过仅检索索引数据来降低数据处理量,因此大大提高了检索的 准确率以及速度,由此增加用户的使用体验。 【附图说明】 图1是图解根据本专利技术实施例的信息处理设备的示意方框图;以及 图2是图解根据本专利技术实施例的信息处理方法的示意流程图。 【具体实施方式】 将参照附图详细描述根据本专利技术的各个实施例。这里,需要注意的是,在附图中, 将相同的附图标记赋予基本上具有相同或类似结构和功能的组成部分,并且将省略关于它 们的重复描述。 下面将参照图1描述根据本专利技术实施例的信息处理设备。这里,根据本专利技术实施 例的信息处理设备可以是诸如智能手机、平板电脑、笔记本、PC之类的终端设备。 如图1所示,根据本专利技术实施例的信息处理设备1可以包括通信单元10、处理单元 11以及存储单元12。 通信单元10可以由任意的通信模块实现,并且可以包括(但不限于)WiFi、2G/3G 模块、网卡之类的通信模块。通信单元10可以从信息处理设备1所在的网络(如,局域网、 广域网)获取数据。根据本专利技术的实施例,通信单元10可以从网络获取具有多个第一字符 串的第一字符串集合。这里,例如,第一字符串集合可以是网络上的V0D视频数据的片名、 视频网站提供的视频的名称、或者网络上提供的小说的名称等等。这里,可以通过预定的程 序在信息处理设备1上提供第一字符串搜索范围的选项使得信息处理设备1的用户可以根 据情况设置其希望的第一字符串集合的范围。 处理单元11可以由任意的处理器或者微处理器实现。处理单元11可以基于安装 在信息处理设备1中的程序执行预设的处理。根据本专利技术的实施例,在从通信单元10接收 到第一字符串集合之后,处理单元11可以对该第一字符串集合进行数据扩展以形成第二 字符串集合。这里第一字符串集合中的每一个第一字符串与第二字符串集合中的至少一个 第二字符串对应。 具体地,在处理单元11进行数据扩展期间,处理单元11可以基于第一字符串集合 中的各个第一字符串的内容确定具有相关内容的至少一个第二字符串。这里,例如,处理单 元11可以基于第一字符串集合中的各个第一字符串的内容对第一字符串进行垂直扩展以 及水平扩展以产生对应于该第一字符串的至少一个第二字符串。 具体地,在第一字符串的末尾中包含数字(如,1,1,一)的情况下,处理单元11可 以基于第本文档来自技高网...

【技术保护点】
一种信息处理设备,包括:通信单元,配置来从网络获取具有多个第一字符串的第一字符串集合;处理单元,配置来对所述第一字符串集合进行数据扩展以形成第二字符串集合,所述第一字符串集合中的每一个第一字符串与所述第二字符串集合中的至少一个第二字符串对应,对所述第二字符串集合中的每一个第二字符串进行字音标准化处理,并且基于所述字音标准化处理的结果产生索引数据,其中在语音输入检索中,所述索引数据用来查找所述第二字符串集合中是否存在与所述语音输入对应的第二字符串;以及存储单元,配置来存储所述第一字符串集合、所述第二字符串集合以及所述索引数据。

【技术特征摘要】
1. 一种信息处理设备,包括: 通信单元,配置来从网络获取具有多个第一字符串的第一字符串集合; 处理单元,配置来对所述第一字符串集合进行数据扩展以形成第二字符串集合,所述 第一字符串集合中的每一个第一字符串与所述第二字符串集合中的至少一个第二字符串 对应,对所述第二字符串集合中的每一个第二字符串进行字音标准化处理,并且基于所述 字音标准化处理的结果产生索引数据,其中在语音输入检索中,所述索引数据用来查找所 述第二字符串集合中是否存在与所述语音输入对应的第二字符串;以及 存储单元,配置来存储所述第一字符串集合、所述第二字符串集合以及所述索引数据。2. 如权利要求1所述的信息处理设备,其中 在所述处理单元进行所述数据扩展期间,所述处理单元基于所述第一字符串的内容确 定具有相关内容的至少一个第二字符串。3. 如权利要求1所述的信息处理设备,其中在对第二字符串集合中的每一个第二字符 串进行字音标准化期间, 所述处理单元将所述第二字符串集合中的每一个第二字符串中的不发音字符排除以 产生第三字符串; 如果所述第三字符串中存在数字字符,则所述处理单元将所述第三字符串中的数字字 符标准化为同一类型的数字字符;以及 所述处理单元基于音素或拼音将所述第三字符串划分为多个音素字符或拼音字符,并 且基于所述音素字符或拼音字符产生索引数据。4. 如权利要求3所述的信息处理设备,其中 所述索引数据包括所述音素字符或所述拼音字符与所述第二字符串集合中的第二字 符的关联的信息。5. 如权利要求1所述的信息处理设备,还包括输入数据存储单元,其中在语音输入检 索期间,所述处理单元将所述语音输入转换为第一输入字符串,并且对所述第一输入字符 串进行字音标准化处理以产生第二输入字符串作为输入数据,并且将所述输入数据存储在 所述输入数据存储单元。6. 如权利要求5所述的信息处理设备,其中 所述处理单元将基于第二输入字符串检索所述索引数据来查找所述第二字符串集合 中是否存在与所述语音输入对应的第二字符串。7. -种信息...

【专利技术属性】
技术研发人员:于海涛赵一方
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1