信息匹配方法及装置制造方法及图纸

技术编号:20118085 阅读:22 留言:0更新日期:2019-01-16 12:07
本申请公开了一种信息匹配方法及装置。该方法包括:对待识别的数据进行中文分词处理,得到第一词汇集合;其中,该待识别的数据包括从语音数据中获取到的数据;将该第一词汇集合转换成拼音,得到第一拼音集合,该第一词汇集合中包括N组词汇,该第一拼音集合中包括N组拼音,该N为大于或等于1的整数;从目标信息库中查找该N组拼音对应的系统词汇,得到系统词汇集合,该目标信息库中包括系统词汇与拼音的对应关系;从该系统词汇集合中获取目标系统词汇,该目标系统词汇为与该待识别的数据匹配的系统词汇。相应的,还提供了对应的装置。采用本申请,可提高汽车系统命名实体的识别效率。

Information Matching Method and Device

This application discloses an information matching method and device. The method includes: processing the recognized data into Chinese word segmentation and obtaining the first vocabulary set; among them, the data to be recognized includes the data obtained from the voice data; converting the first vocabulary set into the first Pinyin set, which includes N groups of vocabulary, and the first Pinyin set contains N groups of pinyin, whose N is greater than or equal to 1. Integer; Find the system vocabulary corresponding to the N-group Pinyin from the target information base, and get the system vocabulary set. The target information base includes the corresponding relationship between the system vocabulary and pinyin; Get the target system vocabulary from the system vocabulary set, and the target system vocabulary is the system vocabulary matching the data to be recognized. Corresponding devices are also provided. This application can improve the recognition efficiency of named entity in automobile system.

【技术实现步骤摘要】
信息匹配方法及装置
本申请涉及车载
,尤其涉及一种信息匹配方法及装置。
技术介绍
随着计算机的普及以及互联网的飞速发展,网络已经成为生活中不可或缺的一部分,海量的信息通过电子文档的方式呈现在大众的视野中,为了应对信息爆炸带来的严峻挑战和机遇,迫切需要一些自动化的工具来实现对海量信息源的有效提取和分析。信息抽取、问题回答、信息过滤等的研究恰恰是在这种大背景下应运而生的,而命名实体识别技术则是这些研究中最重要的一环。目前对于通过语音进行交互搜索的系统中,在通过语音转输入信息的过程中由于使用者的口音及其他声音干扰,会使识别出的信息极度不标准,出现错别字及多音字等现象,如果通过关键词来识别,识别效果会很差,无法实现较好地模糊匹配。由此,如何进行汽车系统命名实体识别亟待解决。
技术实现思路
本申请提供一种信息匹配方法及装置,可有效提高汽车系统命名实体的识别准确率和效率。第一方面,本申请实施例提供了一种信息匹配方法,包括:对待识别的数据进行中文分词处理,得到第一词汇集合;其中,所述待识别的数据包括从语音数据中获取到的数据;将所述第一词汇集合转换成拼音,得到第一拼音集合;其中,所述第一词汇集合中包括N组词汇,所述第一拼音集合中包括N组拼音,所述N为大于或等于1的整数;从目标信息库中查找所述N组拼音对应的系统词汇,得到系统词汇集合;其中,所述系统词汇集合中包括M组系统词汇,所述M为大于或等于1的整数,且M小于或等于N,所述目标信息库中包括系统词汇与拼音的对应关系;从所述系统词汇集合中获取目标系统词汇,所述目标系统词汇为与所述待识别的数据匹配的系统词汇。本申请实施例中,在获取到待识别的数据之后,通过中文分词处理以及拼音转换处理后,得到该待识别的数据对应的N组拼音;然后从目标信息库中查找与该N组拼音对应的系统词汇,从而得到与该待识别的数据匹配的系统词汇。实施本申请实施例,通过中文分词处理以及拼音转换的方式,可有效避免在获取语音数据时,由于错别字或多音字等,而导致识别效果差的情况。由此有效提高了识别的准确率以及效率。在一种可能的实现方式中,所述从所述系统词汇集合中获取目标系统词汇,包括:获取所述M组系统词汇集合中每组系统词汇中包括的系统词汇,作为所述目标系统词汇。在一种可能的实现方式中,所述从所述系统词汇集合中获取目标系统词汇,包括:从所述M组系统词汇集合中获取出现次数大于或等于数量阈值的系统词汇作为所述目标系统词汇。本申请实施例中,在得到N组拼音中每组拼音对应的系统词汇后,通过获取系统词汇集合中出现次数大于数量阈值的系统词汇,从而可最大程度降低拼音识别词汇而造成的结果偏移问题,进一步提高了识别的准确率。在一种可能的实现方式中,所述从目标信息库中查找所述N组拼音对应的系统词汇,包括:根据所述N组拼音通过倒排索引的方法,从所述目标信息库中查找所述N组拼音对应的系统词汇。本申请实施例中,通过倒排索引的方法,从目标信息库中查找对应的系统词汇,可有效提高识别的速度,提高效率。在一种可能的实现方式中,所述方法还包括:获取系统词汇库,对所述系统词汇库进行中文分词处理,得到第二词汇集合;将所述第二词汇集合转换成拼音,得到第二拼音集合;其中,所述第二拼音中每组拼音对应一组或多组词汇;根据所述第二拼音集合和所述第二词汇集合建立对应关系,得到所述目标信息库。本申请实施例中,通过中文分词处理以及拼音转换,建立第二拼音集合和系统词汇的对应关系,可有效提高目标信息库的正确性,为信息匹配提供可靠的信息查找来源,从而提高信息匹配的效率。在一种可能的实现方式中,所述对待识别的数据进行中文分词处理,包括:根据所述第二词汇集合,对所述待识别的数据进行中文分词处理。本申请实施例中,在进行中文分词处理的情况下,可以使得一般的中文分词处理方法。也可以根据本申请实施例提供的第二词汇集合进行分词处理,从而提高中文分词处理的准确度及效率,进而进一步提高识别待识别的数据的效率,为识别系统词汇节省时间。在一种可能的实现方式中,所述系统词汇库包括与汽车相关的系统词汇库;所述对待识别的数据进行中文分词处理之前,所述方法还包括:获取与汽车相关的语音数据,根据所述语音数据得到所述待识别的数据。第二方面,本申请实施例提供了一种信息匹配装置,包括:中文分词处理单元,用于对待识别的数据进行中文分词处理,得到第一词汇集合;其中,所述待识别的数据包括从语音数据中获取到的数据;拼音转换单元,用于将所述第一词汇集合转换成拼音,得到第一拼音集合;其中,所述第一词汇集合中包括N组词汇,所述第一拼音集合中包括N组拼音,所述N为大于或等于1的整数;查找单元,用于从目标信息库中查找所述N组拼音对应的系统词汇,得到系统词汇集合;其中,所述系统词汇集合中包括M组系统词汇,所述M为大于或等于1的整数,且所述M小于或等于所述N;所述目标信息库中包括系统词汇与拼音的对应关系;第一获取单元,用于从所述系统词汇集合中获取目标系统词汇,所述目标系统词汇为与所述待识别的数据匹配的系统词汇。在一种可能的实现方式中,所述第一获取单元,具体用于获取所述M组系统词汇集合中每组系统词汇中包括的系统词汇,作为所述目标系统词汇。在一种可能的实现方式中,所述第一获取单元,具体用于从所述M组系统词汇集合中获取出现次数大于或等于数量阈值的系统词汇作为所述目标系统词汇。在一种可能的实现方式中,所述查找单元,具体用于根据所述N组拼音通过倒排索引的方法,从所述目标信息库中查找所述N组拼音对应的系统词汇。在一种可能的实现方式中,所述信息匹配装置还包括:第二获取单元,用于获取系统词汇库;所述中文分词处理单元,还用于对所述系统词汇库进行中文分词处理,得到第二词汇集合;所述拼音转换单元,还用于将所述第二词汇集合转换成拼音,得到第二拼音集合;其中,所述第二拼音中每组拼音对应一组或多组词汇;建立单元,用于根据所述第二拼音集合和所述第二词汇集合建立对应关系,得到所述目标信息库。在一种可能的实现方式中,所述中文分词处理单元,具体用于根据所述第二词汇集合,对所述待识别的数据进行中文分词处理。在一种可能的实现方式中,所述系统词汇库包括与汽车相关的系统词汇库;所述第一获取单元,具体用于获取与汽车相关的语音数据,根据所述语音数据得到所述待识别的数据。第三方面,本申请实施例还提供了一种信息匹配装置,包括:处理器和存储器;所述处理器与所述存储器通过线路互联,所述存储器中存储有程序指令;所述程序指令被所述处理器执行时,使所述处理器执行如第一方面所述的方法的相应功能。第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。第五方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。附图说明为了更清楚地说明本申请实施例或
技术介绍
中的技术方案,下面将对本申请实施例或
技术介绍
中所需要使用的附图进行说明。图1是本申请实施例提供的一种信息匹配方法的流程示意图;图2是本申请实施例提供的另一种信息匹配方法的流程示意图;图3是本申请实施例提供的一种信息匹配的场景示意图;图4是本申请实施例提供的一种信息匹配装置的结构示意图;图5是本申本文档来自技高网
...

【技术保护点】
1.一种信息匹配方法,其特征在于,包括:对待识别的数据进行中文分词处理,得到第一词汇集合;其中,所述待识别的数据包括从语音数据中获取到的数据;将所述第一词汇集合转换成拼音,得到第一拼音集合;其中,所述第一词汇集合中包括N组词汇,所述第一拼音集合中包括N组拼音,所述N为大于或等于1的整数;从目标信息库中查找所述N组拼音对应的系统词汇,得到系统词汇集合;其中,所述系统词汇集合中包括M组系统词汇,所述M为大于或等于1的整数,且所述M小于或等于所述N,所述目标信息库中包括系统词汇与拼音的对应关系;从所述系统词汇集合中获取目标系统词汇,所述目标系统词汇为与所述待识别的数据匹配的系统词汇。

【技术特征摘要】
1.一种信息匹配方法,其特征在于,包括:对待识别的数据进行中文分词处理,得到第一词汇集合;其中,所述待识别的数据包括从语音数据中获取到的数据;将所述第一词汇集合转换成拼音,得到第一拼音集合;其中,所述第一词汇集合中包括N组词汇,所述第一拼音集合中包括N组拼音,所述N为大于或等于1的整数;从目标信息库中查找所述N组拼音对应的系统词汇,得到系统词汇集合;其中,所述系统词汇集合中包括M组系统词汇,所述M为大于或等于1的整数,且所述M小于或等于所述N,所述目标信息库中包括系统词汇与拼音的对应关系;从所述系统词汇集合中获取目标系统词汇,所述目标系统词汇为与所述待识别的数据匹配的系统词汇。2.根据权利要求1所述的方法,其特征在于,所述从所述系统词汇集合中获取目标系统词汇,包括:获取所述M组系统词汇集合中每组系统词汇中包括的系统词汇,作为所述目标系统词汇。3.根据权利要求1所述的方法,其特征在于,所述从所述系统词汇集合中获取目标系统词汇,包括:从所述M组系统词汇集合中获取出现次数大于或等于数量阈值的系统词汇作为所述目标系统词汇。4.根据权利要求1至3任意一项所述的方法,其特征在于,所述从目标信息库中查找所述N组拼音对应的系统词汇,包括:根据所述N组拼音通过倒排索引的方法,从所述目标信息库中查找所述N组拼音对应的系统词汇。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取系统词汇库,对所述系统词汇库进行中文分词处理,得到第二词汇集合;将所述第二词汇集合转换成拼音,得到第二拼音集合;其中,所述第二拼音中每组拼音对应一组或多组词汇;根据所述第二拼音集合和所述第二词汇集合建立对应关系,得到所述目标信息库。6...

【专利技术属性】
技术研发人员:刘均陈子安
申请(专利权)人:深圳市元征科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1