This application discloses an information matching method and device. The method includes: processing the recognized data into Chinese word segmentation and obtaining the first vocabulary set; among them, the data to be recognized includes the data obtained from the voice data; converting the first vocabulary set into the first Pinyin set, which includes N groups of vocabulary, and the first Pinyin set contains N groups of pinyin, whose N is greater than or equal to 1. Integer; Find the system vocabulary corresponding to the N-group Pinyin from the target information base, and get the system vocabulary set. The target information base includes the corresponding relationship between the system vocabulary and pinyin; Get the target system vocabulary from the system vocabulary set, and the target system vocabulary is the system vocabulary matching the data to be recognized. Corresponding devices are also provided. This application can improve the recognition efficiency of named entity in automobile system.
【技术实现步骤摘要】
信息匹配方法及装置
本申请涉及车载
,尤其涉及一种信息匹配方法及装置。
技术介绍
随着计算机的普及以及互联网的飞速发展,网络已经成为生活中不可或缺的一部分,海量的信息通过电子文档的方式呈现在大众的视野中,为了应对信息爆炸带来的严峻挑战和机遇,迫切需要一些自动化的工具来实现对海量信息源的有效提取和分析。信息抽取、问题回答、信息过滤等的研究恰恰是在这种大背景下应运而生的,而命名实体识别技术则是这些研究中最重要的一环。目前对于通过语音进行交互搜索的系统中,在通过语音转输入信息的过程中由于使用者的口音及其他声音干扰,会使识别出的信息极度不标准,出现错别字及多音字等现象,如果通过关键词来识别,识别效果会很差,无法实现较好地模糊匹配。由此,如何进行汽车系统命名实体识别亟待解决。
技术实现思路
本申请提供一种信息匹配方法及装置,可有效提高汽车系统命名实体的识别准确率和效率。第一方面,本申请实施例提供了一种信息匹配方法,包括:对待识别的数据进行中文分词处理,得到第一词汇集合;其中,所述待识别的数据包括从语音数据中获取到的数据;将所述第一词汇集合转换成拼音,得到第一拼音集合;其中,所述第一词汇集合中包括N组词汇,所述第一拼音集合中包括N组拼音,所述N为大于或等于1的整数;从目标信息库中查找所述N组拼音对应的系统词汇,得到系统词汇集合;其中,所述系统词汇集合中包括M组系统词汇,所述M为大于或等于1的整数,且M小于或等于N,所述目标信息库中包括系统词汇与拼音的对应关系;从所述系统词汇集合中获取目标系统词汇,所述目标系统词汇为与所述待识别的数据匹配的系统词汇。本申请实施例中,在 ...
【技术保护点】
1.一种信息匹配方法,其特征在于,包括:对待识别的数据进行中文分词处理,得到第一词汇集合;其中,所述待识别的数据包括从语音数据中获取到的数据;将所述第一词汇集合转换成拼音,得到第一拼音集合;其中,所述第一词汇集合中包括N组词汇,所述第一拼音集合中包括N组拼音,所述N为大于或等于1的整数;从目标信息库中查找所述N组拼音对应的系统词汇,得到系统词汇集合;其中,所述系统词汇集合中包括M组系统词汇,所述M为大于或等于1的整数,且所述M小于或等于所述N,所述目标信息库中包括系统词汇与拼音的对应关系;从所述系统词汇集合中获取目标系统词汇,所述目标系统词汇为与所述待识别的数据匹配的系统词汇。
【技术特征摘要】
1.一种信息匹配方法,其特征在于,包括:对待识别的数据进行中文分词处理,得到第一词汇集合;其中,所述待识别的数据包括从语音数据中获取到的数据;将所述第一词汇集合转换成拼音,得到第一拼音集合;其中,所述第一词汇集合中包括N组词汇,所述第一拼音集合中包括N组拼音,所述N为大于或等于1的整数;从目标信息库中查找所述N组拼音对应的系统词汇,得到系统词汇集合;其中,所述系统词汇集合中包括M组系统词汇,所述M为大于或等于1的整数,且所述M小于或等于所述N,所述目标信息库中包括系统词汇与拼音的对应关系;从所述系统词汇集合中获取目标系统词汇,所述目标系统词汇为与所述待识别的数据匹配的系统词汇。2.根据权利要求1所述的方法,其特征在于,所述从所述系统词汇集合中获取目标系统词汇,包括:获取所述M组系统词汇集合中每组系统词汇中包括的系统词汇,作为所述目标系统词汇。3.根据权利要求1所述的方法,其特征在于,所述从所述系统词汇集合中获取目标系统词汇,包括:从所述M组系统词汇集合中获取出现次数大于或等于数量阈值的系统词汇作为所述目标系统词汇。4.根据权利要求1至3任意一项所述的方法,其特征在于,所述从目标信息库中查找所述N组拼音对应的系统词汇,包括:根据所述N组拼音通过倒排索引的方法,从所述目标信息库中查找所述N组拼音对应的系统词汇。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取系统词汇库,对所述系统词汇库进行中文分词处理,得到第二词汇集合;将所述第二词汇集合转换成拼音,得到第二拼音集合;其中,所述第二拼音中每组拼音对应一组或多组词汇;根据所述第二拼音集合和所述第二词汇集合建立对应关系,得到所述目标信息库。6...
【专利技术属性】
技术研发人员:刘均,陈子安,
申请(专利权)人:深圳市元征科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。