特征信息的识别方法、装置及计算机可读存储介质制造方法及图纸

技术编号:25690904 阅读:26 留言:0更新日期:2020-09-18 21:02
本发明专利技术涉及一种人工智能技术,揭露了一种特征信息的识别方法,包括:获取组织机构名称的待识别文本,计算待识别文本的拼音对应的汉字组合的平均字向量;获取组织机构名称所属的目标行业类别,以及获取目标行业类别所属的目标簇类;计算汉字组合中每个汉字组合的平均字向量与目标行业类别的平均行业向量的第一相似度;计算汉字组合中每个汉字组合的平均字向量与目标簇类的平均簇类向量的第二相似度,将多个第一相似度与多个第二相似度进行权重计算,确定权重计算得分最高的汉字组合为组织机构名称的汉字组合。本发明专利技术还提出一种特征信息的识别装置、电子设备以及一种计算机可读存储介质。本发明专利技术可以提高识别语音信息中存在的机构组织名称的准确性。

【技术实现步骤摘要】
特征信息的识别方法、装置及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种特征信息的识别的方法、装置、电子设备及计算机可读存储介质。
技术介绍
语音识别技术的应用已十分广泛,语音识别技术可以识别语音中的信息,将语音信息转化为文字。在很多应用场景中,需要识别语音中机构组织的名称,例如,用户通过电话办理企业对公业务时,识别语音信息中的组织机构的名称,将其转化为文字。现有技术中,为了识别机构组织的名称,需要针对不同的场景去整理收集大量的语料,这将耗费大量时间,如果整理收集的数据存在错误,会导致机构组织的名称识别不准确;若不预先针对不同的场景去整理收集大量的语料,也会使得机构组织的名称识别结果不够准确。
技术实现思路
本专利技术提供一种特征信息的识别方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高识别语音信息中存在的机构组织名称的准确性。为实现上述目的,本专利技术提供的一种特征信息的识别方法,包括:接收通过语音识别得到的文本数据集,利用命名实体识别技术从所述文本数据集中提取本文档来自技高网...

【技术保护点】
1.一种特征信息的识别方法,其特征在于,所述方法应用于电子设备中,包括:/n接收通过语音识别得到的文本数据集,利用命名实体识别技术从所述文本数据集中提取组织机构名称的待识别文本;/n汇总所述待识别文本的拼音对应的汉字组合,得到汉字组合候选集合,对所述汉字组合候选集合中至少两个汉字组合进行向量计算,得到所述至少两个汉字组合的平均字向量;/n获取所述组织机构名称所属的目标行业类别,以及获取包含所述目标行业类别的行业类别集合,对所述行业类别集合中包含所述目标行业类别的至少两个行业类别进行向量计算,得到包含所述至少两个行业类别的平均行业向量;/n计算所述至少两个汉字组合中每个汉字组合的平均字向量与所述...

【技术特征摘要】
1.一种特征信息的识别方法,其特征在于,所述方法应用于电子设备中,包括:
接收通过语音识别得到的文本数据集,利用命名实体识别技术从所述文本数据集中提取组织机构名称的待识别文本;
汇总所述待识别文本的拼音对应的汉字组合,得到汉字组合候选集合,对所述汉字组合候选集合中至少两个汉字组合进行向量计算,得到所述至少两个汉字组合的平均字向量;
获取所述组织机构名称所属的目标行业类别,以及获取包含所述目标行业类别的行业类别集合,对所述行业类别集合中包含所述目标行业类别的至少两个行业类别进行向量计算,得到包含所述至少两个行业类别的平均行业向量;
计算所述至少两个汉字组合中每个汉字组合的平均字向量与所述目标行业类别的平均行业向量的第一相似度,得到第一层级汉字组合候选集合,所述第一层级汉字组合候选集合包含所述至少两个汉字组合和所述至少两个汉字组合分别对应的第一相似度;
对所述行业类别集合进行簇类计算,得到行业类别簇集合,从所述行业类别簇集合中获取所述目标行业类别所属的目标簇类,以及计算所述目标簇类的平均簇类向量;
计算所述至少两个汉字组合中每个汉字组合的平均字向量与所述目标簇类的平均簇类向量的第二相似度,得到第二层级汉字组合候选集合,所述第二层级汉字组合候选集合包含至少所述两个汉字组合和所述至少两个汉字组合分别对应的第二相似度;
将所述第一层级汉字组合候选集合包含的第一相似度与所述第二层级汉字组合候选集合包含的第二相似度进行权重计算,得到汉字组合得分结果集;
确定所述汉字组合得分结果集中最高分对应的汉字组合为所述组织机构名称的汉字组合。


2.如权利要求1所述的特征信息的识别方法,其特征在于,所述对所述汉字组合候选集合中至少两个汉字组合进行向量计算,得到所述至少两个汉字组合的平均字向量,包括:
利用预先训练的字向量词典获取所述汉字组合候选集包含的至少两个汉字组合中每个汉字的字向量;
根据至少两个汉字组合中每个汉字的字向量,计算所述至少两个汉字组合中每个汉字组合包含的所有汉字的字向量的平均值,得到所述至少两个汉字组合的平均字向量。


3.如权利要求1所述的特征信息的识别方法,其特征在于,所述获取所述组织机构名称所属的目标行业类别,以及获取包含所述目标行业类别的行业类别集合,包括:
通过基于注意力机制的双向LSTM网络对所述文本数据集进行前向和后向编码,将前向和后向编码生成的向量拼接起来,形成拼接向量;
将所述拼接向量输入至预构建的第一行业分类模型,确定所述行业分类神经网络模型输出的行业类别为所述组织机构名称所属的目标行业类别;
利用预构建的第二行业分类模型对所述汉字组合候选集合进行分类,得到分类结果,所述分类结果包括所述汉字组合候选集合包含的汉字组合对应的行业类别;
将所述分类结果中不同行业类别与所述目标行业类别进行组合,得到包含所述目标行业类别的行业类别集合。


4.如权利要求1所述的特征信息的识别方法,其特征在于,所述获取所述组织机构名称所属的目标行业类别,以及获取包含所述目标行业类别的行业类别集合,包括:
获取补充汉字组合候选集合,所述补充汉字组合候选集合包含补充组织机构名称;
利用预构建的第三行业分类模型对所述组织机构名称进行分类,得到所述组织机构名称所属的目标行业类别;
利用所述第三行业分类模型对所述补充汉字组合候选集合进行分类,得到分类结果,所述分类结果包括所述补充汉字组合候选集合包含的补充组织机构名称对应的行业类别;
将所述分类结果中不同行业类别与所述目标行业类别进行组合,得到包含所述目标行业类别的行业类别集合。


5.如权利要求1至4任一项所述的特征信息的识别方法,其特征在于,所述计算所述至少两个汉字组合中每个汉字组合的平均字向量与所述目标行业类别的平均行业向量的第一相似度,包括:
通过...

【专利技术属性】
技术研发人员:王伟
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1