一种实现标准词映射的方法、装置及设备制造方法及图纸

技术编号:26763921 阅读:24 留言:0更新日期:2020-12-18 23:31
本申请实施例公开了一种实现标准词映射的方法、装置及设备,该方法包括:先获得待识别词包括的第一分词,分别确定各个第一分词对应的信息类别标签以及信息内容标签,并将第一分词对应的信息类别标签以及信息内容标签作为待识别词包括的信息类别标签以及信息内容标签;再分别获取待识别词包括的信息类别标签以及信息内容标签与目标标准词所包括的信息类别标签以及信息内容标签所对应的第一共现概率和第二共现概率;最后根据第一共现概率与第二共现概率确定目标标准词的概率值,将概率值最大的目标标准词确定为待识别词对应的标准词。从分词的信息类别和信息内容两个方面确定待识别词与目标标准词对应的概率,提高了确定标准词的准确度和效率。

【技术实现步骤摘要】
一种实现标准词映射的方法、装置及设备
本申请涉及数据处理
,具体涉及一种实现标准词映射的方法、装置及设备。
技术介绍
在日常的文本撰写的过程中,可能会使用一些较为日常的非标准词代替所要使用的标准词。非标准词是指与标准词具有相同含义的,但是字符与标准词中的字符不同的词汇。例如,与标准词相对应的简称词汇、缩写词汇以及其他在日常使用中习惯使用的代替词汇等。非标准词虽然可以代替标准词,但是,非标准词可能会使得文本所要表征的语义不够准确。并且,部分非标准词所表示的含义不明,可能不具有较为准确的参考含义,不便于系统地对具有非标准词的文本进行相关信息的提取。目前,通过人为收集非标准词的方法,确定非标准词与标准词的对应关系。一方面人为整理效率较低;另一方面确定的非标准词与标准词的对应关系不够准确。
技术实现思路
有鉴于此,本申请实施例提供一种实现标准词映射的方法、装置及设备,能够较为准确地确定非标准词所映射的标准词,并且可以提高确定标准词的效率。为解决上述问题,本申请实施例提供的技术方案如下:一种实现标准词映射的方法,所述方法包括:获得待识别词包括的第一分词;确定各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率;所述目标标准词分别为所述标准词中的每一个;获取所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率;根据所述第一共现概率与所述第二共现概率确定所述目标标准词的概率值,将所述概率值最大的目标标准词确定为所述待识别词对应的标准词。在一种可能的实现方式中,所述确定各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签,包括:将所述第一分词输入第一文本分类模型,获得各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;所述第一文本分类模型是根据标准词包括的第二分词、所述第二分词对应的信息类别标签、非标准词包括的第三分词以及所述第三分词对应的信息类别标签训练得到的。在一种可能的实现方式中,所述确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签,包括:将所述第一分词输入第二文本分类模型,获得各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;所述第二文本分类模型是根据标准词包括的第二分词、所述第二分词对应的信息内容标签、非标准词包括的第三分词以及所述第三分词对应的信息内容标签训练得到的。在一种可能的实现方式中,确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签之后,所述方法还包括:如果目标第一分词对应的信息内容标签与所述待识别词包括的信息类别标签均不具有对应关系,则将所述目标第一分词对应的信息内容标签从所述待识别词包括的信息内容标签中去除,所述目标第一分词为所述第一分词中的任意一个或多个。在一种可能的实现方式中,所述获得待识别词包括的第一分词,包括:将待识别词输入分词模型,获得所述待识别词包括的第一分词;所述分词模型是根据标准词包括的第二分词以及非标准词包括的第三分词训练得到的。在一种可能的实现方式中,所述获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率,包括:根据在全部第一标签组合中目标信息类别标签组合的出现频次与全部第一标签组合的出现总频次,计算得到所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率;所述第一标签组合为具有对应关系的标准词与非标准词分别包括的信息类别标签构成的组合;所述目标信息类别标签组合为所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的组合。在一种可能的实现方式中,所述获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率,包括:根据在全部第一标签组合中目标第一标签组合的出现频次与全部第一标签组合的出现总频次,计算所述目标第一标签组合的共现概率,所述第一标签组合为具有对应关系的标准词与非标准词分别包括的信息类别标签构成的组合,所述目标第一标签组合分别为所述第一标签组合中的每一个;在所述目标第一标签组合的共现概率中查找目标信息类别标签组合的共现概率作为所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率,所述目标信息类别标签组合为所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的组合。在一种可能的实现方式中,所述获取所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率,包括:获取所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的第三共现概率;i的取值为1到t的整数,j的取值为1到k的整数,t为所述待识别词包括的信息内容标签的数量,k为所述目标标准词包括的信息内容标签的数量;计算各个所述第三共现概率之和得到所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率。在一种可能的实现方式中,所述获取所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的第三共现概率,包括:根据在全部第二标签组合中目标信息内容标签组合的出现频次与全部第二标签组合的出现总频次,计算得到所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的第三共现概率;所述第二标签组合为具有对应关系的标准词与非标准词分别包括的任意一个信息内容标签构成的组合;所述目标信息内容标签组合为所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的组合。在一种可能的实现方式中,所述获取所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的第三共现概率,包括:根据在全部第二标签组合中目标第二标签组合的出现频次与全部第二标签组合的出现总频次,计算所述目标第二标签组合的共现概率,所述第二标签组合为具有对应关系的标准词与非标准词分别包括的任意一个信息内容标签构成的组合,所述目标第二标签组合分别为所述第二标签组合中的每一个;在所述目标第二标签组合的共现概率中查找目标信息内容标签组合的共现概率作为所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的第三共现概率,所述目标信息内容标签组合为所述待识别词包括的第i个信息内容标签与所述目标标准词本文档来自技高网...

【技术保护点】
1.一种实现标准词映射的方法,其特征在于,所述方法包括:/n获得待识别词包括的第一分词;/n确定各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;/n确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;/n获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率;所述目标标准词分别为所述标准词中的每一个;/n获取所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率;/n根据所述第一共现概率与所述第二共现概率确定所述目标标准词的概率值,将所述概率值最大的目标标准词确定为所述待识别词对应的标准词。/n

【技术特征摘要】
1.一种实现标准词映射的方法,其特征在于,所述方法包括:
获得待识别词包括的第一分词;
确定各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;
确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;
获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率;所述目标标准词分别为所述标准词中的每一个;
获取所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率;
根据所述第一共现概率与所述第二共现概率确定所述目标标准词的概率值,将所述概率值最大的目标标准词确定为所述待识别词对应的标准词。


2.根据权利要求1所述的方法,其特征在于,所述确定各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签,包括:
将所述第一分词输入第一文本分类模型,获得各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;
所述第一文本分类模型是根据标准词包括的第二分词、所述第二分词对应的信息类别标签、非标准词包括的第三分词以及所述第三分词对应的信息类别标签训练得到的。


3.根据权利要求1所述的方法,其特征在于,所述确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签,包括:
将所述第一分词输入第二文本分类模型,获得各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;
所述第二文本分类模型是根据标准词包括的第二分词、所述第二分词对应的信息内容标签、非标准词包括的第三分词以及所述第三分词对应的信息内容标签训练得到的。


4.根据权利要求1所述的方法,其特征在于,确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签之后,所述方法还包括:
如果目标第一分词对应的信息内容标签与所述待识别词包括的信息类别标签均不具有对应关系,则将所述目标第一分词对应的信息内容标签从所述待识别词包括的信息内容标签中去除,所述目标第一分词为所述第一分词中的任意一个或多个。


5.根据权利要求1所述的方法,其特征在于,所述获得待识别词包括的第一分词,包括:
将待识别词输入分词模型,获得所述待识别词包括的第一分词;
所述分词模型是根据标准词包括的第二分词以及非标准词包括的第三分词训练得到的。


6.根据权利...

【专利技术属性】
技术研发人员:贾弼然顾文剑蔡巍张霞
申请(专利权)人:沈阳东软智能医疗科技研究院有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1