【技术实现步骤摘要】
一种实现标准词映射的方法、装置及设备
本申请涉及数据处理
,具体涉及一种实现标准词映射的方法、装置及设备。
技术介绍
在日常的文本撰写的过程中,可能会使用一些较为日常的非标准词代替所要使用的标准词。非标准词是指与标准词具有相同含义的,但是字符与标准词中的字符不同的词汇。例如,与标准词相对应的简称词汇、缩写词汇以及其他在日常使用中习惯使用的代替词汇等。非标准词虽然可以代替标准词,但是,非标准词可能会使得文本所要表征的语义不够准确。并且,部分非标准词所表示的含义不明,可能不具有较为准确的参考含义,不便于系统地对具有非标准词的文本进行相关信息的提取。目前,通过人为收集非标准词的方法,确定非标准词与标准词的对应关系。一方面人为整理效率较低;另一方面确定的非标准词与标准词的对应关系不够准确。
技术实现思路
有鉴于此,本申请实施例提供一种实现标准词映射的方法、装置及设备,能够较为准确地确定非标准词所映射的标准词,并且可以提高确定标准词的效率。为解决上述问题,本申请实施例提供的技术方案如下:一种实现标准词映射的方法,所述方法包括:获得待识别词包括的第一分词;确定各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一 ...
【技术保护点】
1.一种实现标准词映射的方法,其特征在于,所述方法包括:/n获得待识别词包括的第一分词;/n确定各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;/n确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;/n获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率;所述目标标准词分别为所述标准词中的每一个;/n获取所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率;/n根据所述第一共现概率与所述第二共现概率确定所述目标标准词的概率值,将所述概率值最大的目标标准词确定为所述待识别词对应的标准词。/n
【技术特征摘要】
1.一种实现标准词映射的方法,其特征在于,所述方法包括:
获得待识别词包括的第一分词;
确定各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;
确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;
获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率;所述目标标准词分别为所述标准词中的每一个;
获取所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率;
根据所述第一共现概率与所述第二共现概率确定所述目标标准词的概率值,将所述概率值最大的目标标准词确定为所述待识别词对应的标准词。
2.根据权利要求1所述的方法,其特征在于,所述确定各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签,包括:
将所述第一分词输入第一文本分类模型,获得各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;
所述第一文本分类模型是根据标准词包括的第二分词、所述第二分词对应的信息类别标签、非标准词包括的第三分词以及所述第三分词对应的信息类别标签训练得到的。
3.根据权利要求1所述的方法,其特征在于,所述确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签,包括:
将所述第一分词输入第二文本分类模型,获得各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;
所述第二文本分类模型是根据标准词包括的第二分词、所述第二分词对应的信息内容标签、非标准词包括的第三分词以及所述第三分词对应的信息内容标签训练得到的。
4.根据权利要求1所述的方法,其特征在于,确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签之后,所述方法还包括:
如果目标第一分词对应的信息内容标签与所述待识别词包括的信息类别标签均不具有对应关系,则将所述目标第一分词对应的信息内容标签从所述待识别词包括的信息内容标签中去除,所述目标第一分词为所述第一分词中的任意一个或多个。
5.根据权利要求1所述的方法,其特征在于,所述获得待识别词包括的第一分词,包括:
将待识别词输入分词模型,获得所述待识别词包括的第一分词;
所述分词模型是根据标准词包括的第二分词以及非标准词包括的第三分词训练得到的。
6.根据权利...
【专利技术属性】
技术研发人员:贾弼然,顾文剑,蔡巍,张霞,
申请(专利权)人:沈阳东软智能医疗科技研究院有限公司,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。