一种实现标准词映射的方法、装置及设备制造方法及图纸

技术编号：26763921 阅读：29 留言：0更新日期：2020-12-18 23:31

本申请实施例公开了一种实现标准词映射的方法、装置及设备，该方法包括：先获得待识别词包括的第一分词，分别确定各个第一分词对应的信息类别标签以及信息内容标签，并将第一分词对应的信息类别标签以及信息内容标签作为待识别词包括的信息类别标签以及信息内容标签；再分别获取待识别词包括的信息类别标签以及信息内容标签与目标标准词所包括的信息类别标签以及信息内容标签所对应的第一共现概率和第二共现概率；最后根据第一共现概率与第二共现概率确定目标标准词的概率值，将概率值最大的目标标准词确定为待识别词对应的标准词。从分词的信息类别和信息内容两个方面确定待识别词与目标标准词对应的概率，提高了确定标准词的准确度和效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种实现标准词映射的方法、装置及设备
本申请涉及数据处理
，具体涉及一种实现标准词映射的方法、装置及设备。
技术介绍
在日常的文本撰写的过程中，可能会使用一些较为日常的非标准词代替所要使用的标准词。非标准词是指与标准词具有相同含义的，但是字符与标准词中的字符不同的词汇。例如，与标准词相对应的简称词汇、缩写词汇以及其他在日常使用中习惯使用的代替词汇等。非标准词虽然可以代替标准词，但是，非标准词可能会使得文本所要表征的语义不够准确。并且，部分非标准词所表示的含义不明，可能不具有较为准确的参考含义，不便于系统地对具有非标准词的文本进行相关信息的提取。目前，通过人为收集非标准词的方法，确定非标准词与标准词的对应关系。一方面人为整理效率较低；另一方面确定的非标准词与标准词的对应关系不够准确。
技术实现思路
有鉴于此，本申请实施例提供一种实现标准词映射的方法、装置及设备，能够较为准确地确定非标准词所映射的标准词，并且可以提高确定标准词的效率。为解决上述问题，本申请实施例提供的技术方案如下：>一种实现标准词映射本文档来自技高网...

【技术保护点】
1.一种实现标准词映射的方法，其特征在于，所述方法包括：/n获得待识别词包括的第一分词；/n确定各个所述第一分词对应的信息类别标签，将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签；/n确定各个所述第一分词对应的信息内容标签，将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签；/n获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率；所述目标标准词分别为所述标准词中的每一个；/n获取所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率；/n根据所述第一共现概率与所述第二共现概率确定所述目标标准词的...

【技术特征摘要】
1.一种实现标准词映射的方法，其特征在于，所述方法包括：
获得待识别词包括的第一分词；
确定各个所述第一分词对应的信息类别标签，将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签；
确定各个所述第一分词对应的信息内容标签，将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签；
获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率；所述目标标准词分别为所述标准词中的每一个；
获取所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率；
根据所述第一共现概率与所述第二共现概率确定所述目标标准词的概率值，将所述概率值最大的目标标准词确定为所述待识别词对应的标准词。

2.根据权利要求1所述的方法，其特征在于，所述确定各个所述第一分词对应的信息类别标签，将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签，包括：
将所述第一分词输入第一文本分类模型，获得各个所述第一分词对应的信息类别标签，将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签；
所述第一文本分类模型是根据标准词包括的第二分词、所述第二分词对应的信息类别标签、非标准词包括的第三分词以及所述第三分词对应的信息类别标签训练得到的。

3.根据权利要求1所述的方法，其特征在于，所述确定各个所述第一分词对应的信息内容标签，将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签，包括：
将所述第一分词输入第二文本分类模型，获得各个所述第一分词对应的信息内容标签，将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签；
所述第二文本分类模型是根据标准词包括的第二分词、所述第二分词对应的信息内容标签、非标准词包括的第三分词以及所述第三分词对应的信息内容标签训练得到的。

4.根据权利要求1所述的方法，其特征在于，确定各个所述第一分词对应的信息内容标签，将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签之后，所述方法还包括：
如果目标第一分词对应的信息内容标签与所述待识别词包括的信息类别标签均不具有对应关系，则将所述目标第一分词对应的信息内容标签从所述待识别词包括的信息内容标签中去除，所述目标第一分词为所述第一分词中的任意一个或多个。

5.根据权利要求1所述的方法，其特征在于，所述获得待识别词包括的第一分词，包括：
将待识别词输入分词模型，获得所述待识别词包括的第一分词；
所述分词模型是根据标准词包括的第二分词以及非标准词包括的第三分词训练得到的。

6.根据权利...

【专利技术属性】
技术研发人员：贾弼然，顾文剑，蔡巍，张霞，
申请(专利权)人：沈阳东软智能医疗科技研究院有限公司，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人