【技术实现步骤摘要】
跨语言非标准词识别方法及装置
本公开涉及文本处理领域,尤其涉及跨语言非标准词识别方法及装置、电子设备和计算机可读存储介质。
技术介绍
文本中,非标准词之外,由本语言的字符构成,符合正字法的词,称为标准词。除了本语言的字符、标点符号外,还有很多其他的符号,比如阿拉伯数字(0-9)、货币符号(如:¥、$、€)、数学符号(如:≥、+等)、物理符号(如:km、kg、℃)等。这些符号或词,在常用词典中查不到,它们的读音也不能通过正常的发音规则得到,而且在不同的上下文中,其意义和读法往往也不同。这些词,被称为非标准词。如下,是中文文本中的非标准词的例子:发表于:2006-09-1112:28。我打算在网上订机票,但是出发时间是12:30AM。1996年,全区总人口控制在324万人,出生率下降到14.55‰,自然增长率9.43‰。北京洋海馆门票门市价:成人100元/人。解语文和外语总分为2×90=180。文本正则化是语音合成等文本处理任务中的重要环节。文本正则化是将非标准词转换成标准词,以确 ...
【技术保护点】
1.一种跨语言非标准词识别方法,其特征在于,所述方法包括:/n获取目标语言语料;/n对所述目标语言语料进行分词处理;/n对所述分词后的目标语言语料中的非标准词进行预处理;/n确定所述目标语言语料中目标词在源语言中的替代词向量及替代权重;/n通过所述替代词向量及替代权重,使用源语言的非标准词识别模型,确定所述目标语言的非标准词类别。/n
【技术特征摘要】
1.一种跨语言非标准词识别方法,其特征在于,所述方法包括:
获取目标语言语料;
对所述目标语言语料进行分词处理;
对所述分词后的目标语言语料中的非标准词进行预处理;
确定所述目标语言语料中目标词在源语言中的替代词向量及替代权重;
通过所述替代词向量及替代权重,使用源语言的非标准词识别模型,确定所述目标语言的非标准词类别。
2.根据权利要求1所述的跨语言非标准词识别方法,其特征在于,所述对所述分词后的目标语言语料中的非标准词进行预处理,包括:
将所述非标准词中的数字转化为固定格式,保留所述非标准词中包含的特殊字符,所述特殊字符包括:数学符号、货币符号和物理符号中的任意一种或多种字符。
3.根据权利要求1所述的跨语言非标准词识别方法,其特征在于,所述目标词为所述分词后的目标语言语料中完整句子的全部词,或以非标准词为中心上下文窗口长度内的词。
4.根据权利要求1所述的跨语言非标准词识别方法,其特征在于,所述确定所述目标语言语料中目标词在源语言中的替代词向量及替代权重,包括:
基于双语词典确定所述目标词在源语言中的替代词,并设置所述替代权重;
将所述源语言中的替代词向量化得到所述替代词向量。
5.根据权利要求4所述的跨语言非标准词识别方法,其特征在于,所述基于双语词典确定所述目标词在源语言中的替代词,并设置所述替代权重包括:
在所述双语词典中查找所述目标词对应的源语言词;
若所述目标词在所述双语词典中对应一个或多个源语言词,则将每个所述源语言词分别作为替代词;
若所述目标词在所述双语词典中无对应的源语言词,则通过目标语言词向量模型查找候选词,将所述候选词对应的源语言词作为替代词;
基于所述目标词设置所述替代权重。
6.根据权利要求5所述的跨语言非标准词识别方法,其特征在于,所述基于所述目标词设置所述替代权重包括:
若所述目标词在所述双语词典中对应一个或多个源语言词,则设置每个替代词的所述替代权重为1;
若所述目标词在所述双语词典中无对应的源语言词,则基于所述候选词与所述目标词的距离确定替代权重。
7.根据权利要求5所述的跨语言非标准词识别方法,其特征在于,所述通过目标语言词向量模型查找候选词包括:
在目标语言词向量模型中确定所述目标词的向量,统计所述目标词与目标语言中其他词的距离并排序;
确定在双语词典中存在对应的源语言词且距离所述目标词最近的词为候选词。
8.根据权利要求1所述的跨语言非标准词识别方法,其特征在于,所述通过所述替代词向量及替代权重,使用源语言的非标准词识别模型,确定所述目标语言的非标准词类别,包括:
获取所述替代词向量构成的目标语言词向量序列;
通过所述源语言的非标准词识别模型,得到所述词向量序列中包含的非标准词的类别置信度;
根据所述替代权重与所述类别置信度,确定所述非标准词的类别。
9.根据权利要求8所述的跨语言非标准词识别方法,其特征在于,所述根据所述替代权重与所述类别置信度,确定所述非标准词的类别,包括:
设所述替代词向量构成的目标语言词向量序列为S,计算非标准词N的类别是T的概率为:
其中,为非标准词N的上下文中的第i个目标词,为替换为替代词的替代权重,为通过所述源语言的非标准词识别模型计算的替代词向量序列S属于类别T的置信度;
所述非标准词的类别为使值最大的类别T。
10.一种非标准词识别模型的训练方法,其特征在于,所述非标准词识别模型用于如权利要求1-9任一项所述的跨语言非标准词识别方法中,所述训练方法包括:
获取源语言语料;
对所述源语言语料进行分词;
对分词后的所述源语言语料进行预处理;
对预处理后的所述源语言语料进行向量化,得到源语言词向量序列;
标注所述源语言语料中的非标准词,得到包含类别信息的标注序列;
通过所述源语言词向量序列与标注序列,训练所述非标准词识别模型,其中所述模型是BiLSTM+CRF模型。
11.根据权利要求10所述的非标准词识别模型的训练方法,其特征在于,所述方法还包括:
在获取所述源语言语料后,建立过滤规则,保留包含非标准词的语句;
所述过滤规则包括,利用所述源语言的合法字符集合与标点符号集合,过滤所述源语言语料中仅包含合法字符和标点符号的句子。
12.一种跨语言非标准词识别装置,其特征在于,所述装置包括:
语料获取单元,用于获取目标语言语料;
分词单元,用于对所述目标语言语料进行分词处理;
预处理单元,用于对所述分词后的目...
【专利技术属性】
技术研发人员:闫启伟,郝玉峰,黄宇凯,曹琼,李科,宋琼,
申请(专利权)人:北京海天瑞声科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。