简写字符的还原方法、装置、设备及存储介质制造方法及图纸

技术编号:20724900 阅读:23 留言:0更新日期:2019-03-30 17:41
本发明专利技术公开了一种简写字符的还原方法、装置、设备及存储介质,所述方法包括:将目标文本中的待还原字符进行划分,获得字符划分集;根据预设评分规则对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤;获取预设词典,根据所述预设词典对过滤后的字符划分集中各个分块进行还原,得到候选语义集;根据预设语言模型对所述候选语义集合进行评价,根据评价结果得到目标语义集;通过预设筛选规则选取出的目标短语作为所述待还原字符的还原短语。本发明专利技术通过通过预设词典以及语言模型实现对通用简写以及随机简写的语义还原,提高简写语义识别的覆盖面。

【技术实现步骤摘要】
简写字符的还原方法、装置、设备及存储介质
本专利技术涉及语义识别
,尤其涉及一种简写字符的还原方法、装置、设备及存储介质。
技术介绍
目前,简写形式越来越频繁的出现在各种数据集合中,对非结构化数据,据维基百科统计显示,平均每篇英文文献中含有9.7个简写,同时超过63%的网页中含有至少一个简写。对结构化数据,例如关系数据库等,半结构化数据,例如可扩展标记语言(ExtensibleMarkupLanguage,xml)、知识图谱等),简写形式的出现更为频繁。简写的大量使用对语义分析提出了更大的挑战,目前常用的处理办法是构建简写还原词典,在语义分析时以词典中的相应语义为基础进行简写语义消歧,这类方法称为基于词典的方法,简称DICBASED方法,但DICBASED方法存在如下两个问题:首先,需要不断的对词典进行维护,费时费力,且由于语言表现形式的快速演化,其完整性无法保证;其次,仅能处理那些经常出现,被广泛认可的简写,如通用简写,对用户根据个人意愿随机给出的简写,如随机简写,则毫无办法。
技术实现思路
本专利技术的主要目的在于提出一种简写字符的还原方法、装置、设备及存储介质,旨在提高简写语义识别的覆盖面。为实现上述目的,本专利技术提供一种简写字符的还原方法,所述简写字符的还原方法包括以下步骤:将目标文本中的待还原字符进行划分,获得字符划分集;根据预设评分规则对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤;获取预设词典,根据所述预设词典对过滤后的字符划分集中各个分块进行还原,得到候选语义集;根据预设语言模型对所述候选语义集合进行评价,根据评价结果得到目标语义集;通过预设筛选规则从所述目标语义集中选取目标短语,将选取出的目标短语作为所述待还原字符的还原短语。优选地,所述将目标文本中的待还原字符进行划分,获得字符划分集,包括:获取目标文本中的待还原字符、待分解起始位置信息、待分解结束位置信息、待分解总分块数以及已划分得到的分块数;在所述待分解起始位置信息、待分解结束位置信息、待分解总分块数以及已划分得到的分块数满足预设条件时,采用预设规则对所述待还原字符进行划分,得到划分后的字符划分集;所述在所述待分解起始位置信息、待分解结束位置信息、待分解总分块数以及已划分得到的分块数满足预设条件时,采用预设规则对所述待还原字符进行划分,得到划分后的字符划分集,包括:在所述待分解总分块数以及已划分得到的分块数满足第一预设条件时,根据所述待分解起始位置信息和待分解结束位置信息获取第一采样区间,将所述第一采样区间的字符串作为分块,将所述分块作为所述划分后的字符划分集;在所述待分解起始位置信息、待分解结束位置信息、待分解总分块数以及已划分得到的分块数满足第二预设条件时,将所述第一采样区间中的各个字符作为分块,将所述分块作为所述划分后的字符划分集;在所述待分解起始位置信息、待分解结束位置信息以及待分解总分块数满足第三预设条件时,获取第二采样区间和第三采样区间,将所述第二采样区间中预设长度的字符串作为当前分块,对所述第三采样区间中的有序字符串进行递归分解得到若干分块,将所述当前分块与所述若干分块作为所述划分后的字符划分集。优选地,所述将目标文本中的待还原字符进行划分,获得字符划分集,包括:提取所述待还原字符的字符长度,在所述字符长度满足预设阈值时,将所述待还原字符进行划分,得到划分后的字符划分集。优选地,所述根据预设评分规则对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤,包括:获取所述字符划分集中的划分的分块数以及预设单词的数量,根据所述分块数以及预设单词的数量通过第一预设公式对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤。优选地,所述获取预设词典,根据所述预设词典对过滤后的字符划分集中各个分块进行还原,得到候选语义集,包括:获取预设词典,根据所述预设词典查找所述过滤后的字符划分集中各个分块的前缀还原集合;将各个前缀还原集合通过笛卡尔积构成划分还原集合,将各个划分还原集合的交集构成所述候选语义集。优选地,所述根据预设语言模型对所述候选语义集合进行评价,根据评价结果得到目标语义集,包括:根据预设语言模型对所述候选语义集合中的每个单词序列进行评价,得到合理组合的概率;获取所述字符划分集中的划分的分块数以及预设单词的数量,根据所述分块数以及预设单词的数量通过第一预设公式得到合理性评价指标;根据所述合理组合的概率和合理性评价指标对所述候选语义集合进行评价,根据评价结果从所述候选语义集合中选取所述目标语义集。优选地,所述通过预设筛选规则从所述目标语义集中选取目标短语,将选取出的目标短语作为所述待还原字符的还原短语之后,所述方法还包括:提取所述目标语义集中的预设短语,计算所述预设短语的欧氏距离,根据所述欧式距离得到所述目标语义集中的相似短语;将所述相似短语通过预设聚类算法进行聚类,得到所述待还原字符的还原短语集。此外,为实现上述目的,本专利技术还提出一种简写字符的还原装置,其特征在于,所述简写字符的还原装置包括:获取模块,用于将目标文本中的待还原字符进行划分,获得字符划分集;过滤模块,用于根据预设评分规则对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤;还原模块,用于获取预设词典,根据所述预设词典对过滤后的字符划分集中各个分块进行还原,得到候选语义集;评价模块,用于根据预设语言模型对所述候选语义集合进行评价,根据评价结果得到目标语义集;选取模块,用于通过预设筛选规则从所述目标语义集中选取目标短语,将选取出的目标短语作为所述待还原字符的还原短语。此外,为实现上述目的,本专利技术还提出一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的简写字符的还原程序,所述简写字符的还原程序配置为实现如上所述的简写字符的还原方法的步骤。此外,为实现上述目的,本专利技术还提出一种存储介质,所述存储介质上存储有简写字符的还原程序,所述简写字符的还原程序被处理器执行时实现如上文所述的简写字符的还原方法的步骤。本专利技术提出的简写字符的还原方法,通过将目标文本中的待还原字符进行划分,获得字符划分集;根据预设评分规则对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤;获取预设词典,根据所述预设词典对过滤后的字符划分集中各个分块进行还原,得到候选语义集;根据预设语言模型对所述候选语义集合进行评价,根据评价结果得到目标语义集;通过预设筛选规则从所述目标语义集中选取目标短语,将选取出的目标短语作为所述待还原字符的还原短语,从而通过预设词典以及语言模型实现对通用简写以及随机简写的语义还原,提高简写语义识别的覆盖面。附图说明图1是本专利技术实施例方案涉及的硬件运行环境的设备结构示意图;图2为本专利技术简写字符的还原方法第一实施例的流程示意图;图3为本专利技术简写字符的还原方法整体流程示意图;图4为本专利技术简写字符的还原方法第二实施例的流程示意图;图5为短语单词数量分类统计;图6为本专利技术实施例中简写字符的还原方法进行划分时不同长度随机前缀的合理比率示意图;图7为本专利技术实施例中简写字符的还原方法进行划分时的合理分块数量与串长的数量示意图;图8为本专利技术简写字符的还原方法第三实施例的流程示意图;图9为本专利技术实施例中简写本文档来自技高网...

【技术保护点】
1.一种简写字符的还原方法,其特征在于,所述简写字符的还原方法包括:将目标文本中的待还原字符进行划分,获得字符划分集;根据预设评分规则对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤;获取预设词典,根据所述预设词典对过滤后的字符划分集中各个分块进行还原,得到候选语义集;根据预设语言模型对所述候选语义集合进行评价,根据评价结果得到目标语义集;通过预设筛选规则从所述目标语义集中选取目标短语,将选取出的目标短语作为所述待还原字符的还原短语。

【技术特征摘要】
1.一种简写字符的还原方法,其特征在于,所述简写字符的还原方法包括:将目标文本中的待还原字符进行划分,获得字符划分集;根据预设评分规则对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤;获取预设词典,根据所述预设词典对过滤后的字符划分集中各个分块进行还原,得到候选语义集;根据预设语言模型对所述候选语义集合进行评价,根据评价结果得到目标语义集;通过预设筛选规则从所述目标语义集中选取目标短语,将选取出的目标短语作为所述待还原字符的还原短语。2.如权利要求1所述的简写字符的还原方法,其特征在于,所述将目标文本中的待还原字符进行划分,获得字符划分集,包括:获取目标文本中的待还原字符、待分解起始位置信息、待分解结束位置信息、待分解总分块数以及已划分得到的分块数;在所述待分解起始位置信息、待分解结束位置信息、待分解总分块数以及已划分得到的分块数满足预设条件时,采用预设规则对所述待还原字符进行划分,得到划分后的字符划分集;所述在所述待分解起始位置信息、待分解结束位置信息、待分解总分块数以及已划分得到的分块数满足预设条件时,采用预设规则对所述待还原字符进行划分,得到划分后的字符划分集,包括:在所述待分解总分块数以及已划分得到的分块数满足第一预设条件时,根据所述待分解起始位置信息和待分解结束位置信息获取第一采样区间,将所述第一采样区间的字符串作为分块,将所述分块作为所述划分后的字符划分集;在所述待分解起始位置信息、待分解结束位置信息、待分解总分块数以及已划分得到的分块数满足第二预设条件时,将所述第一采样区间中的各个字符作为分块,将所述分块作为所述划分后的字符划分集;在所述待分解起始位置信息、待分解结束位置信息以及待分解总分块数满足第三预设条件时,获取第二采样区间和第三采样区间,将所述第二采样区间中预设长度的字符串作为当前分块,对所述第三采样区间中的有序字符串进行递归分解得到若干分块,将所述当前分块与所述若干分块作为所述划分后的字符划分集。3.如权利要求1所述的简写字符的还原方法,其特征在于,所述将目标文本中的待还原字符进行划分,获得字符划分集,包括:提取所述待还原字符的字符长度,在所述字符长度满足预设阈值时,将所述待还原字符进行划分,得到划分后的字符划分集。4.如权利要求1至3中任一项所述的简写字符的还原方法,其特征在于,所述根据预设评分规则对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤,包括:获取所述字符划分集中的划分的分块数以及预设单词的数量,根据所述分块数以及预设单词的数量通过第一预...

【专利技术属性】
技术研发人员:杜小坤帖军
申请(专利权)人:中南民族大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1