用于生成同义词的方法和装置制造方法及图纸

技术编号:12528776 阅读:146 留言:0更新日期:2015-12-17 23:56
本发明专利技术提供了一种用于生成同义词的方法,包括:将输入的新词拆分成多个子词;从现有的同义词库检索该多个子词中各个子词的同义词;排列该多个子词的同义词所有可能的组合以获得若干同义词组合;以及筛选该若干同义词组合以获得该新词的同义词。

【技术实现步骤摘要】

本专利技术涉及本专利技术涉及知识库的编辑与扩展,尤其涉及用于人工智能语义识别的 知识库中同义词的生成方法和装置。
技术介绍
人机交互是研究系统与用户之间的交互关系的科学。系统可以是各种各样的机 器,也可以是计算机化的系统和软件。例如,通过人机交互可以实现各种人工智能系统,例 如,智能客服系统、语音控制系统等等。人工智能语义识别是人机交互的基础,其能够对人 类语言进行识别,以转换成机器能够理解的语言。 为了能够理解人类语言,人工智能语义识别系统需要一套知识库。海量异构数据 通过知识学习体系整理成知识,并融入到已有的知识体系中来。不同企业会生成各自的"专 属知识";同领域企业的知识中可以总结出"领域语义库",如图中的"电信领域语义库";多 个行业的知识还可以总结成"通用语义库和知识库"。 知识库的编辑与扩展对于人工智能语义识别系统尤其重要。
技术实现思路
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是 所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非 试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一 些概念以为稍后给出的更加详细的描述之序。 根据本专利技术的一方面,提供了一种用于生成同义词的方法,包括: 将输入的新词拆分成多个子词; 从现有的同义词库检索该多个子词中各个子词的同义词; 排列该多个子词的同义词所有可能的组合以获得若干同义词组合;以及 筛选该若干同义词组合以获得该新词的同义词。 在一实例中,该将输入的新词拆分成多个子词包括:基于现有的同义词库来拆分 该新词,使得拆分所得到的至少一部分子词在现有的同义词库中具有同义词。 在一实例中,该从现有的同义词库检索该多个子词中各个子词的同义词包括:检 索每个子词所在的词类所包含的所有同词类词语;以及从现有的同义词库检索各子词的至 少部分的同词类词语的同义词以作为相应子词的同义词。 在一实例中,该从现有的同义词库检索各子词的至少部分的同词类词语的同义词 以作为相应子词的同义词包括:从各子词的所有同词类词语中删除与该新词的词义相关性 较弱的同词类词语;以及从现有的同义词库检索各子词的经删除后的、与该新词的词义相 关性较强的同词类词语的同义词作为相应子词的同义词。 在一实例中,该筛选该若干同义词组合以获得该新词的同义词包括:响应于人工 选择从该若干同义词组合中选取语义通顺的同义词组合作为该新词的同义词;和/或根据 现有词库来选取已经存在于现有词库中的同义词组合作为该新词的同义词。 根据本专利技术的另一方面,提供了一种用于生成同义词的装置,包括: 拆分单元,用于将输入的新词拆分成多个子词; 检索单元,用于从现有的同义词库检索该多个子词中各个子词的同义词; 组合单元,用于排列该多个子词的同义词所有可能的组合以获得若干同义词组 合;以及 筛选单元,用于筛选该若干同义词组合以获得该新词的同义词。 在一实例中,该拆分单元基于现有的同义词库来拆分该新词,使得拆分所得到的 至少一部分子词在现有的同义词库中具有同义词。 在一实例中,该检索单元进一步适用于:检索每个子词所在的词类所包含的所有 同词类词语;以及从现有的同义词库检索各子词的至少部分的同词类词语的同义词以作为 相应子词的同义词。 在一实例中,该筛选单元还适用于从各子词的所有同词类词语中删除与该新词的 词义相关性较弱的同词类词语,其中该检索单元从现有的同义词库检索各子词的经删除后 的、与该新词的词义相关性较强的同词类词语的同义词作为相应子词的同义词。 在一实例中,该筛选单元进一步适用于:响应于人工选择从该若干同义词组合中 选取语义通顺的同义词组合作为该新词的同义词;和/或根据现有词库来选取已经存在于 现有词库中的同义词组合作为该新词的同义词。【附图说明】 在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本专利技术的 上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征 的组件可能具有相同或相近的附图标记。 图1是示出了根据本专利技术的第一实施例的生成同义词的方法的流程图; 图2是示出了根据本专利技术的第二实施例的生成同义词的方法的流程图; 图3是示出了根据本专利技术的第三实施例的生成同义词的方法的流程图;以及 图4是示出了根据本专利技术的一方面的生成同义词的装置的框图。 符号说明: 402 :拆分单元 404 :检索单元 406 :组合单元 408 :筛选单元【具体实施方式】 以下结合附图和具体实施例对本专利技术作详细描述。注意,以下结合附图和具体实 施例描述的诸方面仅是示例性的,而不应被理解为对本专利技术的保护范围进行任何限制。 词是一个句子的基本单元。对于人工智能语义识别而言,机器要想理解人类用户 的一句话,首先要理解每个词的意思。在人工智能语义识别系统的知识库中存在各种词库, 例如同义词库、词类库等等,其中存储了海量的机器能够理解的词语。 若一个词语在知识库中已经存在,机器即能理解该词语。然而,在人机对话时,人 类用户可能不一定会使用该词语,也有可能会使用该词语的同义词。因此,机器也需要能够 理解该词语的同义词。包括同义词的词库可被称为同义词库。 -般地,知识库中维护有同义词库。传统上,同义词库中的同义词是通过人力"想" 出来的。这种方法非常耗费人力,而且"漏想"的概率很高。 在本专利技术中,通过利用现有的同义词库,自动地生成新的同义词。随着同义词库的 不断迭代、更新。同义词库的规模会越来越大,亦越来越准确。 第一实施例: 图1是示出了根据本专利技术的第一实施例的生成同义词的方法100的流程图。如图 1所示,方法100可包括以下步骤: 步骤102 :将输入的新词拆分成多个子词。 首先,输入希望为其生成同义词的新词。例如,该输入的新词为W。该新词被拆分 为多个子词,例如A1+B1。 这里,可以基于现有的同义词库来拆分该新词,例如准则是使得拆分所得到的至 少一部分子词在现有的同义词库中具有同义词。换言之,拆分得到的AU Bl中至少有一者 存在于现有的同义词库中,从而能够找到AUBl中至少一者的同义词。例如,现有的同义词 库中可以找到Al的同义词、或者可以找到Bl的同义词,或者较理想的可以找到AUBl两者 的同义词。 注意,这里新词W被拆分为两个子词,但是可以理解的是,这仅仅是作为示例以用 于说明,事实上,W也可以被拆分为两个以上的子词。 此拆分可以是基于人工选择来执行的,也可以是自动拆分的,或者是自动拆分和 人工选择相结合的,例如,自动拆分后人工加以筛选确认。 步骤104 :从现有的同义词库检索这多个子词中各个子词的同义词。 获得该新词W的子词AUBl后,可以从现有同义词库中检索出每个子词的同义词, 例如在现有同义词库中: 子词Al包括同义词:Al、All、A12 子词 BI 包括同义词:B1、B11、B12、B13 注意,这里由于AU All、A12相互之间是同义词,所以Al也被广义地认为是子词 Al本身的同义词。类似的,Bl也是子词Bl的同义词。 这里子词Al包括三个同义词,子词Bl包括四个同义词,但是这里的数目仅仅是示 例以用于说明,每个子词的同义词的数量根据实际情况可以是其他的数目。 步骤106 :排列这多个本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/CN105159931.html" title="用于生成同义词的方法和装置原文来自X技术">用于生成同义词的方法和装置</a>

【技术保护点】
一种用于生成同义词的方法,包括:将输入的新词拆分成多个子词;从现有的同义词库检索所述多个子词中各个子词的同义词;排列所述多个子词的同义词所有可能的组合以获得若干同义词组合;以及筛选所述若干同义词组合以获得所述新词的同义词。

【技术特征摘要】

【专利技术属性】
技术研发人员:李陟朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1