当前位置: 首页 > 专利查询>清华大学专利>正文

一种词汇义原预测方法及装置制造方法及图纸

技术编号:19745173 阅读:21 留言:0更新日期:2018-12-12 04:43
本发明专利技术提供一种词汇义原预测方法及装置,所述方法包括:对于待预测词汇中的任一预设部位,若各词汇样本中该预设部位的字符与所述待预测词汇中该预设部位的字符相同,则从预设的义原词汇矩阵中获取各所述词汇样本对应的元素;根据各所述词汇样本对应的元素获取各所述义原属于所述待预测词汇中各预设部位的字符的第一分数,根据各所述义原属于所述待预测词汇中各预设部位的字符的第一分数,获取各所述义原属于所述待预测词汇的第二分数;根据各所述义原属于所述待预测词汇的第二分数,确定所述待预测词汇的义原。本发明专利技术提高了标注效率和词汇义原预测的准确性。

【技术实现步骤摘要】
一种词汇义原预测方法及装置
本专利技术属于自然语言分析
,更具体地,涉及一种词汇义原预测方法及装置。
技术介绍
句子由词汇构成,而不同的词汇之间有共性和差异性。HowNet是一个被广泛使用的人工标注数据库,用来刻画不同词汇的语义,它将词汇标注为一系列义原所组成的结构,而义原是比词更细小的、不可分割的语义集合,表示了比词汇更加基本的意义。例如,铁匠的义原标注包括人、职位、金属、工,由这些义原可知铁匠的含义为铁匠是一类人,这类人是一种职业,与金属有关,并且属于工业领域。HowNet以及其标注的义原信息可以被用于词汇消歧、情感分析、跨语言词汇相似度以及词向量生成等自然语言处理任务中。虽然义原在自然语言分析和处理中具有重要作用,但义原的人工标注是一项费时费力的工作,且不免存在不一致问题等偏差。随着信息技术的发展,新的词汇层出不穷,已有词汇的含义也在不停地发生着变化,因此亟需一种义原的自动标注方法。
技术实现思路
为克服上述现有的词汇义原手动标注方法费时费力,且存在偏差的问题或者至少部分地解决上述问题,本专利技术提供一种词汇义原预测方法及装置。根据本专利技术的第一方面,提供一种词汇义原预测方法,包括:对于待预测词汇中的任一预设部位,若各词汇样本中该预设部位的字符与所述待预测词汇中该预设部位的字符相同,则从预设的义原词汇矩阵中获取各所述词汇样本对应的元素;其中,所述义原词汇矩阵的行与所述词汇样本一一对应,所述义原词汇矩阵的列与所有所述词汇样本的义原一一对应;根据各所述词汇样本对应的元素获取各所述义原属于所述待预测词汇中各预设部位的字符的第一分数,根据各所述义原属于所述待预测词汇中各预设部位的字符的第一分数,获取各所述义原属于所述待预测词汇的第二分数;根据各所述义原属于所述待预测词汇的第二分数,确定所述待预测词汇的义原。根据本专利技术第二方面提供一种词汇义原预测装置,包括:第一获取模块,用于对于待预测词汇中的任一预设部位,若各词汇样本中该预设部位的字符与所述待预测词汇中该预设部位的字符相同,则从预设的义原词汇矩阵中获取各所述词汇样本对应的元素;其中,所述义原词汇矩阵的行与所述词汇样本一一对应,所述义原词汇矩阵的列与所有所述词汇样本的义原一一对应;第二获取模块,用于根据各所述词汇样本对应的元素获取各所述义原属于所述待预测词汇中各预设部位的字符的第一分数,根据各所述义原属于所述待预测词汇中各预设部位的字符的第一分数,获取各所述义原属于所述待预测词汇的第二分数;确定模块,用于根据各所述义原属于所述待预测词汇的第二分数,确定所述待预测词汇的义原。根据本专利技术的第三方面,提供一种电子设备,包括:至少一个处理器、至少一个存储器和总线;其中,所述处理器和存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如前所述的方法。本专利技术提供一种词汇义原预测方法及装置,该方法通过先基于已经标注义原的词汇样本和预先获取的义原词汇矩阵,对于待预测词汇中的任一预设部位,在各词汇样本中该预设部位的字符与待预测词汇中该预设部位的字符相同时,从义原词汇矩阵中获取各所述词汇样本对应的元素,然后根据各所述词汇样本对应的元素,获取待预测词汇中各预设部位的字符标注各义原的概率,进而获取待预测词汇标注各义原的概率,一方面,根据待预测词汇标注各义原的概率自动对待预测词汇的义原进行预测,提高了标注效率;另一方面,利用词汇的字符信息对待预测词汇的义原进行预测,提高了自动标注的准确性和自动义原标注在低频词和全新词上的稳定性。附图说明图1为本专利技术实施例提供的词汇义原预测方法整体流程示意图;图2为本专利技术实施例提供的词汇义原预测方法中损失函数处理过程示意图;图3为本专利技术实施例提供的词汇义原预测装置整体结构示意图;图4为本专利技术实施例提供的电子设备整体结构示意图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。在本专利技术的一个实施例中提供一种词汇义原预测方法,图1为本专利技术实施例提供的词汇义原预测方法整体流程示意图,该方法包括:S101,对于待预测词汇中的任一预设部位,若各词汇样本中该预设部位的字符与待预测词汇中该预设部位的字符相同,则从预设的义原词汇矩阵中获取各词汇样本对应的元素;其中,义原词汇矩阵的行与词汇样本一一对应,义原词汇矩阵的列与所有词汇样本的义原一一对应;其中,待预测词汇为需要进行义原预测的词汇,预设部位为预先进行设定的待预测词汇中的各部位。例如,对于待预测词汇“高等教育”,将“高等教育”中第一个字符“高”所在的位置作为首部,将“等教”字符所在的位置作为中部,将“高等教育”中最后一个字符“育”字符所在的位置作为尾部。对于待预测词汇“铁匠”,将“铁匠”中第一个字符“铁”所在的位置作为首部,将“铁匠”中最后一个字符“匠”字符所在的位置作为尾部。词汇样本为已经进行义原标注的词汇。对于待预测词汇中的任一预设部位,判断各词汇样本中该预设部位的字符与待预测词汇中该预设部位的字符是否相同。若相同,则从预设的义原词汇矩阵中获取各词汇样本对应的元素。例如,获取首部为“铁”字符的词汇样本,从义原词汇矩阵中获取首部为“铁”的词汇样本对应的元素。义原词汇矩阵是由所有词汇样本的义原向量构成。每个义原向量的长度等于所有词汇样本的义原数量之和。义原词汇矩阵的每一列对应一个义原,每一行对应一个词汇样本,根据各词汇样本是否标注有各义原,确定词汇样本对应的元素。S102,根据各词汇样本对应的元素获取各义原属于待预测词汇中各预设部位的字符的第一分数,根据各义原属于待预测词汇中各预设部位的字符的第一分数,获取各义原属于待预测词汇的第二分数;例如,从义原词汇矩阵中获取首部为“铁”的词汇样本对应的元素之后,根据元素,判断首部为“铁”的词汇样本是否标注有各义原。如果某种义原,如“金属”被很多首部为“铁”的词汇样本标注,则说明字符“铁”标注义原“金属”的概率高。本实施例中根据各词汇样本对应的元素获取各义原属于待预测词汇中各预设部位的字符的第一分数。第一分数用于表示首部为“铁”的词汇样本标注各义原的概率,尾部为“匠”的词汇样本标注各义原的概率。本实施例不限于第一分数的计算方式。将各义原属于待预测词汇中各预设部位的字符的第一分数直接相加,或根据各预设部位的重要程度,将各义原属于待预测词汇中各预设部位的字符的第一分数乘以相应权重后相加,获取各义原属于待预测词汇的第二分数。本实施例不限于第二分数的计算方式。第二分数用于表示待预测样本标注各义原的概率。S103,根据各义原属于待预测词汇的第二分数,确定待预测词汇的义原。具体地,可以对各第二分数进行排序,选择预设个数的第二分数对应的义原作为待预测词汇的义原。或者,将各第二分数与预设阈值进行比较,选择大于预设阈值的第二分数对应的义原作为待预测词汇的义原。本实施例通过先基于已经标注义原的词汇样本和预先获取的义原词汇矩阵,对于待预测词汇中的任一预设部位,在各词汇样本中该预设部位的字符与待预测词汇中该预设部位的字符相同时,从义原词汇矩阵中获取各词汇样本对应的元素,然后根据各词汇样本对应的元素,获取待预测词汇中各预设部位的字符标注各义原的概率,进而获取本文档来自技高网...

【技术保护点】
1.一种词汇义原预测方法,其特征在于,包括:对于待预测词汇中的任一预设部位,若各词汇样本中该预设部位的字符与所述待预测词汇中该预设部位的字符相同,则从预设的义原词汇矩阵中获取各所述词汇样本对应的元素;其中,所述义原词汇矩阵的行与所述词汇样本一一对应,所述义原词汇矩阵的列与所有所述词汇样本的义原一一对应;根据各所述词汇样本对应的元素获取各所述义原属于所述待预测词汇中各预设部位的字符的第一分数,根据各所述义原属于所述待预测词汇中各预设部位的字符的第一分数,获取各所述义原属于所述待预测词汇的第二分数;根据各所述义原属于所述待预测词汇的第二分数,确定所述待预测词汇的义原。

【技术特征摘要】
1.一种词汇义原预测方法,其特征在于,包括:对于待预测词汇中的任一预设部位,若各词汇样本中该预设部位的字符与所述待预测词汇中该预设部位的字符相同,则从预设的义原词汇矩阵中获取各所述词汇样本对应的元素;其中,所述义原词汇矩阵的行与所述词汇样本一一对应,所述义原词汇矩阵的列与所有所述词汇样本的义原一一对应;根据各所述词汇样本对应的元素获取各所述义原属于所述待预测词汇中各预设部位的字符的第一分数,根据各所述义原属于所述待预测词汇中各预设部位的字符的第一分数,获取各所述义原属于所述待预测词汇的第二分数;根据各所述义原属于所述待预测词汇的第二分数,确定所述待预测词汇的义原。2.根据权利要求1所述的方法,其特征在于,所述预设部位包括首部、中部和尾部中的一种或多种;其中,所述首部为所述待预测词汇或各所述词汇样本中第一个字符所在的位置;所述尾部为所述待预测词汇或各所述词汇样本中最后一个字符所在的位置;所述中部为所述待预测词汇或各所述词汇样本中除第一个字符和最后一个字符以外的其他字符所在的位置。3.根据权利要求1所述的方法,其特征在于,当各所述词汇样本标注有各所述义原时,所述义原词汇矩阵中各所述词汇样本对应的元素为1;当各所述词汇样本没有标注各所述义原时,所述义原词汇矩阵中各所述词汇样本对应的元素为0。4.根据权利要求1所述的方法,其特征在于,根据各所述词汇样本对应的元素获取各所述义原属于所述待预测词汇中各预设部位的字符的第一分数的步骤具体包括:对于任一所述义原,根据各所述词汇样本对应的元素判断各所述词汇样本是否标注该义原和获取各所述词汇样本标注的义原集合;统计标注该义原的所述词汇样本的数量和各所述词汇样本标注的义原集合的大小之和;将标注该义原的所述词汇样本的数量除以各所述词汇样本标注的义原集合的大小之和,获取各所述义原属于所述待预测词汇中各预设部位的字符的第一分数。5.根据权利要求1-4任一所述的方法,其特征在于,根据各所述义原属于所述待预测词汇中各预设部位的字符的第一分数,获取各所述义原属于所述待预测词汇的第二分数的步骤之后还包括:根据所述义原词汇矩阵,获取所述义原词汇矩阵的共现矩阵;基于随机梯度下降算法对所述义原词汇矩阵和所述共现矩阵进行分解,获取各所述义原的第一义原向量和第二义原向量;根据各所述义原的第一义原向量和第二义原向量,获取各所述义原属于所述待预测词汇的第三分数;将所述第二分数和所述第三分数进行加权叠加,获取各所述义原属于所述待预测词汇的内部义原分数;相应地,根据各所述义原属于所述待预测词汇的第二分数,确定所述待预测词汇的义原的步骤还包括:根据所述内部义原分数,确定所述待预测词汇的义原。6.根...

【专利技术属性】
技术研发人员:刘知远金晖明朱昊谢若冰孙茂松林芬林乐宇
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1