一种词汇义原预测方法及装置制造方法及图纸

技术编号：19745173 阅读：21 留言：0更新日期：2018-12-12 04:43

本发明专利技术提供一种词汇义原预测方法及装置，所述方法包括：对于待预测词汇中的任一预设部位，若各词汇样本中该预设部位的字符与所述待预测词汇中该预设部位的字符相同，则从预设的义原词汇矩阵中获取各所述词汇样本对应的元素；根据各所述词汇样本对应的元素获取各所述义原属于所述待预测词汇中各预设部位的字符的第一分数，根据各所述义原属于所述待预测词汇中各预设部位的字符的第一分数，获取各所述义原属于所述待预测词汇的第二分数；根据各所述义原属于所述待预测词汇的第二分数，确定所述待预测词汇的义原。本发明专利技术提高了标注效率和词汇义原预测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种词汇义原预测方法及装置
本专利技术属于自然语言分析
，更具体地，涉及一种词汇义原预测方法及装置。
技术介绍
句子由词汇构成，而不同的词汇之间有共性和差异性。HowNet是一个被广泛使用的人工标注数据库，用来刻画不同词汇的语义，它将词汇标注为一系列义原所组成的结构，而义原是比词更细小的、不可分割的语义集合，表示了比词汇更加基本的意义。例如，铁匠的义原标注包括人、职位、金属、工，由这些义原可知铁匠的含义为铁匠是一类人，这类人是一种职业，与金属有关，并且属于工业领域。HowNet以及其标注的义原信息可以被用于词汇消歧、情感分析、跨语言词汇相似度以及词向量生成等自然语言处理任务中。虽然义原在自然语言分析和处理中具有重要作用，但义原的人工标注是一项费时费力的工作，且不免存在不一致问题等偏差。随着信息技术的发展，新的词汇层出不穷，已有词汇的含义也在不停地发生着变化，因此亟需一种义原的自动标注方法。
技术实现思路
为克服上述现有的词汇义原手动标注方法费时费力，且存在偏差的问题或者至少部分地解决上述问题，本专利技术提供一种词汇义原预测方法及装置。根据本专利技术的第一方面，提供一种词汇义原预测方法，包括：对于待预测词汇中的任一预设部位，若各词汇样本中该预设部位的字符与所述待预测词汇中该预设部位的字符相同，则从预设的义原词汇矩阵中获取各所述词汇样本对应的元素；其中，所述义原词汇矩阵的行与所述词汇样本一一对应，所述义原词汇矩阵的列与所有所述词汇样本的义原一一对应；根据各所述词汇样本对应的元素获取各所述义原属于所述待预测词汇中各预设部位的字符的第一分数，根据各所述义原属于所...

【技术保护点】
1.一种词汇义原预测方法，其特征在于，包括：对于待预测词汇中的任一预设部位，若各词汇样本中该预设部位的字符与所述待预测词汇中该预设部位的字符相同，则从预设的义原词汇矩阵中获取各所述词汇样本对应的元素；其中，所述义原词汇矩阵的行与所述词汇样本一一对应，所述义原词汇矩阵的列与所有所述词汇样本的义原一一对应；根据各所述词汇样本对应的元素获取各所述义原属于所述待预测词汇中各预设部位的字符的第一分数，根据各所述义原属于所述待预测词汇中各预设部位的字符的第一分数，获取各所述义原属于所述待预测词汇的第二分数；根据各所述义原属于所述待预测词汇的第二分数，确定所述待预测词汇的义原。

【技术特征摘要】
1.一种词汇义原预测方法，其特征在于，包括：对于待预测词汇中的任一预设部位，若各词汇样本中该预设部位的字符与所述待预测词汇中该预设部位的字符相同，则从预设的义原词汇矩阵中获取各所述词汇样本对应的元素；其中，所述义原词汇矩阵的行与所述词汇样本一一对应，所述义原词汇矩阵的列与所有所述词汇样本的义原一一对应；根据各所述词汇样本对应的元素获取各所述义原属于所述待预测词汇中各预设部位的字符的第一分数，根据各所述义原属于所述待预测词汇中各预设部位的字符的第一分数，获取各所述义原属于所述待预测词汇的第二分数；根据各所述义原属于所述待预测词汇的第二分数，确定所述待预测词汇的义原。2.根据权利要求1所述的方法，其特征在于，所述预设部位包括首部、中部和尾部中的一种或多种；其中，所述首部为所述待预测词汇或各所述词汇样本中第一个字符所在的位置；所述尾部为所述待预测词汇或各所述词汇样本中最后一个字符所在的位置；所述中部为所述待预测词汇或各所述词汇样本中除第一个字符和最后一个字符以外的其他字符所在的位置。3.根据权利要求1所述的方法，其特征在于，当各所述词汇样本标注有各所述义原时，所述义原词汇矩阵中各所述词汇样本对应的元素为1；当各所述词汇样本没有标注各所述义原时，所述义原词汇矩阵中各所述词汇样本对应的元素为0。4.根据权利要求1所述的方法，其特征在于，根据各所述词汇样本对应的元素获取各所述义原属于所述待预测词汇中各预设部位的字符的第一分数的步骤具体包括：对于任一所述义原，根据各所述词汇样本对应的元素判断各所述词汇样本是否标注该义原和获取各所述词汇样本标注的义原集合；统计标注该义原的所述词汇样本的数量和各所述词汇样本标注的义原集合的大小之和；将标注该义原的所述词汇样本的数量除以各所述词汇样本标注的义原集合的大小之和，获取各所述义原属于所述待预测词汇中各预设部位的字符的第一分数。5.根据权利要求1-4任一所述的方法，其特征在于，根据各所述义原属于所述待预测词汇中各预设部位的字符的第一分数，获取各所述义原属于所述待预测词汇的第二分数的步骤之后还包括：根据所述义原词汇矩阵，获取所述义原词汇矩阵的共现矩阵；基于随机梯度下降算法对所述义原词汇矩阵和所述共现矩阵进行分解，获取各所述义原的第一义原向量和第二义原向量；根据各所述义原的第一义原向量和第二义原向量，获取各所述义原属于所述待预测词汇的第三分数；将所述第二分数和所述第三分数进行加权叠加，获取各所述义原属于所述待预测词汇的内部义原分数；相应地，根据各所述义原属于所述待预测词汇的第二分数，确定所述待预测词汇的义原的步骤还包括：根据所述内部义原分数，确定所述待预测词汇的义原。6.根...

【专利技术属性】
技术研发人员：刘知远，金晖明，朱昊，谢若冰，孙茂松，林芬，林乐宇，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人