确定词语相似度的方法及装置制造方法及图纸

技术编号：11593937 阅读：58 留言：0更新日期：2015-06-11 02:30

本公开是关于一种确定词语相似度的方法及装置。所述方法，包括：从短文本中获取多个结构词；针对多个结构词中的每两个结构词，将两个结构词分别与预设的模板进行匹配，确定匹配成功的模板和模板数量；确定两个结构词共同匹配成功的模板的共同模板数量；根据共同模板数量和两个结构词分别对应的模板数量，确定两个结构词之间的结构相似度；在预设短文本集合中，确定两个结构词共同匹配成功的短文本的共同短文本数量；根据共同短文本数量，确定两个结构词之间的校正值；根据结构相似度及校正值，计算两个结构词之间的相似度。利用简单的算法计算两个词之间的相似度，节约了大量的计算量，并且提高了计算的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
确定词语相似度的方法及装置
本公开涉及计算机领域，尤其涉及确定词语相似度的方法及装置。
技术介绍
相关技术中，在人工智能中的自然语言处理领域中，自然语言的处理内容，包括：命名实体识别，词性标注，短文本聚类，知识抽提，信息检索等。其中，短文本聚类是知识抽提的必要环节，可以用短文本的模板来抽取短文本中的知识点。短文本聚类的依据就是短文本的相似度。而短文本之间的相似度则是短文本中每个词的相似度所决定的。
技术实现思路
为克服相关技术中存在的问题，本公开提供一种确定词语相似度的方法。利用简单的算法计算两个词之间的相似度，节约了大量的计算量，并且提高了计算的准确度。根据本公开实施例的第一方面，提供一种确定词语相似度的方法，包括：从短文本中获取多个结构词；针对所述多个结构词中的每两个结构词，将所述两个结构词分别与预设的模板进行匹配，确定匹配成功的模板和模板数量；确定所述两个结构词共同匹配成功的模板的共同模板数量；根据所述共同模板数量和所述两个结构词分别对应的模板数量，确定所述两个结构词之间的结构相似度；在预设短文本集合中，确定所述两个结构词共同匹配成功的短文本的共同短文本数量；根据所述共同短文本数量，确定所述两个结构词之间的校正值；根据所述结构相似度及校正值，计算所述两个结构词之间的相似度。本公开的实施例提供的技术方案可以包括以下有益效果：通过根据两个结构词上下文的信息计算两个结构词的结构相似度，再根据两个结构词出现在相同短文本中的次数，计算两个结构词之间的校正值，根据结构相似度及校正值，计算两个结构词之间的相似度。利用简单的算法计算两个结构词之间的相似度，节约了大量的计...
确定词语相似度的方法及装置

【技术保护点】
一种确定词语相似度的方法，其特征在于，包括：从短文本中获取多个结构词；针对所述多个结构词中的每两个结构词，将所述两个结构词分别与预设的模板进行匹配，确定匹配成功的模板和模板数量；确定所述两个结构词共同匹配成功的模板的共同模板数量；根据所述共同模板数量和所述两个结构词分别对应的模板数量，确定所述两个结构词之间的结构相似度；在预设短文本集合中，确定所述两个结构词共同匹配成功的短文本的共同短文本数量；根据所述共同短文本数量，确定所述两个结构词之间的校正值；根据所述结构相似度及校正值，计算所述两个结构词之间的相似度。

【技术特征摘要】
1.一种确定词语相似度的方法，其特征在于，包括：从短文本中获取多个结构词；针对所述多个结构词中的每两个结构词，将所述两个结构词分别与预设的模板进行匹配，确定匹配成功的模板和模板数量；确定所述两个结构词共同匹配成功的模板的共同模板数量；根据所述共同模板数量和所述两个结构词分别对应的模板数量，确定所述两个结构词之间的结构相似度；在预设短文本集合中，确定所述两个结构词共同匹配成功的短文本的共同短文本数量；根据所述共同短文本数量，确定所述两个结构词之间的校正值；根据所述结构相似度及校正值，计算所述两个结构词之间的相似度；所述根据所述结构相似度及校正值，计算所述两个结构词之间的相似度是通过以下公式计算，所述公式包括：其中，S为所述两个结构词之间的相似度，Ss为两个结构词之间的结构相似度，C为两个结构词之间的校正值。2.如权利要求1所述的方法，其特征在于，所述根据所述共同模板数量和所述两个结构词分别对应的模板数量，确定所述两个结构词之间的结构相似度是通过以下公式计算，所述公式包括：其中，T为两个结构词共同匹配成功的模板的共同模板数量，Ta为一个结构词匹配成功的模板的数量，Tb为另一个结构词匹配成功的模板的数量。3.如权利要求1所述的方法，其特征在于，所述根据所述共同短文本数量，确定所述两个结构词之间的校正值是通过以下公式计算，所述公式包括：C＝(W+1)θ；其中，W为所述两个结构词共同匹配成功的短文本的共同短文本数量，θ为校正系数，θ为正整数。4.如权利要求1所述的方法，其特征在于，所述确定匹配成功的模板和模板数量，还包括：获得模板出现的次数；当模板出现的次数大于预设阈值时，根据所述模板出现的次数从多到少的顺序进行排列；确定所述模板出现的次数从多到少的顺序中排在前N位的模板为匹配成功的模板，其中，N为预设的正整数。5.如权利要求1所述的方法，其特征在于，所述模板是通过以下方式生成的：从预设的短文本集合中获取短文本；在所述短文本中根据除顿号以外的分隔符号，确定两个分隔符号之间的文本段为短句；确定所述短句中的结构词；根据所述结构词及所述短句中词语的词性，生成模板。6.一种确定词语相似度的装置，其特征在于，包括：第一获取模块，用于从短文本中获取多个结构词；第一确定模块，用于针对所述多个结构词中的每两个结构词，将所述两个结构词分别与预设的模板进行匹配，确定匹配成功的模板和模板数量...

【专利技术属性】
技术研发人员：刘毅超，汪平仄，代阳，
申请(专利权)人：小米科技有限责任公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人