实体词标签生成方法、装置、计算机设备和可读存储介质制造方法及图纸

技术编号：25836622 阅读：29 留言：0更新日期：2020-10-02 14:17

本申请提出一种实体词标签生成方法、装置、计算机设备和可读存储介质，其中，方法包括：将待处理的第一实体词进行语义识别，以确定第一实体词对应的第一词向量；根据第一词向量与各第二词向量间的相似度，确定第一实体词所属的第一词簇，其中，每个第二词向量与预设的词簇中的一个第二实体词对应；将第一词簇对应的标签，确定为第一实体词对应的标签。该方法能够实现自动为实体词打标签，提升标签生成的效率，并且生成的标签不受限于人的主观知识影响，可以提升标签生成的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
实体词标签生成方法、装置、计算机设备和可读存储介质
本申请涉及互联网
，尤其涉及一种实体词标签生成方法、装置、计算机设备和可读存储介质。
技术介绍
目前，互联网中具有海量数据或者丰富数据，为了避免信息过载以及碎片化，从而更好地发现数据的内在规律，以及更好地理解数据，可以对全领域的实体词进行提炼，概括为更抽象表达的标签。例如，用户日志数据里包含大量的实体词，可以对实体词抽象出兴趣标签，从而可以为用户粒度兴趣的提取提供基础。现有技术中，通过人工手动的方式，为实体词抽象出标签，然而，人工方式抽象实体词标签，不仅效率较低，而且抽象结果受人的主观知识影响较大，准确性较差。
技术实现思路
本申请提出一种实体词标签生成方法、装置、计算机设备和可读存储介质，以实现自动为实体词打标签，提升标签生成的效率，并且生成的标签不受限于人的主观知识影响，可以提升标签生成的准确性，用于解决现有技术中人工方式抽象实体词标签，不仅效率较低，而且抽象结果受人的主观知识影响较大，准确性较差的技术问题。本申请第一方...

【技术保护点】
1.一种实体词标签生成方法，其特征在于，所述方法包括以下步骤：/n将待处理的第一实体词进行语义识别，以确定所述第一实体词对应的第一词向量；/n根据所述第一词向量与各第二词向量间的相似度，确定所述第一实体词所属的第一词簇，其中，每个第二词向量与预设的词簇中的一个第二实体词对应；/n将所述第一词簇对应的标签，确定为所述第一实体词对应的标签。/n

【技术特征摘要】
1.一种实体词标签生成方法，其特征在于，所述方法包括以下步骤：
将待处理的第一实体词进行语义识别，以确定所述第一实体词对应的第一词向量；
根据所述第一词向量与各第二词向量间的相似度，确定所述第一实体词所属的第一词簇，其中，每个第二词向量与预设的词簇中的一个第二实体词对应；
将所述第一词簇对应的标签，确定为所述第一实体词对应的标签。

2.如权利要求1所述的方法，其特征在于，所述将所述第一词簇对应的标签，确定为所述第一实体词对应的标签之前，还包括：
获取多个实体词对，其中，每个实体词对中包括互相对应的实体词及标签；
对每个实体词对中的实体词进行语义识别，确定每个实体词对应的第二词向量；
根据每个实体词对应的第二词向量，将多个实体词对进行分簇处理，以生成多个词簇；
根据每个词簇中各实体词对应的标签，确定每个实体词簇对应的标签。

3.如权利要求2所述的方法，其特征在于，所述根据每个词簇中各实体词对应的标签，确定每个实体词簇对应的标签，包括：
将所述每个词簇中各实体词对应的标签进行泛化处理，以确定每个实体词簇对应的标签。

4.如权利要求2所述的方法，其特征在于，第二词簇中包括N个实体词、且所述N个实体词中有M个实体词对应的标签相同，其中，N和M为整数，且M小于或等于N；
所述根据每个词簇中各实体词对应的标签，确定每个实体词簇对应的标签，包括：
若M/N大于或等于阈值，则确定所述M个实体词对应的标签为所述第二词簇对应的标签；
若M/N小于阈值，则对其他N-M个实体词对应的标签分别进行消歧处理，以确定所述其他N-M个实体词对应的标签中包含的参考标签；
对所述参考标签及所述M个实体词对应的标签进行泛化处理，以确定所述第二词簇对应的标签。

5.如权利要求4所述的方法，其特征在于，所述对其他N-M个实体...

【专利技术属性】
技术研发人员：吴雪洁，戴明洋，熊金，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人