【技术实现步骤摘要】
语义确定方法及装置
本专利技术实施例涉及语义分析
,特别涉及一种语义确定方法及装置。
技术介绍
在文本挖掘领域,经常需要先确定文本内容的语义。现有的语义确定方法为根据关键词的TF-IDF(TermFrequency–InverseDocumentFrequency,词频-逆向文件频率)进行确定。具体的,该方法包括:对文本内容进行切词,得到各个关键词;对于每个关键词,获取该关键词在文本内容中出现的TF,计算该关键词的IDF,计算该关键词的TF与IDF的乘积,通过各个关键词的乘积表示文本内容的语义。专利技术人在实现本专利技术实施例的过程中,发现现有技术至少存在以下问题:当文本内容较短时,关键词的TF通常较小,此时通过TF-IDF确定得到的文本内容的语义的准确度较差。
技术实现思路
为了解决现有技术中存在的问题,本专利技术实施例提供了一种语义确定方法及装置。技术方案如下:根据本专利技术实施例的第一方面,提供一种语义确定方法,该方法包括:对文本内容进行分词,得到至少两个关键词;获取所述至少两个关键词中每个关键词的关联词语;若关键词p的关联词语中存在与关键词q相同的第一关 ...
【技术保护点】
一种语义确定方法,其特征在于,所述方法包括:对文本内容进行分词,得到至少两个关键词;获取所述至少两个关键词中每个关键词的关联词语;若关键词p的关联词语中存在与关键词q相同的第一关联词语,则获取候选语义词组中的词语之间的语义相似度;所述候选语义词组包括所述关键词p和所述关键词q;根据每组候选语义词组以及所述候选语义词组所对应的语义相似度,确定所述文本内容的语义。
【技术特征摘要】
1.一种语义确定方法,其特征在于,所述方法包括:对文本内容进行分词,得到至少两个关键词;获取所述至少两个关键词中每个关键词的关联词语;若关键词p的关联词语中存在与关键词q相同的第一关联词语,则获取候选语义词组中的词语之间的语义相似度;所述候选语义词组包括所述关键词p和所述关键词q;根据每组候选语义词组以及所述候选语义词组所对应的语义相似度,确定所述文本内容的语义。2.根据权利要求1所述的方法,其特征在于,所述获取所述至少两个关键词中每个关键词的关联词语,包括:对于第n层中的每个词语,获取所述词语的语义关联词,将获取到的所述语义关联词作为第n+1层中的词语;其中,n的起始值为0,第0层中的词语为所述至少两个关键词;若n+1<V,则将n+1,再次执行所述对于第n层中的每个词语,获取所述词语的语义关联词,将获取到的所述语义关联词作为第n+1层中的词语的步骤;V为大于等于1的整数;若n+1=V,则将根据每个关键词获取到的各个词语作为所述关键词的关联词语。3.根据权利要求2所述的方法,其特征在于,所述词语为多叉树中的父节点,所述将获取到的所述语义关联词作为第n+1层中的词语,包括:将获取到的所述语义关联词作为所述父节点的子节点;所述将根据每个关键词获取到的各个词语作为所述关键词的关联词语,包括:对于每个关键词,将所述多叉树中所述关键词所对应的V层子节点中的词语确定为所述关键词的关联词语。4.根据权利要求2所述的方法,其特征在于,所述获取所述词语的语义关联词,包括:获取所述词语的m个所述语义关联词,所述m的取值为所述第n层所对应的数值,m为正整数。5.根据权利要求2所述的方法,其特征在于,所述获取候选语义词组中的词语之间的语义相似度,包括:获取所述关键词p与所述第一关联词语之间的语义相似度。6.根据权利要求5所述的方法,其特征在于,所述第一关联词语为所述关键词p所对应的第k层中的词语,所述关键词p与所述第一关联词语之间的各个词语为pi,0≤i≤k,p0为所述关键词p,pk为所述第一关联词语;k为正整数;所述获取所述关键词p与所述第一关联词语之间的语义相似度,包括:根据所述关键词p与所述第一关联词语确定所述语义相似度,所述语义相似度为:7.根据权利要求6所述的方法,其特征在于,获取到的所述词语的语义关联词的个数为M,M为正整数;所述获取所述关键词p与所述第一关联词语之间的语义相似度之前,所述方法还包括:对所述M个语义关联词与所述词语之间的M个语义相似度做归一化处理,得到归一化后的每个语义关联词与所述词语的语义相似度。8.根据权利要求2所述的方法,其特征在于,若所述关键词q的关联词语中存在与所述关键词p相同的第二关联词语;所述获取候选语义词组中的词语之间的语义相似度,包括:确定所述第一关联词语和所述第二关联词语中所在层数较高的目标关联词语;获取所述目标关联词语与所述目标关联词语所对应的关键词之间的语义相似度。9.根据权利要求1至8任一所述的方法,其特征在于,所述根据每组候选语义词组以及所述候选语义词组所对应的语义相似度,确定所述文本内容的语义,包括:选取所述每组候选语义词组中语义相似度大于预设阈值的候选语义词组,通过选择的所述候选语义词组表征所述文本内容的语义;或者,选取所述每组候选语义词组中语义相似度排名在前N位的候...
【专利技术属性】
技术研发人员:张博,林乐宇,夏锋,冯喆,陈磊,刘毅,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。