【技术实现步骤摘要】
基于词向量进行近似搜索快速提取广告文本主题的方法
本专利技术涉及一种提取广告文本主题的方法,具体涉及一种基于词向量进行近似搜索快速提取广告文本主题的方法。
技术介绍
在互联网广告推荐业务中,首先根据用户点击或者浏览的广告文本提取广告文本主题进而确定用户的兴趣标签,如果用户兴趣标签符合广告主的兴趣定向投放要求则将其投放广告,目前提出广告文本主题常见的有LDA和GPU-DMM。LDA是一种文档主题生成模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过"以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语"这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布,在LDA估计文档主题过程中,联合概率分布可以通过以下公式计算:其中:指的是文档d采用主题k的次数,这个数越大代表该文档越有可能使用主题k;指的是文档-主题分布的迪利克雷超参数,起到一个平滑的作用;指的文档d中的词w在主题k中的出现次数;指的是主题-词语项的迪利克雷超参 ...
【技术保护点】
1.一种基于词向量进行近似搜索快速提取广告文本主题的方法,其特征在于:包括如下步骤:第一步,利用结巴分词工具,利用已有的停用词库,到广告标题中查找与停用词库相同的词将其去掉即去掉广告标题中的停用词,提取语料库中的中文词将其作为词典,利用词典,对广告文本主题进行分词;/n第二步,根据语料库中的词向量,采用随机投影算法建立词向量索引;/n第三步,索引建立后,读取广告文本主题的分词结果,找到每个分词后的词的词向量,通过近似最近邻搜索ANN算法从索引中快速查找查询词的最近邻词向量,通过余弦相似度来计算两个词向量之间的相似度,获取五十个以上的相似词,作为广告文本主题模型的基础数据;/ ...
【技术特征摘要】
1.一种基于词向量进行近似搜索快速提取广告文本主题的方法,其特征在于:包括如下步骤:第一步,利用结巴分词工具,利用已有的停用词库,到广告标题中查找与停用词库相同的词将其去掉即去掉广告标题中的停用词,提取语料库中的中文词将其作为词典,利用词典,对广告文本主题进行分词;
第二步,根据语料库中的词向量,采用随机投影算法建立词向量索引;
第三步,索引建立后,读取广告文本主题的分词结果,找到每个分词后的词的词向量,通过近似最近邻搜索ANN算法从索引中快速查找查询词的最近邻词向量,通过余弦相似度来计算两个词向量之间的相似度,获取五十个以上的相似词,作为广告文本主题模型的基础数据;
第四步,结合GPU-DMM模型和上述第三步中获取的广告文本主题模型的基础数据生成文本主题及文本主题下的词语;
第五步,根据用户点击过的广告文本以及第四步中生成的文本主题确定用户兴趣标签,将用户兴趣标签存入到Redis等实时Key-Value标签系统,在该用户下一次访问...
【专利技术属性】
技术研发人员:李新,李征宇,邵品贤,吴小刚,
申请(专利权)人:上海开域信息科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。