【技术实现步骤摘要】
一种基于语义相似的文本推荐方法及系统
本专利技术涉及计算机和自然语言处理
,尤其涉及一种基于语义相似的文本推荐方法及系统。
技术介绍
随着互联网的广泛应用,海量的信息呈指数式爆炸增长。互联网的蓬勃发展,催生了一批又一批互联网企业。互联网企业自诞生之日起就会和一个词密不可分,那就是“活跃用户量”,互联网企业为了追求用户活跃度也是各显其招,其中用户论坛就是维持并提高用户活跃度的重要手段。例如,互联网美容企业的用户论坛,各大手机品牌的用户论坛,互联网招聘公司的用户论坛等等。而论坛维持并提高用户活跃度的非常重要的一个手段就是通过文本推荐技术向用户推荐用户可能感兴趣的文本,来提高用户粘性,增加用户的访问频率和访问时间,从而达到提高企业热度、知名度、乃至舆论风险把控等目的根据大量的调查验证发现,网络上的网络论坛目前的推荐技术基本有两种,一种是基于TF-IDF的关键词solar/Elasticsearch检索相似推荐技术(传统文本推荐技术),一种是基于用户和文本画像的协同过滤推荐技术。第一种文本推荐技术存在死板,过于局限于文 ...
【技术保护点】
1.一种基于语义相似的文本推荐方法,其特征在于,包括:/n根据采集的论坛文本建立语义识别模型和其他多种类别模型,其中建立各类别模型的步骤包括:对论坛文本进行聚类并生成聚类结果后,根据聚类结果确定用于训练各类别模型的论坛文本的对应类别模型的类别集;其中,其他多种类别模型包括情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位识别模型、性别识别模型、年龄识别模型和/或TF-IDF关键词提取模型;/n根据建立的多种类别模型对论坛文本进行训练生成各打标签画像结果信息;/n将论坛文本和论坛文本对应的打标签画像结果信息,按照一种标签一列的方式存储到Elast ...
【技术特征摘要】
1.一种基于语义相似的文本推荐方法,其特征在于,包括:
根据采集的论坛文本建立语义识别模型和其他多种类别模型,其中建立各类别模型的步骤包括:对论坛文本进行聚类并生成聚类结果后,根据聚类结果确定用于训练各类别模型的论坛文本的对应类别模型的类别集;其中,其他多种类别模型包括情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位识别模型、性别识别模型、年龄识别模型和/或TF-IDF关键词提取模型;
根据建立的多种类别模型对论坛文本进行训练生成各打标签画像结果信息;
将论坛文本和论坛文本对应的打标签画像结果信息,按照一种标签一列的方式存储到Elasticsearch中;
对一论坛文本进行画像生成对应的打标签画像结果信息,根据打标签画像结果信息中各标签,在Elasticsearch中进行模糊查询,完成对该论坛文本的推荐。
2.根据权利要求1所述的方法,其特征在于,
所述根据采集的论坛文本建立语义识别模型和其他多种类别模型的步骤,包括:
根据采集的论坛文本通过机器学习方式建立语义识别模型和其他多种类别模型。
3.根据权利要求2所述的方法,其特征在于,
所述根据采集的论坛文本建立语义识别模型、情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位识别模型、性别识别模型、年龄识别模型或TF-IDF文本关键词模型的步骤,还包括:
根据采集的论坛文本和确定画像所需的维度信息,建立对应的模型,其中,维度信息包括:语义类别、情感类别、情绪类别、地理类别、情感关键词类别、行业类别、职位类别、性别类别、年龄类别或TF-IDF文本关键词类别。
4.根据权利要求2所述的方法,其特征在于,
所述将采集的论坛文本通过机器学习方式建立语义识别模型的步骤,还包括:通过文本聚类算法对论坛文本进行聚类并生成聚类结果后,根据聚类结果确定用于训练语义识别模型的论坛文本语义类别集,建立语义识别模型。
5.根据权利要求4所述的方法,其特征在于,
所述对一论坛文本进行画像生成对应的打标签画像结果信息,根据打标签画像结果信息中各标签,在Elasticsearch中进行模糊查询,完成对该论坛文本的推荐的步骤,还包括:
所述对一论坛文本进行画像生成对应的打标签画像结果信息,判断若存在通过语义识别模型对论坛文本进行训练生成打标签画像的操作,则首先根据语义类别在Elasticsearch中进行模糊查询,对该论坛文本进行推荐。
6.根据权利要求2...
【专利技术属性】
技术研发人员:李青龙,骆飞,彭璿韜,安龙波,王镇,
申请(专利权)人:北京智慧星光信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。