一种基于文本信息的用户画像抽取方法技术

技术编号：24940474 阅读：30 留言：0更新日期：2020-07-17 21:28

本发明专利技术涉及计算机信息处理技术领域，具体涉及一种基于文本信息的用户画像抽取方法，其主要包括如下步骤：步骤1、收集文本信息；步骤2、对所述文本信息是否可用于计算机进行训练和分析进行初筛，得出文本句子；步骤3、对步骤2中所得的文本句子进行标注；步骤4、对步骤3中所得的文本句子预处理，提取相关数据，去除无关词语；步骤5、构建文本特征向量，通过卡方检验和tfidf手段对文本信息特征进行描述。本发明专利技术相比传统的仅基于规则的用户画像发现系统能够有效提升人力使用效率，对文本信息的抽取在保证准确率的前提下极大的降低了人力成本，能够保证高效率地在线获取用户画像。达到高效且准确抽取文本中用户画像的目的。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本信息的用户画像抽取方法
本专利技术涉及计算机信息处理
，具体涉及一种基于文本信息的用户画像抽取方法。
技术介绍
在信息技术快速发展的今天，越来越多的领域开始使用机器学习技术取代传统行业中繁杂重复且耗费人力物力的工作。例如，在线购物网站中，使用采用语音助手或者对话机器人解决客户可能遇到的常见问题，或者交通部门使用计算机视觉技术对汽车牌照进行识别工作。采用机器学习技术不仅能够有效降低生产成本，还能够保证较高的准确率。在实际工业生产过程中，对文本的信息进行抽取，标注给定文本可能存在的语义信息类别，是各类应用的基础。工业生产过程中的用户分析，数字化营销，潜在客户挖掘，话题分析等问题都需要基于可靠的结构化信息来进行，而结构化信息的数据源很多情况下就源自于对普通文本信息进行的抽取。传统的文本信息抽取一般都基于规则和人力。例如，在电子商务网站可以根据用户与商家的需要获得用户的偏好信息，或者即时通讯工具希望知道用户的喜好，都可以基于用户的留言文本或者用户都对话信息进行分析，分析的方法一般是通过标注人员进行的。标注人员根据给定偏好类别选择特定关键词，再根据关键词对原文本进行搜索，得到原文本信息中符合关键字的一部分文本或段落，再将这类段落进行提取，从而达到获取用户需求的目的。然而直接通过标注人员进行选择关键词对文本进行过滤往往效率比较低下，而且直接使用关键词列表作为筛选条件可能会导致准确率高而召回率过低，或者召回率高准确率不够等问题，因此仅仅使用关键词对文本进行分析是远远不够的。专利技术...

【技术保护点】
1.一种基于文本信息的用户画像抽取方法，其特征在于，包括如下步骤：/n步骤1、收集文本信息；/n步骤2、对所述文本信息是否可用于计算机进行训练和分析进行初筛，得出文本句子；/n步骤3、对步骤2中所得的文本句子进行标注；/n步骤4、对步骤3中所得的文本句子预处理，提取相关数据，去除无关词语；/n步骤5、构建文本特征向量，通过卡方检验和tfidf手段对文本信息特征进行描述；/n步骤6、为使用分类器对文本信息的特征向量进行分类；/n步骤7、根据模型在测试数据上的准确率与召回率来判断模型训练结果；/n步骤8、通过顺序重复步骤1、步骤2、步骤3、步骤4对在线新收入的文本信息进行画像的预测工作。/n

【技术特征摘要】
1.一种基于文本信息的用户画像抽取方法，其特征在于，包括如下步骤：
步骤1、收集文本信息；
步骤2、对所述文本信息是否可用于计算机进行训练和分析进行初筛，得出文本句子；
步骤3、对步骤2中所得的文本句子进行标注；
步骤4、对步骤3中所得的文本句子预处理，提取相关数据，去除无关词语；
步骤5、构建文本特征向量，通过卡方检验和tfidf手段对文本信息特征进行描述；
步骤6、为使用分类器对文本信息的特征向量进行分类；
步骤7、根据模型在测试数据上的准确率与召回率来判断模型训练结果；
步骤8、通过顺序重复步骤1、步骤2、步骤3、步骤4对在线新收入的文本信息进行画像的预测工作。

2.根据权利要求1所述的一种基于文本信息的用户画像抽取方法，其特征在于：步骤1中所述的文本信息为通过使用语音转写或者在线抽取的方式获得的，且需要进行用户画像描绘的基础交互信息。

3.根据权利要求2所述的一种基于文本信息的用户画像抽取方法，其特征在于：步骤2中，以人工通过规则的方式将文本信息中用于描绘用户画像相关的句子筛选出来。

4.根据权利要求3所述的一种基于文本信息的用户画像抽取方法，其特征在于：步骤3中，通过人工理解的方式来判断筛选...

【专利技术属性】
技术研发人员：杨植麟，陈虞君，杜羽伦，张宇韬，陈欣梅，徐超，
申请(专利权)人：北京睿科伦智能科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人