一种基于文本信息的用户画像抽取方法技术

技术编号:24940474 阅读:30 留言:0更新日期:2020-07-17 21:28
本发明专利技术涉及计算机信息处理技术领域,具体涉及一种基于文本信息的用户画像抽取方法,其主要包括如下步骤:步骤1、收集文本信息;步骤2、对所述文本信息是否可用于计算机进行训练和分析进行初筛,得出文本句子;步骤3、对步骤2中所得的文本句子进行标注;步骤4、对步骤3中所得的文本句子预处理,提取相关数据,去除无关词语;步骤5、构建文本特征向量,通过卡方检验和tfidf手段对文本信息特征进行描述。本发明专利技术相比传统的仅基于规则的用户画像发现系统能够有效提升人力使用效率,对文本信息的抽取在保证准确率的前提下极大的降低了人力成本,能够保证高效率地在线获取用户画像。达到高效且准确抽取文本中用户画像的目的。

【技术实现步骤摘要】
一种基于文本信息的用户画像抽取方法
本专利技术涉及计算机信息处理
,具体涉及一种基于文本信息的用户画像抽取方法。
技术介绍
在信息技术快速发展的今天,越来越多的领域开始使用机器学习技术取代传统行业中繁杂重复且耗费人力物力的工作。例如,在线购物网站中,使用采用语音助手或者对话机器人解决客户可能遇到的常见问题,或者交通部门使用计算机视觉技术对汽车牌照进行识别工作。采用机器学习技术不仅能够有效降低生产成本,还能够保证较高的准确率。在实际工业生产过程中,对文本的信息进行抽取,标注给定文本可能存在的语义信息类别,是各类应用的基础。工业生产过程中的用户分析,数字化营销,潜在客户挖掘,话题分析等问题都需要基于可靠的结构化信息来进行,而结构化信息的数据源很多情况下就源自于对普通文本信息进行的抽取。传统的文本信息抽取一般都基于规则和人力。例如,在电子商务网站可以根据用户与商家的需要获得用户的偏好信息,或者即时通讯工具希望知道用户的喜好,都可以基于用户的留言文本或者用户都对话信息进行分析,分析的方法一般是通过标注人员进行的。标注人员根据给定偏好类别选择特定关键词,再根据关键词对原文本进行搜索,得到原文本信息中符合关键字的一部分文本或段落,再将这类段落进行提取,从而达到获取用户需求的目的。然而直接通过标注人员进行选择关键词对文本进行过滤往往效率比较低下,而且直接使用关键词列表作为筛选条件可能会导致准确率高而召回率过低,或者召回率高准确率不够等问题,因此仅仅使用关键词对文本进行分析是远远不够的。专利技术内容本专利技术提供一种基于文本信息的用户画像抽取方法,相比传统的仅基于规则的用户画像发现系统能够有效提升人力使用效率,对文本信息的抽取在保证准确率的前提下极大的降低了人力成本,能够保证高效率地在线获取用户画像。达到高效且准确抽取文本中用户画像的目的。为了达到上述目的,本专利技术提供如下技术方案:一种基于文本信息的用户画像抽取方法,其特征在于,包括如下步骤:步骤1、收集文本信息;步骤2、对所述文本信息是否可用于计算机进行训练和分析进行初筛,得出文本句子;步骤3、对步骤2中所得的文本句子进行标注;步骤4、对步骤3中所得的文本句子预处理,提取相关数据,去除无关词语;步骤5、构建文本特征向量,通过卡方检验和tfidf手段对文本信息特征进行描述;步骤6、为使用分类器对文本信息的特征向量进行分类;步骤7、根据模型在测试数据上的准确率与召回率来判断模型训练结果;步骤8、通过顺序重复步骤1、步骤2、步骤3、步骤4对在线新收入的文本信息进行画像的预测工作。优选的,步骤1中所述的文本信息为通过使用语音转写或者在线抽取的方式获得的,且需要进行用户画像描绘的基础交互信息。优选的,步骤2中,以人工通过规则的方式将文本信息中用于描绘用户画像相关的句子筛选出来。优选的,步骤3中,通过人工理解的方式来判断筛选出句子与画像是否相符合。优选的,步骤4中,包含但不限于使用N-gram变换对文本信息进行提取,并对在句子中的无效词进行去处,所述的无效词与常用于自然语言处理中的停用词区别处理。优选的,所述步骤5中,对于任意一个本文信息中词语t和标签l的关系,一般有四种:A,出现词语t的里面,标签l为相关的词条;B,出现词语t的里面,标签l为不相关的词条;C,未出现词语t的里面,标签l为相关的词条;D,未出现词语t的里面,标签l为不相关的词条;因此所述卡方检验的公式为:构建文本特征时会先选择卡方分布值较大的n-gram作为备选特征短语,再使用tfidf提取文本的特征,tifdf是一种文本特征函数,tifdf能够综合考虑n-gram词组在单个文本中的出现频率和在全部文本中的出现情况,tifdf的公式为:tfidf(t,d,D)=tf(t,d)×idf(t,D)其中tf(t,d)=log(1+freq(t,d))代表的是n-gram短语t在文档d中的出现次数的函数,而则代表n-gramt在全部文档D中的逆向出现频率。本专利技术有益效果为:本专利技术提出的用户画像抽取方法,首先将通过收集的文本进行文本的抽取工作,将电话或者对话文本抽取为可以进行标注的数据对象,然后在可标注文本之后对文本进行标注操作,接着进行数据预处理的各项工作,随后进行卡方检验和文本特征抽取工作,最后进行文本预测模型的训练工作,在模型训练完毕之后,对一个新的对话文本,使用同样进行文本选择、和数据预处理工作,然后使用相同的文本特征抽取方法得到与训练使用的文本特征相对应的文本特征向量,再使用训练好的Xgboost模型进行文本画像的预测工作。该专利技术相比传统的仅基于规则的用户画像发现系统能够有效提升人力使用效率,对文本信息的抽取在保证准确率的前提下极大的降低了人力成本,能够保证高效率地在线获取用户画像。达到高效且准确抽取文本中用户画像的目的。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术中基于文本信息构建用户画像模型的流程图;图2为本专利技术中基于文本信息对用户画像进行预测的流程图。具体实施方式下面将结合本专利技术的附图,对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。根据图1、图2中的流程步骤所示,一种基于文本信息的用户画像抽取方法,其特征在于,包括如下步骤:步骤1、收集文本信息,在这里文本信息可以来自各类形式的文本信息,如对语音通话进行语音识别转写即可得到语音通话对应的文本信息,或者在线平台网站上,如微博,包含大量的文本信息。收集文本信息之后,将文本信息通过文件形式进行保存。步骤2、人工进行文本信息的初筛,基于收集到的文本信息,让标注人员根据给定画像主题,人工设计筛选规则,该筛选规则应保证筛选出来的文本结果能够进行下一步的训练。由于一般文本信息均比较长,因此在人工设计筛选规则时,筛选输出结果以短句为主,如果文本较长将会影响到标注效率和模型训练结果。步骤3,人工对文本进行标注工作,在人工设计筛选规则之后,随后标注人员应该对文本进行正负例的标注工作。这部分工作的关键点在于标注人员需要根据指定的画像主题进行判断是否与画像相关,标注人员只需要标注相关或者不相关即可。标注人员对文本进行标注的结果可以通过文本形式进行获取,这里我们使用主题为“天气好”作为主题来进行最小具体表现形式的举例。首先,为了便于表示,会将标注文本于标注结果综合总结为一个表格,表格主要内容包括标注文本与标注结果,具体形式如表1所示。本文档来自技高网...

【技术保护点】
1.一种基于文本信息的用户画像抽取方法,其特征在于,包括如下步骤:/n步骤1、收集文本信息;/n步骤2、对所述文本信息是否可用于计算机进行训练和分析进行初筛,得出文本句子;/n步骤3、对步骤2中所得的文本句子进行标注;/n步骤4、对步骤3中所得的文本句子预处理,提取相关数据,去除无关词语;/n步骤5、构建文本特征向量,通过卡方检验和tfidf手段对文本信息特征进行描述;/n步骤6、为使用分类器对文本信息的特征向量进行分类;/n步骤7、根据模型在测试数据上的准确率与召回率来判断模型训练结果;/n步骤8、通过顺序重复步骤1、步骤2、步骤3、步骤4对在线新收入的文本信息进行画像的预测工作。/n

【技术特征摘要】
1.一种基于文本信息的用户画像抽取方法,其特征在于,包括如下步骤:
步骤1、收集文本信息;
步骤2、对所述文本信息是否可用于计算机进行训练和分析进行初筛,得出文本句子;
步骤3、对步骤2中所得的文本句子进行标注;
步骤4、对步骤3中所得的文本句子预处理,提取相关数据,去除无关词语;
步骤5、构建文本特征向量,通过卡方检验和tfidf手段对文本信息特征进行描述;
步骤6、为使用分类器对文本信息的特征向量进行分类;
步骤7、根据模型在测试数据上的准确率与召回率来判断模型训练结果;
步骤8、通过顺序重复步骤1、步骤2、步骤3、步骤4对在线新收入的文本信息进行画像的预测工作。


2.根据权利要求1所述的一种基于文本信息的用户画像抽取方法,其特征在于:步骤1中所述的文本信息为通过使用语音转写或者在线抽取的方式获得的,且需要进行用户画像描绘的基础交互信息。


3.根据权利要求2所述的一种基于文本信息的用户画像抽取方法,其特征在于:步骤2中,以人工通过规则的方式将文本信息中用于描绘用户画像相关的句子筛选出来。


4.根据权利要求3所述的一种基于文本信息的用户画像抽取方法,其特征在于:步骤3中,通过人工理解的方式来判断筛选...

【专利技术属性】
技术研发人员:杨植麟陈虞君杜羽伦张宇韬陈欣梅徐超
申请(专利权)人:北京睿科伦智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1