用户特征数据的提取方法和装置制造方法及图纸

技术编号:10806736 阅读:114 留言:0更新日期:2014-12-24 13:12
本发明专利技术提出一种用户特征数据的提取方法和装置,其中,所述用户特征数据的提取方法包括以下步骤:采集用户通过移动终端输入的日常语音数据;对日常语音数据进行特征识别,以获取用户的多个语音特征数据;以及根据获取的多个语音特征数据建立用户的特征数据库。本发明专利技术的用户特征数据的提取方法,根据用户的语音数据进行针对性的分析,能够方便、准确地获取用户的特征数据以及组成结构,因而有利于获取用户的潜在需求和个性化需求。

【技术实现步骤摘要】
【专利摘要】本专利技术提出一种用户特征数据的提取方法和装置,其中,所述用户特征数据的提取方法包括以下步骤:采集用户通过移动终端输入的日常语音数据;对日常语音数据进行特征识别,以获取用户的多个语音特征数据;以及根据获取的多个语音特征数据建立用户的特征数据库。本专利技术的用户特征数据的提取方法,根据用户的语音数据进行针对性的分析,能够方便、准确地获取用户的特征数据以及组成结构,因而有利于获取用户的潜在需求和个性化需求。【专利说明】用户特征数据的提取方法和装置
本专利技术涉及互联网
,特别涉及一种用户特征数据的提取方法和装置。
技术介绍
在移动互联网应用中,为了能够满足用户对资源的需求,需要对用户特征数据进行准确、全面分析,从而可根据提取出的用户特征数据提供符合不同用户个性化需求的资源。目前,可对用户在搜索引擎中输入的文本进行采集,并通过数据挖掘技术对采集到的数据中提取用户特征数据;或者直接通过用户问卷调查的方法获取用户的类别、需求等特征数据。 但是,通过采集用户输入的文本来挖掘用户特征,主要是通过对用户输入的文本进行概括后得到词语或者短语,并不能获取用户对这些词语或短语的主观感情色彩(是否喜欢、是否感兴趣等),因而容易因误判而难以准确的获取用户的需求、兴趣点等。另外,通过对用户输入的文本分析用户特征数据的方法,需要与文本对应的用户标识信息等数据进行绑定,因而对于未绑定用户标识信息的用户来说,进行跟踪记录及特征数据的提取的难度很大。而通过用户问卷调查的方法受到人力物力资源的限制,局限性大,仅适用于小范围的调查,并且数据资源过于集中,数据缺乏代表性,不利于对深层次的用户特征的提取。
技术实现思路
本专利技术旨在至少在一定程度上解决上述技术问题。 为此,本专利技术的第一个目的在于提出一种用户特征数据的提取方法,能够方便、准确地获取用户的特征数据以及组成结构,有利于获取用户的潜在需求和个性化需求。 本专利技术的第二个目的在于提出一种用户特征数据的提取装置。 为达上述目的,根据本专利技术第一方面实施例提出了一种用户特征数据的提取方法,包括以下步骤:采集用户通过移动终端输入的日常语音数据;对所述日常语音数据进行特征识别,以获取所述用户的多个语音特征数据;以及根据获取的所述多个语音特征数据建立所述用户的特征数据库。 本专利技术实施例的用户特征数据的提取方法,通过采集用户输入的日常语音数据,并进行特征识别,以获取用户的多个语音特征数据,并据此建立用户的特征数据库,从而根据用户的语音数据进行针对性的分析,能够方便、准确地获取用户的特征数据以及组成结构,并且语音数据本身可用于标识用户,因而有利于获取用户的潜在需求和个性化需求。 本专利技术第二方面实施例提供了一种用户特征数据的提取装置,包括:第一采集模块,用于采集用户通过移动终端输入的日常语音数据;特征识别模块,用于对所述日常语音数据进行特征识别,以获取所述用户的多个语音特征数据;以及建立模块,用于根据获取的所述多个语音特征数据建立所述用户的特征数据库。 本专利技术实施例的用户特征数据的提取装置,通过采集用户输入的日常语音数据,并进行特征识别,以获取用户的多个语音特征数据,并据此建立用户的特征数据库,从而根据用户的语音数据进行针对性的分析,能够方便、准确地获取用户的特征数据以及组成结构,并且语音数据本身可用于标识用户,因而有利于获取用户的潜在需求和个性化需求。 本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。 【专利附图】【附图说明】 本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中: 图1为根据本专利技术一个实施例的用户特征数据的提取方法的流程图; 图2为根据本专利技术另一个实施例的用户特征数据的提取方法的流程图; 图3为根据本专利技术又一个实施例的用户特征数据的提取方法的流程图; 图4为根据本专利技术一个实施例的用户特征数据的提取装置的结构示意图; 图5为根据本专利技术另一个实施例的用户特征数据的提取装置的结构示意图; 图6为根据本专利技术又一个实施例的用户特征数据的提取装置的结构示意图; 图7为根据本专利技术再一个实施例的用户特征数据的提取装置的结构示意图; 图8为根据本专利技术另又一个实施例的用户特征数据的提取装置的结构示意图。 【具体实施方式】 下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。 在本专利技术的描述中,需要理解的是,术语“多个”指两个或两个以上;术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。 下面参考附图描述根据本专利技术实施例的用户特征数据的提取方法和装置。 为了更准确的提取用户的特征数据,本专利技术提出了一种用户特征数据的提取方法,包括以下步骤:采集用户通过移动终端输入的日常语音数据;对日常语音数据进行特征识别,以获取用户的特征数据;以及根据获取的特征数据建立用户的特征数据库。 图1为根据本专利技术一个实施例的用户特征数据的提取方法的流程图。 如图1所示,根据本专利技术实施例的用户特征数据的提取方法,包括: S1I,采集用户通过移动终端输入的日常语音数据。 其中,日常语音数据可以是通过安装在移动终端中的各种语音输入装置获取的语音数据。在本专利技术的一个实施例中,举例来说,可通过移动终端中安装的语音助手、语音SDK (Software Development Kit,软件开发工具包)以及使用语音识别引擎应用程序等对用户输入的日常语音数据进行采集,或者通过在用户使用移动终端进行通话的过程中获取的语音通话数据获取用户日常语音数据。 S102,对日常语音数据进行特征识别,以获取用户的多个语音特征数据。 在本专利技术的实施例中,用户的语音特征数据可包括用户的身份特征数据、年龄特征数据和用户所处的地区特征数据中的一种或多种。 其中,用户的身份特征数据可包括用户的性别信息;年龄特征数据为用户所属的年龄阶段,如青少年、中年、老年等;可获取所述日常语音数据的基频特征,并根据所述基频特征获取所述用户的身份特征数据和/或年龄特征数据。基频特征是指声音中最低且通常情况下最强的频率,通常被认为是声音的基础音调。男性和女性的声音的基频特征以及不同年龄段的人的声音的基频都具有较大的区别,因此可预先根据不同性别对应的基频特征和不同年龄段对应的基频特征的建立基频特征数据库。从而将据获取的到的用户的日常语音数据的基频特征与基频特征数据库中的基频特征进行比对,以得到该用户的身份特征数据和/或年龄特征数据。 用户所处的地区特征是指用户所在地或者用户的籍贯地区,可根据用户所使用语言种类来判断。语言种类可包括不同语种、方言等,例如、英语、日语、韩语、阿拉伯语、粤语、四川方言等。具体地,可对所述日常语音数据进行语义解析,以获取所述日常语音数据所属的语言种类,并根据所述所属的语言种类获取所述用户所处的地区特征数据。在对日常语音数据进行语义解析后,可得到语音的具体内容。然后,根据具体内容中本文档来自技高网
...

【技术保护点】
一种用户特征数据的提取方法,其特征在于,包括以下步骤:采集用户通过移动终端输入的日常语音数据;对所述日常语音数据进行特征识别,以获取所述用户的多个语音特征数据;以及根据获取的所述多个语音特征数据建立所述用户的特征数据库。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵鹏飞马旭杨亮
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1