自然语言处理方法、装置、存储介质及终端设备制造方法及图纸

技术编号:17196201 阅读:202 留言:0更新日期:2018-02-03 22:52
本申请实施例公开了一种自然语言处理方法、装置、存储介质及终端设备,该方法包括:确定用户的终端设备上的目标应用;获取所述用户在操作所述目标应用的过程中确定的操作信息,作为目标记录信息;根据所述目标记录信息确定爬行网站;从所述爬行网站采集训练语句;将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型。本申请实施例的优点在于可以更准确地解析用户输入的信息以及了解用户的意图。

【技术实现步骤摘要】
自然语言处理方法、装置、存储介质及终端设备
本申请实施例涉及基于人工智能技术进行语言语义识别的
,尤其涉及一种自然语言处理方法、装置、存储介质及终端设备。
技术介绍
自然语言处理是属于人工智能
中的一个重要的方向,其应用领域涉及广泛,包括终端设备的智能助手、翻译工具和无人汽车等。通过自然语言处理技术可以根据用户的输入语音或文字确定用户的意图,并执行相应的操作;在用户不方便操作终端设备,或者忘记操作过程时,可以直接通过与智能助手“对话”而执行相应的操作。然而,由于相同的文字在不同的应用场景中所代表的含义并不单一,或者具有相同的文字会被不同的人表述为不同的含义。所以,终端设备上智能助手有时候并不能准确地理解用户输入的文字所要表达的真正的意图,所以需要一种更能准确理解用户意图的自然语言处理技术。
技术实现思路
本申请实施例提供的一种自然语言处理方法、装置、存储介质及终端设备,可以更准确地解析用户输入的信息以及了解用户的意图。第一方面,本申请实施例提供了一种自然语言处理方法,包括:确定用户的终端设备上的目标应用;获取所述用户在操作所述目标应用的过程中确定的操作信息,作为目标记录信息;根据所述目标记录信息确定爬行网站;从所述爬行网站采集训练语句;将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型。第二方面,本申请实施例提供了一种自然语言处理装置,包括:应用确定模块,用于确定用户的终端设备上的目标应用;目标记录获取模块,用于获取所述用户在操作所述目标应用的过程中确定的操作信息,作为目标记录信息;爬行确定模块,用于根据所述目标记录信息确定爬行网站;采集模块,用于从所述爬行网站采集训练语句;训练模块,用于将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型。第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的自然语言处理方法。第四方面,本申请实施例提供了一种终端设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如本申请实施例所述的自然语言处理方法。本申请实施例中提供的一种自然语言处理方法,通过获取用户使用终端设备上应用的操作信息确定对应的爬行数据的网站,调整用于训练自然语言处理系统的训练数据的信息来源,更接近用户的习惯和兴趣爱好。通过采用上述技术方案,可以使自然语言处理的识别结果更接近用户的意图。附图说明图1为本申请实施例提供的一种自然语言处理方法的流程示意图;图2为本申请实施例提供的另一种自然语言处理方法的流程示意图;图3为本申请实施例提供的另一种自然语言处理方法的流程示意图;图4为本申请实施例提供的另一种自然语言处理方法的流程示意图;图5为本申请实施例提供的另一种自然语言处理方法的流程示意图;图6为本申请实施例提供的一种自然语言处理装置的结构框图;图7为本申请实施例提供的一种终端设备的结构示意图。具体实施方式下面结合附图并通过具体实施方式来进一步说明本申请的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。如智能手机的终端设备在人们的生活里越来越普及,随着发展起来的是装在智能手机中的应用软件,各个类别的应用能实现不同的功能,为用户的生活工作提供方便和辅助。而通过了解用户在使用终端设备上的应用的使用记录信息可以从一方面了解用户的行为习惯和兴趣爱好,通过在与用户的行为习惯和兴趣爱好对应的网站采集训练语句,并训练自然语言处理系统,可以使自然语言处理系统更准确地了解用户输入的自然语言的意图。图1为本申请实施例提供的一种自然语言处理方法的流程示意图,该方法可以由自然语言处理装置执行,其中该装置可以由软件和/硬件实现,一般可以集成在终端设备中。如图1所示,该方法包括:步骤110、确定终端设备上的目标应用。示例性地,所述终端设备可以是手机、平板电脑以及其他智能终端设备。终端设备上装有用户的应用,即应用程序(APP,Application),通过终端设备上的一些应用程序可以推测出用户的行为习惯和兴趣爱好。所述目标应用一般是具有用户的个性化操作信息输入的应用,个性化操作信息可以是自然文本语言,也可以是用户输入选择的定制信息等。例如,应用哔哩哔哩(bilibili)是具有互动分享和二次创造的潮流文化娱乐社区,使用应用哔哩哔哩的用户普遍会有一些比较明显的兴趣爱好,如二次元、番剧或舞蹈等。如果用户的终端设备上装有应用哔哩哔哩,则可以确定哔哩哔哩为目标应用。可选地,确定用户的终端设备上的交互应用、订阅应用和搜索应用中的至少一种,作为目标应用。其中,交互应用包括UGC(用户原创内容,UserGeneratedContent)应用和即时通讯应用等。和其他应用相比,用户使用交互应用会有较多的输出信息,而不仅仅只是接收信息。UGC应用包括如知乎、豆瓣、微博和LOFTER等应用,UGC应用用于获取用户的原创内容,并通过互联网平台将原创内容展示给其他用户,UGC应用的使用比较能够推测出用户的兴趣爱好和行为习惯。即时通讯应用包括如微信和QQ等应用,用户通过使用即时通讯应用与其他用户进行聊天和通讯时,会通过即时通讯软件直接输入内容信息,其中一般会涵盖用户的兴趣爱好和行为习惯的内容。订阅应用包括如今日头条、凤凰新闻等可定制的个性化应用。部分订阅应用会有默认的订阅版块,例如,包括要问、娱乐、体育、社会和军事等。用户使用订阅应用时可以编辑订阅版块,包括删除默认的订阅版块和增加默认的订阅版块中没有的版块。订阅应用对于用户的兴趣爱好和行为习惯具有较高的针对性。搜索应用包括如手机百度、微软必应和搜狗浏览器等应用。用户如果主动想要了解一个未知的信息时,会通过搜索应用进行搜索,再从搜索结果中进行筛选阅读并了解。搜索应用的使用也能推测出用户的兴趣爱好和行为习惯。将终端设备上的交互应用、订阅应用和搜索应用中的至少一种作为目标应用,通过用户使用这些目标应用的操作信息可以比较准确地了解用户的兴趣爱好和行为习惯。步骤120、获取所述用户在操作所述目标应用的过程中确定的操作信息,作为目标记录信息。示例性地,所述操作信息可以是根据用户在操作所述目标应用过程中输入的交互操作所确定的信息,交互操作的输入是为了用户个性化信息的输入,交互操作的形式可以包括点击输入操作、滑动输入操作和文本信息输入操作中的至少一个。例如,操作信息可以是通过文本信息输入操作和点击输入操作发布的微博内容,还可以是通过滑动输入操作和点击输入操作所订阅的版块,还可以是通过文本信息输入操作、点击输入操作和滑动输入操作进行搜索的搜索内容。可选地,如果所述目标应用包括本文档来自技高网...
自然语言处理方法、装置、存储介质及终端设备

【技术保护点】
一种自然语言处理方法,其特征在于,包括:确定用户的终端设备上的目标应用;获取所述用户在操作所述目标应用的过程中确定的操作信息,作为目标记录信息;根据所述目标记录信息确定爬行网站;从所述爬行网站采集训练语句;将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型。

【技术特征摘要】
1.一种自然语言处理方法,其特征在于,包括:确定用户的终端设备上的目标应用;获取所述用户在操作所述目标应用的过程中确定的操作信息,作为目标记录信息;根据所述目标记录信息确定爬行网站;从所述爬行网站采集训练语句;将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型。2.如权利要求1所述的方法,其特征在于,确定用户的终端设备上的目标应用包括:确定用户的终端设备上的交互应用、订阅应用和搜索应用中的至少一种,作为目标应用。3.如权利要求2所述的方法,其特征在于:如果所述目标应用包括交互应用,则所述目标记录信息为交互过程中所述用户输入的交互数据;如果所述目标应用包括订阅应用,则所述目标记录信息为所述用户输入的订阅编辑数据;如果所述目标应用包括搜索应用,则所述目标记录信息为搜索操作中所述用户输入的历史搜索式。4.如权利要求1至3任一项所述的方法,其特征在于,根据所述目标记录信息确定爬行网站包括:对所述目标记录信息进行关键词提取处理,以确定对应的关键词;确定所述关键词中相同关键词的数量,根据所述相同关键词的数量对所述关键词进行筛选,以确定目标关键词;根据所述目标关键词确定对应的爬行网站。5.如权利要求1至3任一项所述的方法,其特征在于,所述从所述爬行网站采集训练语句,包括:将所述爬行网站对应的页面作为爬行页面;从所述爬行页面上获取符合采集条件的语句作为训练语句;所述采集条件包括:所述对应的页面中的标题、包含预设内容和出现次数大于预设重复次数中的至少一种;如果在所述爬行页面中获取到关联链接时,将所述关联链接对应的关联页面作为爬行页面,并返回执行从所述爬行页面上...

【专利技术属性】
技术研发人员:梁昆
申请(专利权)人:广东欧珀移动通信有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1