本发明专利技术实施例公开了一种语句分析方法、装置及终端设备,其中,所述方法包括:如果得到待分析语句,利用语句分类模型对所述待分析语句进行分类处理,得到所述待分析语句所属的至少一个分类类别;利用实体词识别模型对所述待分析语句进行识别处理,从所述待分析语句中提取出至少一个实体词;根据所述确定的实体词和所述确定的分类类别,获取每个实体词的类别统计信息。采用本发明专利技术实施例,可以较为准确、快捷地确定出在某个语句下的多个实体词所属的分类类别。
【技术实现步骤摘要】
一种语句分析方法、装置及终端设备、存储介质
本申请涉及计算机
,尤其涉及一种语句分析方法、装置及终端设备、存储介质。
技术介绍
人工智能(ArtificialIntelligence,AI)是希望能够设计出一种智能机器,该智能机器能以人类的方式做出某些反应,例如能够与人类流畅地进行智能交谈。在AI领域,需要对自然语言进行分析处理,此时涉及到对自然语言中的实体词进行分析,准确地对其进行归类统计,并将统计结果提供给具体的应用,以便于这些应用能够基于归类统计的结果准确地了解人类用户的意图,从而实现智能化。在对实体词进行归类统计时,建立对实体词的专用分类模型能够对实体词进行较好的分类,但是在对语句中的实体词进行分类时,建立的这些实体词分类模型的分类方式效率低下。
技术实现思路
本专利技术实施例提供一种语句分析方法、装置及终端设备,可以快捷完成语句中实体词的类别统计。一方面,本专利技术实施例提供了一种语句分析方法,包括:获取待分析语句;利用语句分类模型对所述待分析语句进行分类处理,得到所述待分析语句所属的至少一个分类类别;利用实体词识别模型对所述待分析语句进行识别处理,从所述待分析语句中提取至少一个实体词;根据所述提取的至少一个实体词和所述至少一个分类类别,获取每个实体词的类别统计信息。另一方面,本专利技术实施例还提供了一种语句分析装置,包括:获取模块,用于获取待分析语句;第一确定模块,用于利用语句分类模型对所述待分析语句进行分类处理,得到所述待分析语句所属的至少一个分类类别;第二确定模块,用于利用实体词识别模型对所述待分析语句进行识别处理,从所述待分析语句中提取至少一个实体词;处理模块,用于根据所述提取的至少一个实体词和所述至少一个分类类别,获取每个实体词的类别统计信息。再一方面,本专利技术实施例还提供了一种智能设备,包括:存储装置和处理器,其中,所述存储装置,存储有程序指令;所述处理器,调用所述程序指令,用于执行所述的语句分析方法。又一方面,本专利技术实施例还提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,该程序指令被处理器执行时,用于实现所述的语句分析方法。本专利技术实施例能够基于用于对语句的分类模型和用于对语句进行实体词识别的识别模型来对语句进行分析,能够较为准确地得到该语句所属的一个或者多个分类类别,而确定的这些类别也作为语句中的实体词的类别,进而对实体词进行类别统计信息的确定,较为准确、快捷地确定出在该语句下的多个实体词所属的一个或者多个分类类别及其类别统计信息。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例的语句分析过程的流程示意图;图2是本专利技术实施例的训练语句分类模型的方法流程示意图;图3是本专利技术实施例的生成实体词识别模型的方法流程示意图;图4是本专利技术实施例的一种语句分析方法的流程示意图;图5是本专利技术实施例的训练语句分类模型的方法的流程示意图;图6是本专利技术实施例的一种语句分析装置的结构示意图;图7是本专利技术实施例的一种智能设备的结构示意图。具体实施方式本专利技术实施例中在对自然语言进行分析处理时,可以对实体词进行分类,例如进行基于先验概率的分类,根据分类结果实现对自然语言进行智能识别、智能分析,并将识别、分析的结果应用到上层应用,以便于更好地实现人工智能(ArtificialIntelligence,AI)。本专利技术实施例能够基于语句分析来对某个语句中未被标注的实体词进行分析,计算这些实体词属于不同类别的先验概率,进而完成对这些实体词的分类。其中,所述实体词是指描述某一具体事物名称的词语,例如某个人的人名、某个歌曲名、某个电影名等等词语。本专利技术实施例可以首选构建并更新得到用于对语句进行分类的语句分类模型,并构建得到用于对语句进行识别确定语句中包括的一个或者多个实体词的实体词识别模型。在一个实施例中,可以基于用户在浏览器上发起搜索时得到的搜索记录数据来训练得到语句分类模型,首先可对于在浏览器上产生的大量的搜索记录数据中采样10%或者更多数据作为训练数据,在一个实施例中可以构建NB(朴素贝叶斯)分类器模型,基于所述的训练数据对NB分类器模型中的多个初始分类模型进行训练更新,得到语句分类模型。而实体词识别模型则可以通过一种可以快速构建词库、并从普通语句中提取词库中包含的词的算法来构建得到,在该实体词识别模型中配置了一个或者多个词库。在一个实施例中,可以利用AC(Aho-Corasick)自动机算法(是一种多模匹配算法),对备选实体词进行处理,构建词库。请参见图1,示出了本专利技术实施例的语句分析过程的流程示意图,首先,在S101中获取搜索记录数据,所述搜索记录数据至少包括用户在搜索时所使用的搜索关键句,例如搜索记录数据为用户输入的“变形金刚好看吗”的搜索关键句。在S102中,对搜索记录数据进行采样,并对采样得到的搜索记录数据中的搜索关键句进行标注。在一个实施例中,可采用人工标注的方式对搜索记录数据中包括的搜索关键句进行标注,即对搜索关键句人工标注其所属的分类类别,例如,对于上述的“变形金刚好看吗”的搜索关键句,人工标注该搜索关键句的分类类别为视频类别。对搜索记录数据中的搜索关键句的标注也可采用其他标注方式,在一个实施例中,可以在依据搜索关键句进行搜索,并在得到的搜索结果页面上发起点击操作后,判断点击操作选择的目标网页,该目标网页的网页相关信息为该搜索关键句的搜索关联信息,并进一步再根据判断确定的网页的类型来确定搜索关键句的类别,完成搜索关键句的标注,例如,如果确定点击操作后选择的网页属于视频网页(例如该网页的网址为常见的视频网站的网址时,确定其为视频网页),则确定该搜索记录数据中包括的搜索关键句为视频类别。目标网页的网页相关信息包括该目标网页上包括的主题名称或者网址。在一个实施例中,还可以基于对搜索关键句的语义分析,如果语言分析结果确定所述搜索关键句中包括指定内容,则根据该指定内容所属的类别对所述搜索关键句进行标注。例如对于搜索关键句“变形金刚这个电影好看吗”,经过简单的语义分析,即可确定该搜索关键句包含特定词汇“电影”,该搜索关键句属于该特定词汇所对应的视频类别。在一个实施例中,搜索记录数据还可以包括发起搜索的搜索关键句和搜索关联信息,所述搜索关联信息可以是根据以所述搜索关键句搜索得到的网页页面中,被选择的目标网页页面上包括的标题信息确定的信息,所述搜索关联信息也可以是根据以所述搜索关键句搜索得到的网页页面中,被选择的目标网页页面的网址信息确定的信息。所述搜索关联信息可以作为所述搜索关键句的标注信息,根据所述搜索关联信息可以对所述搜索关键句进行标注,例如,根据搜索关键句“变形金刚好看吗”,得到的搜索结果页面中,被用户点击选择的网页页面上的标题为“变形金刚,高清视频在线观看”,则可以认为“变形金刚好看吗”被标注为视频类别;或者,根据搜索关键句“变形金刚好看吗”,得到的搜索结果页面中,被用户点击选择的网页页面的网址为预置的视频网站的网址,则可以认为“变形金刚好看吗”被标注为视频类本文档来自技高网...

【技术保护点】
一种语句分析方法,其特征在于,包括:获取待分析语句;利用语句分类模型对所述待分析语句进行分类处理,得到所述待分析语句所属的至少一个分类类别;利用实体词识别模型对所述待分析语句进行识别处理,从所述待分析语句中提取至少一个实体词;根据所述提取的至少一个实体词和所述至少一个分类类别,获取每个实体词的类别统计信息。
【技术特征摘要】
1.一种语句分析方法,其特征在于,包括:获取待分析语句;利用语句分类模型对所述待分析语句进行分类处理,得到所述待分析语句所属的至少一个分类类别;利用实体词识别模型对所述待分析语句进行识别处理,从所述待分析语句中提取至少一个实体词;根据所述提取的至少一个实体词和所述至少一个分类类别,获取每个实体词的类别统计信息。2.如权利要求1所述的方法,其特征在于,所述利用语句分类模型对所述待分析语句进行分类处理,得到所述待分析语句所属的至少一个分类类别之前,还包括:获取搜索记录数据,所述搜索记录数据包括:搜索关键句和搜索关联信息;通过初始语句分类模型对所述搜索关键句进行分类处理,得到分类结果;如果所述分类结果与所述搜索关联信息之间满足更新条件,则对所述初始语句分类模型进行更新,得到语句分类模型。3.如权利要求2所述的方法,其特征在于,所述搜索关联信息包括:在以所述搜索关键句搜索得到的网页页面中,被选择的目标网页页面上包括的标题信息;所述分类结果与所述搜索关联信息之间满足更新条件是指:所述分类结果所指示的类别与所述标题信息所表示的类别不相同。4.如权利要求2所述的方法,其特征在于,所述搜索关联信息包括:在以所述搜索关键句搜索得到的网页页面中,被选择的目标网页页面的网址信息;所述分类结果与所述搜索关联信息之间满足更新条件是指:所述分类结果所指示的类别与所述网址信息所表示的类别不相同。5.如权利要求2所述的方法,其特征在于,所述获取搜索记录数据,包括:根据筛选条件对搜索记录集合中的数据进行筛选,得到搜索记录数据;所述筛选条件中包括指定网址信息,每一个指定网址信息与一个类别相匹配,筛选得到的搜索记录数据中包括的网址信息与所述筛选条件中包括的指定网址信息相匹配。6.如权利要求1所述的方法...
【专利技术属性】
技术研发人员:甘骏,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。