文本实体提取方法及装置制造方法及图纸

技术编号:15748542 阅读:267 留言:0更新日期:2017-07-03 08:20
本发明专利技术公开了一种文本实体提取方法及装置,属于文本提取领域。该方法包括:确定目标文本中包含的候选文本实体;对候选文本实体进行组合,生成目标文本对应的候选分词组合,各个候选分词组合中包含的候选文本实体不同;计算各个候选分词组合对应的组合概率,组合概率指目标文本采用所述候选分词组合时语法成立的概率;根据组合概率确定目标文本对应的目标分词组合;根据目标分词组合从目标文本中提取文本实体。本发明专利技术实施例中文本实体的提取不依赖预设模板,缩短了前期配置所耗费时间;同时,相较于模板匹配,采用概率计算的方式确定目标分词组合的速度更快,能够避免因未查找到匹配的模板而导致文本实体提取失败的问题。

【技术实现步骤摘要】
文本实体提取方法及装置
本专利技术实施例涉及文本提取领域,特别涉及一种文本实体提取方法及装置。
技术介绍
随着人机交互技术的不断发展,越来越多的智能设备开始具备自然语言认知功能。在使用这类智能设备时,用户只需要发起自然语言指令,智能设备即能够对自然语言指令进行认知分析,并根据分析结果执行相应操作,其中,认知分析技术的核心在于如何从自然语言指令中提取特定的文本实体。比如,当接收到的自然语言指令指示播放歌曲时,智能设备需要通过认知分析技术从该自然语言指令中提取出诸如歌手名和/或歌曲名的文本实体。在文本提取领域,从自然语言指令中提取出文本实体通常基于模板匹配实现。采用模板匹配的方式提取自然语言指令中的文本实体时,智能设备将获取到的自然语言指令与大量预设模板进行匹配,并根据匹配到的预设模板从自然语言指令中提取相应的文本实体。比如,智能设备获取到的自然语言指令为“我想听歌手A的歌曲B”,并查找到匹配的预设模板“我想听[歌手]的[歌曲]”,从而根据该模板提取到文本实体“歌手A”和“歌曲B”。然而,由于自然语言指令的不确定性,为了达到较好的认知效果,开发人员需要预先设置大量的模板,导致在进行模板匹配时需要花费大量时间;并且,在未查找到完全匹配的模板时,智能设备将无法从自然语言指令中提取到相应文本实体。
技术实现思路
为了解决开发人员需要预先设置大量的模板,导致在进行模板匹配时需要花费大量时间;且在未查找到完全匹配的模板时,智能设备将无法从自然语言指令中提取到相应文本实体的问题,本专利技术实施例提供了一种文本实体提取方法及装置。所述技术方案如下:根据本专利技术实施例的第一方面,提供了一种文本实体提取方法,该方法包括:确定目标文本中包含的候选文本实体;对候选文本实体进行组合,生成目标文本对应的候选分词组合,各个候选分词组合中包含的候选文本实体不同;计算各个候选分词组合对应的组合概率,组合概率指目标文本采用候选分词组合时语法成立的概率;根据组合概率确定目标文本对应的目标分词组合;根据目标分词组合从目标文本中提取文本实体。根据本专利技术实施例的第二方面,提供了一种文本实体提取装置,该装置包括:第一确定模块,用于确定目标文本中包含的候选文本实体;生成模块,用于对候选文本实体进行组合,生成目标文本对应的候选分词组合,各个候选分词组合中包含的候选文本实体不同;计算模块,用于计算各个候选分词组合对应的组合概率,组合概率指目标文本采用候选分词组合时语法成立的概率;第二确定模块,用于根据组合概率确定目标文本对应的目标分词组合;提取模块,用于根据目标分词组合从目标文本中提取文本实体。通过获取目标文本中包含的候选文本实体,并对候选文本实体进行组合,生成目标文本对应的候选分词组合,从而根据各个候选分词组合对应的组合概率确定目标文本对应的目标分词组合,最终根据该目标分词组合从目标文本中提取文本实体;相较于基于预设模板进行文本实体提取,本专利技术实施例中文本实体的提取不依赖预设模板,缩短了前期配置所耗费时间;同时,相较于模板匹配,采用概率计算的方式确定目标分词组合的速度更快,能够避免因未查找到匹配的模板而导致文本实体提取失败的问题。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本专利技术一个实施例提供实施环境的示意图;图2是一个实施例提供的文本实体提取方法的原理示意图;图3示出了本专利技术一个实施例提供的文本实体提取方法的流程图;图4A示出了本专利技术另一个实施例提供的文本实体提取方法的流程图;图4B是图4A所示文本实体提取方法所涉及的组合概率计算过程的流程图;图4C是候选分词组合中N元组划分过程的实施示意图;图4D示出了本专利技术再一个实施例提供的文本实体提取方法的流程图;图5示出了本专利技术一个实施例提供的文本实体提取装置的结构方框图;图6示出了本专利技术一个实施例提供的服务器的结构方框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。为了方便理解,下面对本专利技术实施例中涉及的名词进行解释。文本:指由若干文字组成的文字字符串,本专利技术实施例中涉及的文本特指短文本。短文本指仅包含少量句子的自然语言文本,在人机交互领域,该短文本通常指用户发出的自然语言指令。比如,该短文本可以为:我想听歌手A的演唱的歌曲B;查一下北京明天的天气等等。文本实体:文本实体用于指示文本中特定类型或具有特定含义的词语。比如,文本“我想听歌手A的演唱的歌曲B”中包含文本实体“歌手A”和“歌曲B”。N-Gram(N-Grammar,N元文法)模型:N-Gram模型是一种用于计算文本文法成立概率的模型。N-Gram模型基于如下假设:文本中文本元素的出现概率只与前面N-1个文本元素相关,而与文本中其他文本元素无关,且整个文本的文法成立概率为各个文本元素的出现概率的乘积。本专利技术实施例中,N-Gram模型用于指示N个文本元素按序组合的概率,该概率通过统计语料资源中N个文本元素同时出现的次数得到。比如,N-Gram模型用于指示文本元素“我”和“想”按照“我想”这一顺序组合的概率,或,按照“想我”这一顺序组合的概率。常见的N-Gram模型包括二元的Bi-Gram模型和三元的Tri-Gram模型。请参考图1,其示出了本专利技术一个实施例提供实施环境的示意图,该实施环境中包括智能设备110和服务器120。智能设备110是具有数据处理功能的电子设备。该电子设备为智能手机、平板电脑、智能音箱、可穿戴式智能设备或智能家居设备。在一种可能的实施方式中,智能设备110具有自然语言认知分析功能,即智能设备110能够根据接收到的自然语言指令执行相应操作,其中,该自然语言指令为用户发起的语音指令或用户输入的文字指令。比如,当智能设备110为智能音箱时,智能音箱能够根据用户的语音指令执行播放音乐、查询天气等操作;当智能设备110位智能家居设备时,智能家居设备能够根据用户的语音指令提供相应的智能家居服务。智能设备110与服务器120之间通过有线或无线网络相连。服务器120为智能设备110的后台服务器。该后台服务器为若干台服务器构成的服务器集群或云计算中心。在一种可能的实施方式中,服务器110用于根据语料资源生成N-Gram模型,并向各个智能设备110提供该N-Gram模型,以便智能设备110根据该N-Gram模型从自然语言指令中提取文本实体(即自然语言认知分析),从而根据提取出的文本实体执行相应操作。同时,服务器110还用于接收各个智能设备110收集到的用户语料数据,并根据该用户语料数据对N-Gram模型进行优化,进而向智能设备110提供优化后的N-Gram模型。在其他可能的实施方式中,智能设备110还用于将获取到的自然语言指令发送至服务器120,由服务器120根据本文档来自技高网...
文本实体提取方法及装置

【技术保护点】
一种文本实体提取方法,其特征在于,所述方法包括:确定目标文本中包含的候选文本实体;对所述候选文本实体进行组合,生成所述目标文本对应的候选分词组合,各个所述候选分词组合中包含的候选文本实体不同;计算各个所述候选分词组合对应的组合概率,所述组合概率指所述目标文本采用所述候选分词组合时语法成立的概率;根据所述组合概率确定所述目标文本对应的目标分词组合;根据所述目标分词组合从所述目标文本中提取文本实体。

【技术特征摘要】
1.一种文本实体提取方法,其特征在于,所述方法包括:确定目标文本中包含的候选文本实体;对所述候选文本实体进行组合,生成所述目标文本对应的候选分词组合,各个所述候选分词组合中包含的候选文本实体不同;计算各个所述候选分词组合对应的组合概率,所述组合概率指所述目标文本采用所述候选分词组合时语法成立的概率;根据所述组合概率确定所述目标文本对应的目标分词组合;根据所述目标分词组合从所述目标文本中提取文本实体。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取预设语料资源,所述预设语料资源包括预设模板和携带标注的语料数据中的至少一种;根据所述预设语料资源训练N元文法N-Gram模型,所述N-Gram模型用于指示N个文本元素按序组合的概率,所述文本元素为文本中的字或词,N≥2,N为正整数。3.根据权利要求2所述的方法,其特征在于,所述计算各个所述候选分词组合对应的组合概率,包括:获取所述N-Gram模型;根据所述N-Gram模型计算各个所述候选分词组合对应的所述组合概率。4.根据权利要求3所述的方法,其特征在于,所述候选分词组合中包含L个所述文本元素,L个所述文本元素中包括所述候选文本实体,以及所述候选文本实体外所述目标文本中的文本内容;所述根据所述N-Gram模型计算所述候选分词组合对应的所述组合概率,包括:将L个所述文本元素中相邻的N个文本元素划分至同一N元组,L个所述文本元素中包含L-N+1个所述N元组;根据所述N-Gram模型确定各个所述N元组对应的第一概率,得到L-N+1个第一概率;根据所述L-N+1个第一概率计算所述候选分词组合对应的所述组合概率。5.根据权利要求4所述的方法,其特征在于,所述根据所述L-N+1个第一概率计算所述候选分词组合对应的所述组合概率之前,还包括:若所述N-Gram模型中不包含所述N元组对应的第一概率,则将预设概率值确定为所述N元组对应的所述第一概率。6.根据权利要求4或5所述的方法,其特征在于,所述根据所述L-N+1个第一概率计算所述候选分词组合对应的所述组合概率,包括:获取第i-N+1个文本元素至第i个文本元素所构成的N元组对应的第一概率,N≤i≤L,i为正整数;对获取到的L-N+1个第一概率进行累乘,并将累乘结果确定为所述候选分词组合对应的所述组合概率。7.根据权利要求1至5任一所述的方法,其特征在于,所述确定目标文本中包含的候选文本实体,包括:确定所述目标文本所属的目标领域;根据所述目标领域对应的实体库确定所述目标文本中包含的候选文本实体。8.根据权利要求1至5任一所述的方法,其特征在于,所述根据所述组合概率确定所述目标文本对应的目标分词组合,包括:将所述组合概率中值最大的组合概率对应的所述候选分词组合确定为所述目标分词组合;或,检测所述组合概率中值最大的组合概率是否大于预设概率阈值;若所述值最大的组合概率大于所述预设概率阈值,则将所述值最大的组合概率对应的所述候选分词组合确定为所述目...

【专利技术属性】
技术研发人员:包恒耀苏可陈益饶孟良
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1