文本实体提取方法及装置制造方法及图纸

技术编号：15748542 阅读：267 留言：0更新日期：2017-07-03 08:20

本发明专利技术公开了一种文本实体提取方法及装置，属于文本提取领域。该方法包括：确定目标文本中包含的候选文本实体；对候选文本实体进行组合，生成目标文本对应的候选分词组合，各个候选分词组合中包含的候选文本实体不同；计算各个候选分词组合对应的组合概率，组合概率指目标文本采用所述候选分词组合时语法成立的概率；根据组合概率确定目标文本对应的目标分词组合；根据目标分词组合从目标文本中提取文本实体。本发明专利技术实施例中文本实体的提取不依赖预设模板，缩短了前期配置所耗费时间；同时，相较于模板匹配，采用概率计算的方式确定目标分词组合的速度更快，能够避免因未查找到匹配的模板而导致文本实体提取失败的问题。

全部详细技术资料下载

【技术实现步骤摘要】
文本实体提取方法及装置
本专利技术实施例涉及文本提取领域，特别涉及一种文本实体提取方法及装置。
技术介绍
随着人机交互技术的不断发展，越来越多的智能设备开始具备自然语言认知功能。在使用这类智能设备时，用户只需要发起自然语言指令，智能设备即能够对自然语言指令进行认知分析，并根据分析结果执行相应操作，其中，认知分析技术的核心在于如何从自然语言指令中提取特定的文本实体。比如，当接收到的自然语言指令指示播放歌曲时，智能设备需要通过认知分析技术从该自然语言指令中提取出诸如歌手名和/或歌曲名的文本实体。在文本提取领域，从自然语言指令中提取出文本实体通常基于模板匹配实现。采用模板匹配的方式提取自然语言指令中的文本实体时，智能设备将获取到的自然语言指令与大量预设模板进行匹配，并根据匹配到的预设模板从自然语言指令中提取相应的文本实体。比如，智能设备获取到的自然语言指令为“我想听歌手A的歌曲B”，并查找到匹配的预设模板“我想听[歌手]的[歌曲]”，从而根据该模板提取到文本实体“歌手A”和“歌曲B”。然而，由于自然语言指令的不确定性，为了达到较好的认知效果，开发人员需要预先设置大量的模板，导致在进行模板匹配时需要花费大量时间；并且，在未查找到完全匹配的模板时，智能设备将无法从自然语言指令中提取到相应文本实体。
技术实现思路
为了解决开发人员需要预先设置大量的模板，导致在进行模板匹配时需要花费大量时间；且在未查找到完全匹配的模板时，智能设备将无法从自然语言指令中提取到相应文本实体的问题，本专利技术实施例提供了一种文本实体提取方法及装置。所述技术方案如下：根据本专利技术实施例的第一方面...

【技术保护点】
一种文本实体提取方法，其特征在于，所述方法包括：确定目标文本中包含的候选文本实体；对所述候选文本实体进行组合，生成所述目标文本对应的候选分词组合，各个所述候选分词组合中包含的候选文本实体不同；计算各个所述候选分词组合对应的组合概率，所述组合概率指所述目标文本采用所述候选分词组合时语法成立的概率；根据所述组合概率确定所述目标文本对应的目标分词组合；根据所述目标分词组合从所述目标文本中提取文本实体。

【技术特征摘要】
1.一种文本实体提取方法，其特征在于，所述方法包括：确定目标文本中包含的候选文本实体；对所述候选文本实体进行组合，生成所述目标文本对应的候选分词组合，各个所述候选分词组合中包含的候选文本实体不同；计算各个所述候选分词组合对应的组合概率，所述组合概率指所述目标文本采用所述候选分词组合时语法成立的概率；根据所述组合概率确定所述目标文本对应的目标分词组合；根据所述目标分词组合从所述目标文本中提取文本实体。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取预设语料资源，所述预设语料资源包括预设模板和携带标注的语料数据中的至少一种；根据所述预设语料资源训练N元文法N-Gram模型，所述N-Gram模型用于指示N个文本元素按序组合的概率，所述文本元素为文本中的字或词，N≥2，N为正整数。3.根据权利要求2所述的方法，其特征在于，所述计算各个所述候选分词组合对应的组合概率，包括：获取所述N-Gram模型；根据所述N-Gram模型计算各个所述候选分词组合对应的所述组合概率。4.根据权利要求3所述的方法，其特征在于，所述候选分词组合中包含L个所述文本元素，L个所述文本元素中包括所述候选文本实体，以及所述候选文本实体外所述目标文本中的文本内容；所述根据所述N-Gram模型计算所述候选分词组合对应的所述组合概率，包括：将L个所述文本元素中相邻的N个文本元素划分至同一N元组，L个所述文本元素中包含L-N+1个所述N元组；根据所述N-Gram模型确定各个所述N元组对应的第一概率，得到L-N+1个第一概率；根据所述L-N+1个第一概率计算所述候选分词组合对应的所述组合概率。5.根据权利要求4所述的方法，其特征在于，所述根据所述L-N+1个第一概率计算所述候选分词组合对应的所述组合概率之前，还包括：若所述N-Gram模型中不包含所述N元组对应的第一概率，则将预设概率值确定为所述N元组对应的所述第一概率。6.根据权利要求4或5所述的方法，其特征在于，所述根据所述L-N+1个第一概率计算所述候选分词组合对应的所述组合概率，包括：获取第i-N+1个文本元素至第i个文本元素所构成的N元组对应的第一概率，N≤i≤L，i为正整数；对获取到的L-N+1个第一概率进行累乘，并将累乘结果确定为所述候选分词组合对应的所述组合概率。7.根据权利要求1至5任一所述的方法，其特征在于，所述确定目标文本中包含的候选文本实体，包括：确定所述目标文本所属的目标领域；根据所述目标领域对应的实体库确定所述目标文本中包含的候选文本实体。8.根据权利要求1至5任一所述的方法，其特征在于，所述根据所述组合概率确定所述目标文本对应的目标分词组合，包括：将所述组合概率中值最大的组合概率对应的所述候选分词组合确定为所述目标分词组合；或，检测所述组合概率中值最大的组合概率是否大于预设概率阈值；若所述值最大的组合概率大于所述预设概率阈值，则将所述值最大的组合概率对应的所述候选分词组合确定为所述目...

【专利技术属性】
技术研发人员：包恒耀，苏可，陈益，饶孟良，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人