获取文本提取模型的方法及装置制造方法及图纸

技术编号:15746836 阅读:269 留言:0更新日期:2017-07-03 03:01
本发明专利技术公开了一种获取文本提取模型的方法及装置,属于机器学习技术领域。该方法包括:获取第一文本提取模型,第一文本提取模型根据人工标注的第一训练文本集合得到;如果第一文本提取模型的提取准确度低于预设阈值,获取第二训练文本集合,第二训练文本集合包括多个第一训练语料和通过第一文本提取模型从多个第一训练语料中提取的多个第一目标文本;根据第一训练文本集合和第二训练文本集合,获取第二文本提取模型。本发明专利技术通过第一文本提取模型获取第二训练文本集合,使得获取文本提取模型的过程趋于自动化,由于通过模型获取训练文本集合的效率远高于人工标注的效率,因此采用本发明专利技术的获取方法可以大大减少人力成本和时间成本。

Method and device for obtaining text extraction model

The invention discloses a method and a device for acquiring a text extraction model, belonging to the field of machine learning technology. The method includes: obtaining the model to extract the first text, the first text extraction model based on the first training text annotation set; if the first extraction of text extraction accuracy below a preset threshold, get the collection of second training text, second training text set includes a plurality of first training corpus and a plurality of first target text through the first text extraction model from the first training corpus in the training text set; according to the first and second training text set, obtaining second text extraction model. The first text extraction model gets the second training text set, the process of acquiring text extraction model tends to be automatic because the model acquisition efficiency training text set much higher than the efficiency of manual annotation, so the acquisition method of the invention can greatly reduce the manpower cost and time cost.

【技术实现步骤摘要】
获取文本提取模型的方法及装置
本专利技术涉及机器学习
,特别涉及一种获取文本提取模型的方法及装置。
技术介绍
机器学习技术是指计算机通过归纳文本或图片等数据改善性能的技术,广泛地应用于数据挖掘、计算机视觉、自然语言处理和机器人等方面。例如,为使聊天机器人能够理解自然语言的意义,从而与用户之间进行交互,通常利用机器学习技术获取文本提取模型,并将文本提取模型应用于聊天机器人,使得聊天机器人从与用户的语料中提取出表达用户需求的文本,并对应该文本进行应答。一般地,在获取文本提取模型时,需要获取大量语料,并人工地从每个语料中标注出表达用户需求的文本,将大量语料和对应标注出的文本作为训练文本集合,进而对训练文本集合进行训练,从而基于标注出的文本在语料中的上下文等特征得到文本提取模型。其中,人工标注出的文本一般与聊天机器人所提供的服务的相关,例如,聊天机器人可提供票务服务,某个语料为“我要购买火车票”,则人工标注的文本为“火车票”。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:训练文本集合完全由人工标注的方式得到,由于获取文本提取模型所需的语料数据量庞大、人工标注的效率低,导致文本提取模型的训练过程会消耗大量人力成本和时间成本。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种获取文本提取模型的方法及装置。所述技术方案如下:一方面,提供了一种获取文本提取模型的方法,所述方法包括:获取第一文本提取模型,所述第一文本提取模型根据人工标注的第一训练文本集合得到;如果所述第一文本提取模型的提取准确度低于预设阈值,获取第二训练文本集合,所述第二训练文本集合包括多个第一训练语料和通过所述第一文本提取模型从所述多个第一训练语料中提取的多个第一目标文本;根据所述第一训练文本集合和所述第二训练文本集合,获取第二文本提取模型。另一方面,提供了一种获取文本提取模型的装置,所述装置包括:模型获取模块,用于获取第一文本提取模型,所述第一文本提取模型根据人工标注的第一训练文本集合得到;训练文本集合获取模块,用于如果所述第一文本提取模型的提取准确度低于预设阈值,获取第二训练文本集合,所述第二训练文本集合包括多个第一训练语料和通过所述第一文本提取模型从所述多个第一训练语料中提取的多个第一目标文本;所述模型获取模块,用于根据所述第一训练文本集合和所述第二训练文本集合,获取第二文本提取模型。本专利技术实施例通过获取第一文本提取模型,在第一文本提取模型的提取准确度低于预设阈值时,获取第二训练文本集合,该第二训练文本集合包括多个第一训练语料和通过第一文本提取模型从多个第一训练语料中提取的多个第一目标文本,从而通过已获取的第一文本提取模型得到第二训练文本集合,而无需人工标注,进一步地,根据第一训练文本集合和第二训练文本集合,获取第二文本提取模型,使得获取文本提取模型的过程趋于自动化,由于通过模型获取训练文本集合的效率远高于人工标注的效率,因此采用本专利技术的获取方法可以大大减少人力成本和时间成本。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种获取文本提取模型的实施环境示意图;图2是本专利技术实施例提供的一种获取文本提取模型的方法流程图;图3是本专利技术实施例提供的一种获取训练文本的流程图;图4是本专利技术实施例提供的一种获取迭代模型的流程图;图5是本专利技术实施例提供的一种获取文本提取模型的装置框图;图6是本专利技术实施例提供的一种获取文本提取模型的装置框图;图7是本专利技术实施例提供的一种获取文本提取模型的装置700的框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。图1是本专利技术实施例提供的一种获取文本提取模型的实施环境示意图。参见图1,该实施环境中包括:至少一个服务器101,至少一个聊天机器人102,至少一个终端103(如,移动终端和台式电脑)。其中,服务器101用于获取第一文本提取模型,如果第一文本提取模型的提取准确度低于预设阈值,则获取第二训练文本集合,根据已获取的训练文本集合获取第二文本提取模型,将获取的文本提取模型应用于聊天机器人102或终端103。该聊天机器人102用于根据服务器101的控制获取或更新文本提取模型,并基于服务器101的控制为用户提供各种服务,如,聊天服务。终端103上安装有服务器101所提供的智能聊天应用,并根据服务器101的控制获取或更新文本提取模型。另外,该服务器101还可以配置至少一个数据库,如,聊天数据库、用户数据库的用户认证数据库等等。该聊天数据库用于存储用户与聊天机器人(或者智能聊天应用)之间的对话语料,该对话语料可以标识有本次对话的时间戳,或者本次对话的服务记录等数据;用户数据库用于存储用户行为数据,如用户发表的日志和评论,用户的点赞行为和评分行为等;该用户认证数据库用于存储用户的用户名和用户密码。图2是本专利技术实施例提供的一种获取文本提取模型的方法流程图。参见图2,该方法可以应用于任一设备,且该设备至少具有处理器和存储器,可以通过处理器处理存储器中的训练样本集合,得到文本提取模型。该方法具体包括:201、服务器获取第一文本提取模型,第一文本提取模型根据人工标注的第一训练文本集合得到。第一训练文本集合用于生成文本提取模型,该第一训练文本集合包括多个训练语料和人工对多个训练语料标注的正确文本,一个训练语料和从中标注出的正确文本构成一对训练文本。其中,本专利技术实施例对训练语料的形式不做限定。例如,该训练语料可以是单句形式,或者对话形式。而且,从一个训练语料中标注出的正确文本可以是一个或多个,一般与应用该文本提取模型的聊天机器人(或智能聊天应用)所提供的服务相关,例如,训练语料为“怎么去杭州”,标注出的正确文本可以为“杭州”;训练语料为“我要买到天津的机票”,标注出的正确文本可以为“天津”和“机票”。该步骤中,服务器可以从自身的数据库或网络获取多个训练语料,并获取人工从多个训练语料中标注出的正确文本,从而获取到第一训练文本集合,进而,服务器对第一训练文本集合进行训练,也即是,提取每对训练文本的特征(如,上下文特征),根据提取的特征确定初始提取模型的各个参数的取值,得到已知参数的第一文本提取模型。其中,该初始提取模型不限于CRF(ConditionalRandomFieldalgorithm,条件随机场)模型或HMM(HiddenMarkovModel,隐马尔可夫模型)。事实上,人工也可能从某些训练语料中不能标注出文本,这些训练语料如“怎么了”、“为什么”,该情况下,本专利技术实施例对处理这些训练语料的方式不做限定,例如,直接丢弃该训练语料,不对它进行标注;又例如,人工对不能标注出文本的训练语料统一添加默认标签,该默认标签用于标记不能标注出文本的训练语料,默认标签如“无”。进一步地,为了方便后续人工标注的过程,提高人工标注的效率,服务器可以将被丢弃的训练语料或者被添加了默认标签的训练语料存储为待筛选参考语料;后续在获取到初始训练语料之后,服务器本文档来自技高网...
获取文本提取模型的方法及装置

【技术保护点】
一种获取文本提取模型的方法,其特征在于,所述方法包括:获取第一文本提取模型,所述第一文本提取模型根据人工标注的第一训练文本集合得到;如果所述第一文本提取模型的提取准确度低于预设阈值,获取第二训练文本集合,所述第二训练文本集合包括多个第一训练语料和通过所述第一文本提取模型从所述多个第一训练语料中提取的多个第一目标文本;根据所述第一训练文本集合和所述第二训练文本集合,获取第二文本提取模型。

【技术特征摘要】
1.一种获取文本提取模型的方法,其特征在于,所述方法包括:获取第一文本提取模型,所述第一文本提取模型根据人工标注的第一训练文本集合得到;如果所述第一文本提取模型的提取准确度低于预设阈值,获取第二训练文本集合,所述第二训练文本集合包括多个第一训练语料和通过所述第一文本提取模型从所述多个第一训练语料中提取的多个第一目标文本;根据所述第一训练文本集合和所述第二训练文本集合,获取第二文本提取模型。2.根据权利要求1所述的方法,其特征在于,所述如果所述第一文本提取模型的提取准确度低于预设阈值,获取第二训练文本集合包括:如果所述第一文本提取模型的提取准确度低于所述预设阈值,获取所述多个第一训练语料;对于所述多个第一训练语料中的每个第一训练语料,通过所述第一文本提取模型从所述第一训练语料中提取出第一文本;如果所述第一文本正确,将所述第一训练语料和所述第一文本作为所述第二训练文本集合中的一对训练文本;如果所述第一文本错误,将所述第一训练语料和人工修正的文本作为所述第二训练文本集合中的一对训练文本。3.根据权利要求2所述的方法,所述如果所述第一文本提取模型的提取准确度低于所述预设阈值,获取所述多个第一训练语料包括:如果所述第一文本提取模型的提取准确度低于所述预设阈值,从聊天数据库中获取预设时段内的对话语料,将所述预设时段内的对话预料作为所述多个第一训练语料,所述聊天数据库用于存储用户与聊天机器人之间的对话语料。4.根据权利要求2所述的方法,所述如果所述第一文本提取模型的提取准确度低于所述预设阈值,获取所述多个第一训练语料包括:如果所述第一文本提取模型的提取准确度低于所述预设阈值,从聊天数据库中筛选出对话成功的对话语料,将所述对话成功的对话预料作为所述多个第一训练语料,所述聊天数据库用于存储用户与聊天机器人之间的对话语料,所述对话成功的对话语料是指所述聊天机器人成功为所述用户提供服务的对话语料。5.根据权利要求1所述的方法,其特征在于,所述获取第二训练文本集合之前,所述方法还包括:获取测试文本集合,所述测试文本集合包括多个测试语料和人工从所述多个测试语料中标注出的多个正确文本;对于所述多个测试语料中的每个测试语料,通过所述第一文本提取模型从所述测试语料中提取出第二文本;将与任一正确文本相同的第二文本和所述多个正确文本的数量比例确定为所述第一文本提取模型的提取准确度。6.根据权利要求1所述的方法,其特征在于,所述根据所述第一训练文本集合和所述第二训练文本集合,获取第二文本提取模型之后,所述方法还包括:如果当前的文本提取模型的提取准确度低于所述预设阈值,继续获取训练文本集合,并基于已获取的各个训练文本集合进行训练,直到训练得到的文本提取模型的提取准确度不低于所述预设阈值,所述训练文本集合包括多个第二训练语料和通过所述当前的文本提...

【专利技术属性】
技术研发人员:陈益
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1