【技术实现步骤摘要】
文本内容关键信息的提取方法、装置、设备及存储介质
本专利技术涉及信息
,特别是涉及文本内容关键信息的提取方法、装置、设备及存储介质。
技术介绍
随着信息技术的不断发展,日常生活中产生的信息类型、信息量越来越多,因此在较多场景下存在从各式各样的信息中提取所需内容的需求,现有技术中,对信息中的关键内容进行提取时一般采用正则表达式处理,其通过针对不同范式的信息写不同的正则表达式来提取信息中的关键内容,由于正则表达式是根据特定范式的信息来撰写的,因此对于少量的、特殊范式的信息,能够用专门定制的正则表达式来较为快速且准确地提取所需的信息内容,但正则表达式无法穷尽信息的各种特殊情况且当面对大量的不同范式的信息文本时,需要人工来写大量的正则表达式,耗时耗力。除了采用正则表达式外,现有技术中也出现了采用大数据处理、神经网络技术对信息中的关键内容进行提取的技术,其通过对大量的样本及标注训练出一个神经网络模型来提取信息中的关键内容,但该项技术通常需要极为庞大的训练集和较高的标注质量才能训练出一个较为准确的神经网络模型,对于通过某些 ...
【技术保护点】
1.一种文本内容关键信息的提取方法,其中,所述方法包括:/n步骤S10,获取待提取关键信息的文本内容;/n步骤S20,利用分类器对所述文本内容进行分类,若得到所述文本内容的类别则执行步骤S30,否则不执行任何操作;/n步骤S30,利用与所述得到的所述文本内容的类别对应的神经网络模型对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则执行步骤S40;/n步骤S40,利用正则表达式对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则不执行任何操作。/n
【技术特征摘要】
1.一种文本内容关键信息的提取方法,其中,所述方法包括:
步骤S10,获取待提取关键信息的文本内容;
步骤S20,利用分类器对所述文本内容进行分类,若得到所述文本内容的类别则执行步骤S30,否则不执行任何操作;
步骤S30,利用与所述得到的所述文本内容的类别对应的神经网络模型对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则执行步骤S40;
步骤S40,利用正则表达式对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则不执行任何操作。
2.根据权利要求1所述的方法,其中,所述神经网络模型的训练过程如下:
获取某一类别的样本文本内容,其中所述样本文本内容中的词语为采用序列标注规则标注好的词语;
将所述样本文本内容经过词向量模型后得到相应的样本向量信息;
将所述样本向量信息送入神经网络模型进行模型训练以得到与该类别的文本内容对应的所述神经网络模型。
3.根据权利要求1所述的方法,其中,所述利用分类器对所述文本内容进行分类包括:
利用逻辑回归分类器和/或正则表达式对所述文本内容进行分类。
4.根据权利要求3所述的方法,其中,所述步骤S20包括:
利用逻辑回归分类器对所述文本内容进行分类,若得到所述文本内容的类别则执行步骤S30,否则执行步骤S201;
步骤S201:利用正则表达式对所述文本内容进行分类,若得到所述文本内容的类别则执行步骤S30,否则不执行任何操作。
5.根据权利要求1所述的方法,其中,
所述步骤S30包括:利用与所述得到的所述文本内容的类别对应的神经网络模型对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则执行步骤S301,否则执行步骤S40;
其中,所述...
【专利技术属性】
技术研发人员:贾俊杰,
申请(专利权)人:北京泰迪熊移动科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。