一种文本提取方法、装置、设备和介质制造方法及图纸

技术编号：18426533 阅读：36 留言：0更新日期：2018-07-12 02:02

本申请公开了一种文本提取方法、装置、设备和介质。该方法包括：基于文本样本和信息提取需求，生成用于提取信息的配置信息；基于所述配置信息，从待提取文本中提取目标信息。根据本申请实施例的技术方案，对于不同文本分析和数据提取需求，无需重新开发特定提取需求的定制化代码，只需要按照系统提示进行提取信息配置和修改即可，极大的减少了开发人员的工作量，同时也提高了系统的可拓展性和可维护性。

A text extraction method, device, device and medium

The application discloses a text extraction method, device, device and medium. The method includes: Based on the text samples and information extraction requirements, the configuration information used to extract information is generated, and the target information is extracted from the extracted text based on the configuration information. According to the technical scheme of this application example, for different text analysis and data extraction requirements, there is no need to redevelop the customization code for the specific extraction requirements. It only needs to extract information configuration and modification according to the system prompt, which greatly reduces the amount of work of the developer and also improves the development of the system. Sex and maintainability.

全部详细技术资料下载

【技术实现步骤摘要】
一种文本提取方法、装置、设备和介质
本公开一般涉及计算机
，具体涉及文本识别
，尤其涉及一种文本提取方法、装置、设备和介质。
技术介绍
一般用于运营分析的数据都是具有固定格式的数据，但这些具有固定格式的数据最初存在于不同的日志文本中，这些日志文本的输出内容不同，输出格式也不同，因此，为了从这些日志文本中提取出有价值的信息，往往需要定制化开发程序。但是，由于定制化开发的程序不具有通用性，针对不同输出内容、不同输出格式的日志文本，需要分别定制化开发相应的程序，而且，一旦业务需求调整，就需要去逐行修改程序中的代码，这样不仅使得开发人员的工作量巨大，而且可维护性也较差。
技术实现思路
鉴于现有技术中的上述缺陷或不足，期望提供一种文本提取方案，无需重复开发程序，减少开发人员的工作量，同时提高程序的可维护性。第一方面，本申请实施例提供了一种文本提取方法，包括：,基于文本样本和信息提取需求，生成用于提取信息的配置信息；基于所述配置信息，从待提取文本中提取目标信息。第二方面，本申请实施例还提供了一种文本提取装置，包括：配置信息生成单元，用于基于文本样本和信息提取需求，生成用于提取信息的配置信息；提取单元，用于基于所述配置信息，从待提取文本中提取目标信息。第三方面，本申请实施例还提供了一种设备，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如第一方面所述的方法。第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序指令，当所述计算机程序指令被处理器执行时实现如第一方面所述的方...

【技术保护点】
1.一种文本提取方法，其特征在于，所述方法包括：基于文本样本和信息提取需求，生成用于提取信息的配置信息；基于所述配置信息，从待提取文本中提取目标信息。

【技术特征摘要】
1.一种文本提取方法，其特征在于，所述方法包括：基于文本样本和信息提取需求，生成用于提取信息的配置信息；基于所述配置信息，从待提取文本中提取目标信息。2.根据权利要求1所述的方法，其特征在于，所述配置信息包含文本匹配指令和与所述文本匹配指令对应的字段操作指令；基于所述配置信息，从待提取文本中提取目标信息，包括：基于每个文本匹配指令以及其对应的字段操作指令，对所述待提取文本进行信息提取操作，得到每个文本匹配指令对应的提取结果；根据每个文本匹配指令对应的提取结果，得到所述目标信息。3.根据权利要求2所述的方法，其特征在于，所述配置信息还包含逻辑关系操作指令；根据每个文本匹配指令对应的提取结果，得到所述目标信息，包括：基于所述逻辑关系操作指令，对每个文本匹配指令对应的提取结果进行逻辑操作，得到所述目标信息。4.根据权利要求3所述的方法，其特征在于，所述逻辑操作包括：交集操作、并集操作和去重操作中的至少一项。5.根据权利要求2所述的方法，其特征在于，所述文本匹配指令包含若干文本匹配项以及与各文本匹配项关联的行关系标记符；与所述文本匹配指令对应的字段操作指令包含与所述文本匹配指令中的各文本匹配项分别对应的字段操作位置和字段操作符；基于每个文本匹配指令以及其对应的字段操作指令，对所述待提取文本进行信息提取操作，得到每个文本匹配指令对应的提取结果，包括：基于每个文本匹配指令中的文本匹配项，以及与每个文本匹配指令对应的字段操作指令中与每个文本匹配项对应的字段操作位置和字段操作符，对所述待提取文本进行信息提取操作，得到每个文本匹配指令对应的提取结果；其中，文本匹配项的执行顺序根据自身关联的行关系标记符的优先级的先后顺序确定。6.根据权利要求5所述的方法，其特征在于，所述行关系标记符包括：顺向跨行信息提取标记符、顺向连续行信息提取标记符、逆向跨行信息提取标记符和逆向连续行提取标记符中的至少一种。7.根据权利要求6所述的方法，其特征在于，所述行关系标记符的优先级为：逆向跨行信息提取标记符＞逆向连续行提取标记符＞顺向跨行信息提取标记符＞顺向连续行信息提取标记符。...

【专利技术属性】
技术研发人员：徐涛，刘小龙，
申请(专利权)人：顺丰科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人