【技术实现步骤摘要】
一种非结构化文本的处理方法及装置
本专利技术涉及计算机
,特别涉及一种非结构化文本的处理方法及装置。
技术介绍
随着计算机、互联网和数字媒体等的进一步普及、人工智能的急剧发展,以文本、图形、图像、音频、视频等非结构化数据为主的信息急剧增加,面对如此巨大的信息海洋,特别是非结构化数据信息,如何存储、查询、分析、挖掘和利用这些海量信息资源就显得尤为关键。现有技术中对于非结构化文本这种非结构化数据的处理还是简单的保存到数据库中。当用户需要从非结构化文本中获取需要的数据时,需要对整个非结构化文本进行逐字搜索,效率很低。总之,现有技术中对非结构化文本的处理不便于从非结构化文本中获取需要的数据。
技术实现思路
本专利技术实施例提供了一种非结构化文本的处理方法及装置,能够更方便地从非结构化文本中获取所需要的数据。一方面,本专利技术实施例提供了一种非结构化文本的处理方法,包括:预先设置至少一个对象类型;接收用户输入的对象自定义指令;根据所述对象自定义指令,生成用户自定义的至少一个对象类型;将用户自定义的至少一个对象类型和预先设置的至少一个对象类型作为至少一个可选的对象类型;包括:确定用户选择的位于非结构化文本中的待标注内容;将所述待标注内容作为待标注的对象;接收用户输入的针对所述待标注的对象的对象标注指令;根据所述对象标注指令,从所述至少一个可选的对象类型中,确定目标对象类型;利用所述目标对象类型对所述待标注的对象进行标注。进一步地,该方法进一步包括:预先设置至少一个属性类型;接收用户输入的属性自定义指令;根据所述属性自定义指令,生成用户自定义的至少一个属性类型;将用户 ...
【技术保护点】
1.一种非结构化文本的处理方法,其特征在于,预先设置至少一个对象类型;接收用户输入的对象自定义指令;根据所述对象自定义指令,生成用户自定义的至少一个对象类型;将用户自定义的至少一个对象类型和预先设置的至少一个对象类型作为至少一个可选的对象类型;包括:确定用户选择的位于非结构化文本中的待标注内容;将所述待标注内容作为待标注的对象;接收用户输入的针对所述待标注的对象的对象标注指令;根据所述对象标注指令,从所述至少一个可选的对象类型中,确定目标对象类型;利用所述目标对象类型对所述待标注的对象进行标注。
【技术特征摘要】
1.一种非结构化文本的处理方法,其特征在于,预先设置至少一个对象类型;接收用户输入的对象自定义指令;根据所述对象自定义指令,生成用户自定义的至少一个对象类型;将用户自定义的至少一个对象类型和预先设置的至少一个对象类型作为至少一个可选的对象类型;包括:确定用户选择的位于非结构化文本中的待标注内容;将所述待标注内容作为待标注的对象;接收用户输入的针对所述待标注的对象的对象标注指令;根据所述对象标注指令,从所述至少一个可选的对象类型中,确定目标对象类型;利用所述目标对象类型对所述待标注的对象进行标注。2.根据权利要求1所述的方法,其特征在于,进一步包括:预先设置至少一个属性类型;接收用户输入的属性自定义指令;根据所述属性自定义指令,生成用户自定义的至少一个属性类型;将用户自定义的至少一个属性类型和预先设置的至少一个属性类型作为至少一个可选的属性类型;进一步包括:接收用户输入的针对所述待标注的对象的属性标注指令;根据所述属性标注指令,从所述至少一个可选的属性类型中,确定目标属性类型;利用所述目标属性类型对所述待标注的对象进行标注。3.根据权利要求1所述的方法,其特征在于,进一步包括:预先设置至少一个关联类型,以及至少一个关联方向;接收用户输入的关联自定义指令;根据所述关联自定义指令,生成用户自定义的至少一个关联类型;将用户自定义的至少一个关联类型和预先设置的至少一个关联类型作为至少一个可选的关联类型;进一步包括:接收用户输入的针对所述待标注的对象的关联标注指令;根据所述关联标注指令,确定需要与所述待标注的对象关联的待关联的对象;根据所述关联标注指令,从所述至少一个可选的关联类型中,确定目标关联类型和目标关联方向;利用所述目标关联类型和所述目标关联方向将所述待标注的对象与所述待关联的对象进行关联。4.根据权利要求3所述的方法,其特征在于,所述至少一个关联方向包括:第一对象指向第二对象;所述第二对象指向所述第一对象;所述第一对象与所述第二对象互相指向。5.根据权利要求1-4中任一所述的方法,其特征在于,在所述确定用户选择的非结构化文本中的待标注内容之后,进一步包括:记录所述待标注内容的起始位置和长度;进一步包括:当打开所述非结构化文本时,根据所述待标注内容的起始位置和长度,显示所述待标注内容;和/或,在所述确定用户选择的位于非结构化文本中的待标注内容之前,进一步包括:接收用户上传的所述非结构化文本;和/或,在所述确定用户选择的位于非结构化文本中的待标注内容之前,进一步包括:接收用户输入的统一资源定位符URL路径,解析所述URL路径,从所述URL路径中获取所述非结构化文本。6.一种非结构化文本的处理装置,其特征在于,包括:对象类型设置单元,用于设置至少一个对象类型;对象类型自...
【专利技术属性】
技术研发人员:邰亚琦,张娴,魏静如,
申请(专利权)人:浪潮软件股份有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。