【技术实现步骤摘要】
一种面向半结构化表格的水稻栽培模式知识图谱自动构建方法一、
本专利技术属于农业信息技术与知识图谱构建创建技术的交叉领域,涉及水稻栽培模式半结构化表格信息的自动抽取与领域知识图谱的自动构建。具体地讲,该方法是一种面向半结构化表格的水稻栽培模式知识图谱自动构建方法二、
技术介绍
水稻栽培技术经历了千年的发展,积累了大量宝贵的栽培经验,许多水稻栽培的科学知识经过领域专家总结、凝练得以存储。由于水稻栽培的过程具有时间和空间差异性等特点,使得栽培知识大多数都是以半结构化表格的形式存储。如何借助信息科学技术对隐含在半结构化表格的水稻栽培知识进行整理和分析,是值得信息技术工作者探索的一个重要问题。随着信息技术的不断发展,知识工程领域引进了知识图谱概念。知识图谱是一种描述真实世界客观存在的实体、概念以及它们之间关联关系的语义网络,即一种以知识单元为基础,对信息有效的存储、分析、检索、可视化的技术。将半结构化表格中的水稻栽培知识自动抽取出,以知识图谱的方式展现出来,更加有利水稻栽培知识的推广和传播。知识图谱主要分为通用知识图谱 ...
【技术保护点】
1.一种面向半结构化表格的水稻栽培模式知识图谱自动构建方法,包括以下步骤:/n步骤1、水稻栽培模式半结构化表格数据的准备;/n步骤2、水稻栽培模式半结构化表格数据的自动抽取,包括:/n步骤2.1、水稻栽培模式半结构化表格行数的确定;/n步骤2.2、水稻品种特征数据及其栽培地区信息自动抽取;/n步骤2.3、水稻生育时期抽取与换算;/n步骤2.4、水稻育秧、栽插信息抽取与生育时期对齐;/n步骤2.5、水稻施肥、灌溉信息抽取与生育时期对齐;/n步骤2.6、水稻病虫草害信息抽取与生育时期对齐;/n步骤3、水稻栽培模式知识图谱概念层设计,构建概念分类体系;/n步骤4、创建概念-实体映 ...
【技术特征摘要】 【专利技术属性】
1.一种面向半结构化表格的水稻栽培模式知识图谱自动构建方法,包括以下步骤:
步骤1、水稻栽培模式半结构化表格数据的准备;
步骤2、水稻栽培模式半结构化表格数据的自动抽取,包括:
步骤2.1、水稻栽培模式半结构化表格行数的确定;
步骤2.2、水稻品种特征数据及其栽培地区信息自动抽取;
步骤2.3、水稻生育时期抽取与换算;
步骤2.4、水稻育秧、栽插信息抽取与生育时期对齐;
步骤2.5、水稻施肥、灌溉信息抽取与生育时期对齐;
步骤2.6、水稻病虫草害信息抽取与生育时期对齐;
步骤3、水稻栽培模式知识图谱概念层设计,构建概念分类体系;
步骤4、创建概念-实体映射表,根据映射表,将水稻栽培模式中概念与实体映射,构建知识图谱;
步骤5、知识图谱存储;
步骤6、知识图谱更新。
2.根据权利要求1所述的一种面向半结构化表格的水稻栽培模式知识图谱自动构建方法,其特征在于步骤1中,数据为农业部提供的水稻高产栽培模式半结构化表格(见表1),该水稻栽培模式半结构化表格中的内容包含水稻品种类型和相应的品种名称,育秧、栽插、施肥、灌溉、病虫草防治等农事操作,以及具体的生育时期信息等。
表1:水稻高产栽培模式图
3.根据权利要求1所述的一种面向半结构化表格的水稻栽培模式知识图谱自动构建方法,其特征在于步骤2.1中水稻栽培模式半结构化表格行数的确定,得到表格的行数记为row_len。
4.根据权利要求1所述的一种面向半结构化表格的水稻栽培模式知识图谱自动构建方法,其特征在于步骤2.2中水稻品种特征数据及其栽培地区信息自动抽取,包括:
步骤2.2.1水稻品种类型信息抽取,获取表格每一行第一列单元格的值,Con={c1,c2,…cn},其中Con表示每一行第一列单元格值的集合,c1表示第一行第一列单元格的值,c2表示第二行第一列的值,cn表示第n行第一列的值,其中n=row_len,表示表格的最后一行,当ci=“品种类型及产量构成”时,获取该行数据。
步骤2.2.2根据水稻品种类型字典G={g1,g2,…gm}共有9种类型分别为早熟早粳、早熟中粳、早熟晚粳、中熟早粳、中熟中粳、中熟晚粳、迟熟早粳、迟熟中粳、迟熟晚粳,gi表示其中的一种水稻品种类型的名称,使用表2中规则1抽取步骤2.2.1得到的数据,获取的字符串就是水稻类型和品种名称的信息。再以“;”和“、”为分隔符分割,得到每一种水稻类型的名称以及该类型包含的具体品种名称。
步骤2.2.3水稻品种类型特征抽取,要包括四部分:亩穗数、穗粒数、结实率、千粒重。使用表2中规则2抽取亩穗数的具体特征数值,穗粒数、结实率、千粒重等特征数值的抽取,只需把规则2中的亩穗数替换即可。
步骤2.2.4水稻栽培地区信息抽取,对表格最后一行的数据使用表2中规则3抽取得到栽培地区信息,再以“、”为分隔符进行分割得到具体的栽培区域名称。
表2规则表
5.根据权利要求1所述的一种面向半结构化表格的水稻栽培模式知识图谱构建方法,其特征在于步骤2.3中水稻生育时期的抽取与换算,包括:
步骤2.3.1生育时期名称抽取,获取生育时期栏的表格信息,并以空格为分隔符,得到每一个生育时期信息,生育时期信息由文本字符串和数字字符串组成,其中的文本字符串为生育时期名称,数字字符串为生育时期时间信息。
步骤2.3.2生育时期时间计算,经过以下流程,将步骤2.3.1得到的数字字符串换算为时间。
1以数字字符串为输入
2If“~”前包含月份:
2“~”前为开始时间点,后为结束时间点
3If开始时间点包含“/”
4“/”前为具体月份,后面为日期,并且保存为A.B格式(A为月份,B为日期);
5If结束日期包含“/”
6则与开始日期包含“/”做相同处理
7If结束日期不包含“/”
则结束日期的月份与起始相同,日期为给定的数字
8Else将“~”前的数字与前一个生育时期的日期相加
9If得到结果大于30
10月份+1,同时结果-30作为目前的日期
11else月份为前一生育时期的月份,日期为相加的结果
12返回输出生育时期的日期。
2.3.3生育时期换算,将步骤2.3.2计算得到的生育时期,换算为旬数。
6.根据权利要求1所述的一种面向半结构化表格的水稻栽培模式知识图谱自动构建方法,其特征在于步骤2.4中水稻育秧、栽插信息抽取与生育时期对齐,包括:
步骤2.4.1水稻育秧信息抽取与生育时期对齐,抽取表格育秧栏中的信息,育秧的时间为步骤2.3.2中计算出的秧田期的初始时间。
步骤2.4.2水稻栽插信息抽取与生育时期对齐,抽取表格栽插栏中的信息,栽插的时间为步骤2.3.2中计算出的移栽的初始时间。
7.根据权利要求1所述的一种面向半结构化表格的水稻栽培模式知识图谱自动构建方法,其特征在于步骤2.5中水稻施肥、灌溉信息抽取与生育时期对齐,包括:
步骤2.5.1施肥信息抽取与生育时期对齐,抽取施肥栏目中每一列中的文本信息,同时计算每一列的宽度Di,Di表示第i列的宽度。获取该列正上方长度为Di的月份信息,得到的月份时间就是该列施肥操作的时间,对于抽取到的文本内容使用“:”为分隔符进行分割,分别得到施肥名称以及具体的施肥操作内容。
技术研发人员:姜海燕,沈利言,黄海,
申请(专利权)人:南京农业大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。