基于条件随机场的食品安全事件实体抽取方法技术

技术编号:19388830 阅读:30 留言:0更新日期:2018-11-10 02:00
本发明专利技术公开了一种多特征知识下的食品安全事件实体抽取方法,包括以下步骤:食品安全事件的实体界定;食品安全事件实体内部和外部特征统计;机器学习模型建立;语料的选择和语料的处理;特征的选取以及特征模板的制定;本发明专利技术的优点在于:对于构建食品安全事件知识库和挖掘食品安全应对策略起到了充当基础资源的作用。能够自动将食品名称与导致食品安全事件发生的具体因素抽出来。在构建抽取模型的过程中,不仅在条件随机场模型当中融入了大量的特征知识而且所构建的模型是在海量的经过标注的食品安全事件语料上进行的。

Entity extraction method for food safety incidents based on conditional random fields

The invention discloses a method for entity extraction of food safety incidents under multi-feature knowledge, which includes the following steps: entity definition of food safety incidents; statistics of internal and external characteristics of food safety incidents entity; establishment of machine learning model; selection of corpus and processing of corpus; selection of features and making of feature templates. The invention has the advantages that it plays a role as a basic resource for constructing a knowledge base of food safety incidents and mining food safety response strategies. It can automatically extract food names from specific factors that cause food safety incidents. In the process of constructing the extraction model, not only a large amount of feature knowledge is incorporated into the conditional random field model, but also a large number of tagged food safety event corpus are used to construct the model.

【技术实现步骤摘要】
基于条件随机场的食品安全事件实体抽取方法
本专利技术涉及食品安全
,特别涉及一种多特征知识下的食品安全事件实体抽取方法。
技术介绍
为了应对备受关注的食品安全事件问题,2013年12月23日至24日的中央农村经济工作会议明确提出“尽快建立全国统一的农产品和食品安全信息追溯平台”的具体措施,而构建食品安全信息追溯平台的基础是要对食品安全事件中的主要实体进行确认,尤其是涉及到食品安全舆情的处理时,相关实体的抽取变得愈发重要。针对这一情况,本专利技术基于构建的食品安全事件语料库,结合条件随机场机器学习模型,通过利用食品安全事件实体的多特征知识,对食品安全事件的实体进行抽取实验。一方面为构建食品安全事件知识库提供了基本的知识锚点,另一方面也为深入挖掘、分析和总结应对食品安全事件的策略奠定了基础。有关食品安全事件的研究主要集中在案例、政策和应急处理上,有代表性的研究主要有:由复旦大学的研究生吴恒联合34名网络志愿者创建“掷出窗外”网站[1],搜集了关于食品安全事件的相关事件并构建了数据库。该数据库为本专利技术构建的食品安全事件语料库提供了一定数量的文本,是本专利技术语料库构建的基础。关于食品安全事件的研究更多是从管理学的角度进行,比较有代表性的研究有:张慕洁等[2]基于两个典型案例,分析了应急管理事件时信息不公开造成的危害,并探讨了常见的不公开的原因。该研究选取典型案例的方法为本专利技术确定语料文本提供了方法上的借鉴。马颖等[3]构建了食品行业事件风险感知的传染病模型,并以日本地震衍生的“抢购食盐事件”为例,对模型进行数值分析和检验。该研究为本专利技术进行食品安全事件的名称标注提供了相应的借鉴之处。上述研究一方面为本专利技术提供了宏观的方法、策略指导,另一方面也为本专利技术确定食品安全事件的实体提供了具体的依据。实体的抽取方面最新的研究主要是通过机器学习的方法抽取非结构化文本中的实体,比较有代表性的研究如下:基于神经网络的策略,陈宇等[4]尝试利用DeepBeliefNets模型对实体及实体之间的关系进行抽取。该研究为本专利技术确定特征量的数量提供了相应的方法指导。利用相应的语义知识对实体进行抽取也是目前较为流行的策略,邵发等[5]从解决一词多义的问题着手,利用歧义消除策略,通过HowNet和贝叶斯分类的资源与方法,对实体进行抽取。从消除歧义的角度完成对实体的识别虽然具有一定的科学性,但这种方法在大规模的语料上的整体性能有待于验证。针对急剧增加的电子医疗文本,许华等[6]基于分词、词性标注的医疗语料,利用规则的方法,完成对医疗文本中实体的抽取,整体性能达到80%以上。规则的方法虽然在某一特征的语料上具有一定的适应性,但由于对蕴含在具体语料词汇之间的规则缺乏充分的探究,在一定程度上会导致所制定规则的覆盖度相对较差。这也是本专利技术选取条件随机场模型进行食品安全事件实体抽取的主要原因之一。与食品安全事件相关的信息抽取研究中,目前集中在针对食品投诉文本词汇层级的知识抽取,比较有代表性的研究是魏秀卓[7]围绕食品投诉文本敏感词汇的抽取和高蕊[8]基于本体的食品投诉文本危害信息的提取。相对于实体抽取,词汇级的抽取相对简单,主要体现在词汇的长度较短和内部组成相对简单这两点上。条件随机场作为抽取术语和实体等序列化的机器学习模型具有较广泛的应用,比较有代表性的如下:李丽双等[9]通过简单特征模板完成对汽车术语的抽取;在词汇组合的特征模板基础上,王文龙等[10]完成了对项目申报书中实体的抽取;结合中医词汇的特征知识,刘凯等[11]构建了中医电子病历的实体抽取模型。上述基于条件随机场的术语和实体抽取仅仅利用了实体自身简单的特征知识,未涉及到所抽取对象上下文语境的信息,本专利技术在识别食品安全事件实体的过程中构建了复杂的特征模板,在一定程度上弥补了已有识别方法的不足。实体的抽取方面最新的研究主要是通过机器学习的方法抽取非结构化文本中的实体,比较有代表性的研究如下:基于神经网络的策略,陈宇等[4]尝试利用DeepBeliefNets模型对实体及实体之间的关系进行抽取。该研究为本专利技术确定特征量的数量提供了相应的方法指导。利用相应的语义知识对实体进行抽取也是目前较为流行的策略,邵发等[5]从解决一词多义的问题着手,利用歧义消除策略,通过HowNet和贝叶斯分类的资源与方法,对实体进行抽取。从消除歧义的角度完成对实体的识别虽然具有一定的科学性,但这种方法在大规模的语料上的整体性能有待于验证。针对急剧增加的电子医疗文本,许华等[6]基于分词、词性标注的医疗语料,利用规则的方法,完成对医疗文本中实体的抽取,整体性能达到80%以上。规则的方法虽然在某一特征的语料上具有一定的适应性,但由于对蕴含在具体语料词汇之间的规则缺乏充分的探究,在一定程度上会导致所制定规则的覆盖度相对较差。这也是本专利技术选取条件随机场模型进行食品安全事件实体抽取的主要原因之一。与食品安全事件相关的信息抽取研究中,目前集中在针对食品投诉文本词汇层级的知识抽取,比较有代表性的研究是魏秀卓[7]围绕食品投诉文本敏感词汇的抽取和高蕊[8]基于本体的食品投诉文本危害信息的提取。相对于实体抽取,词汇级的抽取相对简单,主要体现在词汇的长度较短和内部组成相对简单这两点上。条件随机场作为抽取术语和实体等序列化的机器学习模型具有较广泛的应用,比较有代表性的如下:李丽双等[9]通过简单特征模板完成对汽车术语的抽取;在词汇组合的特征模板基础上,王文龙等[10]完成了对项目申报书中实体的抽取;结合中医词汇的特征知识,刘凯等[11]构建了中医电子病历的实体抽取模型。上述基于条件随机场的术语和实体抽取仅仅利用了实体自身简单的特征知识,未涉及到所抽取对象上下文语境的信息,本专利技术在识别食品安全事件实体的过程中构建了复杂的特征模板,在一定程度上弥补了已有识别方法的不足。上述已有的研究具有两个方面的不足,一方面在构建基于条件随机场的模型过程中,没有使用相应的特征或者所使用的特征比较单一,造成了所构建模型的整体性能有待提高,另一方面在训练模型的过程中,已有的研究基本上均是在小规模语料上展开的探究,而本专利技术是构建在大规模经过人工标注过的语料上的,具有非常强的模型可迁移性和适应性。参考文献[1]掷出窗外[EB/OL].[2014-02-18].http://www.zccw.info/;[2]张慕洁,沈建华.关于处置食品药品安全突发事件中信息公开的思考[J].上海食品药品监管情报研究,2012(2):45-49;[3]马颖,张园园,宋文广.食品行业事件风险感知的传染病模型研究[J].科研管理,2013,34(9):123-130;[4]陈宇,郑德权,赵铁军.基于DeepBeliefNets的中文名实体关系抽取[J].软件学报,2012,23(10):2572-2585;[5]邵发,黄银阁,周兰江等.基于实体消歧的中文实体关系抽取[J].山东大学学报:工学版,2014,44(6):32-37;[6]许华,刘茂福,姜丽等.基于语言规则的病症菌实体抽取[J].武汉大学学报(理学版),2015,61(2):51-55;[7]魏秀卓.食品投诉文本敏感词汇抽取研究[D].长春:东北师范大学,2015;[8]高蕊.基于本体的食品投诉文本危害信息抽取研究[本文档来自技高网...

【技术保护点】
1.一种多特征知识下的食品安全事件实体抽取方法,其特征在于,包括如下步骤:S1:食品安全事件实体界定和特征统计;S11:实体界定;在对食品安全事件进行采集、标注和组织的基础上,构建食品安全事件语料库;S12:食品安全事件实体内部和外部特征统计;选取所有食品安全事件,对其中的食品名称与导致食品安全事件发生的具体因素进行标注;在标注的语料基础上,统计“食品名称”与“具体因素”这些实体的内部和外部特征;内部特征包括实体长度和数量:获取实体长度用于掌握所抽取实体对象的难易程度和确定条件随机场标记集的数目;统计具体实体的分布情况用于实体的具体内容和统计具体实体的左右边界特征;实体的外部特征:对食品安全事件语料中的“食品名称”和“具体因素”的左右边界进行统计,该统计结果对于后续构建“食品名称”和“具体因素”抽取模型具有重要价值;“食品名称”和“具体因素”的边界范围限定在以“。!?”结尾的子句范围内,“食品名称”和“具体因素”的左边界为起始标记,从句子开始到第一个标记结束的范围内,称为β;从最后一个标记开始到句子结束,这个范围记做α;具体选取“食品名称”和“具体因素”左边界词的计算公式如公式(1)所示;...

【技术特征摘要】
1.一种多特征知识下的食品安全事件实体抽取方法,其特征在于,包括如下步骤:S1:食品安全事件实体界定和特征统计;S11:实体界定;在对食品安全事件进行采集、标注和组织的基础上,构建食品安全事件语料库;S12:食品安全事件实体内部和外部特征统计;选取所有食品安全事件,对其中的食品名称与导致食品安全事件发生的具体因素进行标注;在标注的语料基础上,统计“食品名称”与“具体因素”这些实体的内部和外部特征;内部特征包括实体长度和数量:获取实体长度用于掌握所抽取实体对象的难易程度和确定条件随机场标记集的数目;统计具体实体的分布情况用于实体的具体内容和统计具体实体的左右边界特征;实体的外部特征:对食品安全事件语料中的“食品名称”和“具体因素”的左右边界进行统计,该统计结果对于后续构建“食品名称”和“具体因素”抽取模型具有重要价值;“食品名称”和“具体因素”的边界范围限定在以“。!?”结尾的子句范围内,“食品名称”和“具体因素”的左边界为起始标记,从句子开始到第一个标记结束的范围内,称为β;从最后一个标记开始到句子结束,这个范围记做α;具体选取“食品名称”和“具体因素”左边界词的计算公式如公式(1)所示;其中,f(W_left_outside)表示W在β范围内出现的频次,f(W_left)表示W在β、“食品名称”、“具体因素”内部出现的频次;通过公式(1),结合食品安全事件的语料,给定P的经验阈值为0.8,即当P≥0.8时,W可能成为“食品名称”和“具体因素”的左边界词,然后结合人工语言学知识的内省,最终确定7个左边界词:“的、用、和、是、食品、超标、中”;使用公式(2)用于“食品名称”和“具体因素”右边界词的选取;其中,f(W_right_outside)表示W在α范围内出现的频次,f(W_right)表示W在α、“食品名称”、“具体因素”内部出现的频次,将右边界词P的阈值也设定为0.8,根据语言学知识的内省再结合大于或等于0.8的P值,最终确定10个右边界词:“的、用、品、有、种、和、是、超、中、产”;S2:模型建立和特征确定S21:机器学习模型建立设x={x1,x2,…,xn-1,xn}表示被观察的输入数据序列,如语料中分词后的词;y={y1,y2,…,yn-1,yn}表示有限状态集合,其中每个状态对应于一个标记;在给定输入序列x的条件下,对于参数λ={λ1,λ2,…,λn-1,λn}的线性链CRFs的状态序列y的条件概率如公式(3)和公式(4)所示;其中,Zx为归一化因子,表示所有可能的状态序列的得分,确保所有可能状态序列的条件概率之和为1;是一个统一形式的特征函数,通...

【专利技术属性】
技术研发人员:王东波朱子赫叶文豪吴毅王玥雯
申请(专利权)人:南京农业大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1