The invention discloses a method for entity extraction of food safety incidents under multi-feature knowledge, which includes the following steps: entity definition of food safety incidents; statistics of internal and external characteristics of food safety incidents entity; establishment of machine learning model; selection of corpus and processing of corpus; selection of features and making of feature templates. The invention has the advantages that it plays a role as a basic resource for constructing a knowledge base of food safety incidents and mining food safety response strategies. It can automatically extract food names from specific factors that cause food safety incidents. In the process of constructing the extraction model, not only a large amount of feature knowledge is incorporated into the conditional random field model, but also a large number of tagged food safety event corpus are used to construct the model.
【技术实现步骤摘要】
基于条件随机场的食品安全事件实体抽取方法
本专利技术涉及食品安全
,特别涉及一种多特征知识下的食品安全事件实体抽取方法。
技术介绍
为了应对备受关注的食品安全事件问题,2013年12月23日至24日的中央农村经济工作会议明确提出“尽快建立全国统一的农产品和食品安全信息追溯平台”的具体措施,而构建食品安全信息追溯平台的基础是要对食品安全事件中的主要实体进行确认,尤其是涉及到食品安全舆情的处理时,相关实体的抽取变得愈发重要。针对这一情况,本专利技术基于构建的食品安全事件语料库,结合条件随机场机器学习模型,通过利用食品安全事件实体的多特征知识,对食品安全事件的实体进行抽取实验。一方面为构建食品安全事件知识库提供了基本的知识锚点,另一方面也为深入挖掘、分析和总结应对食品安全事件的策略奠定了基础。有关食品安全事件的研究主要集中在案例、政策和应急处理上,有代表性的研究主要有:由复旦大学的研究生吴恒联合34名网络志愿者创建“掷出窗外”网站[1],搜集了关于食品安全事件的相关事件并构建了数据库。该数据库为本专利技术构建的食品安全事件语料库提供了一定数量的文本,是本专利技术语料库构建的基础。关于食品安全事件的研究更多是从管理学的角度进行,比较有代表性的研究有:张慕洁等[2]基于两个典型案例,分析了应急管理事件时信息不公开造成的危害,并探讨了常见的不公开的原因。该研究选取典型案例的方法为本专利技术确定语料文本提供了方法上的借鉴。马颖等[3]构建了食品行业事件风险感知的传染病模型,并以日本地震衍生的“抢购食盐事件”为例,对模型进行数值分析和检验。该研究为本专利技术进行食品 ...
【技术保护点】
1.一种多特征知识下的食品安全事件实体抽取方法,其特征在于,包括如下步骤:S1:食品安全事件实体界定和特征统计;S11:实体界定;在对食品安全事件进行采集、标注和组织的基础上,构建食品安全事件语料库;S12:食品安全事件实体内部和外部特征统计;选取所有食品安全事件,对其中的食品名称与导致食品安全事件发生的具体因素进行标注;在标注的语料基础上,统计“食品名称”与“具体因素”这些实体的内部和外部特征;内部特征包括实体长度和数量:获取实体长度用于掌握所抽取实体对象的难易程度和确定条件随机场标记集的数目;统计具体实体的分布情况用于实体的具体内容和统计具体实体的左右边界特征;实体的外部特征:对食品安全事件语料中的“食品名称”和“具体因素”的左右边界进行统计,该统计结果对于后续构建“食品名称”和“具体因素”抽取模型具有重要价值;“食品名称”和“具体因素”的边界范围限定在以“。!?”结尾的子句范围内,“食品名称”和“具体因素”的左边界为起始标记,从句子开始到第一个标记结束的范围内,称为β;从最后一个标记开始到句子结束,这个范围记做α;具体选取“食品名称”和“具体因素”左边界词的计算公式如公式(1)所 ...
【技术特征摘要】
1.一种多特征知识下的食品安全事件实体抽取方法,其特征在于,包括如下步骤:S1:食品安全事件实体界定和特征统计;S11:实体界定;在对食品安全事件进行采集、标注和组织的基础上,构建食品安全事件语料库;S12:食品安全事件实体内部和外部特征统计;选取所有食品安全事件,对其中的食品名称与导致食品安全事件发生的具体因素进行标注;在标注的语料基础上,统计“食品名称”与“具体因素”这些实体的内部和外部特征;内部特征包括实体长度和数量:获取实体长度用于掌握所抽取实体对象的难易程度和确定条件随机场标记集的数目;统计具体实体的分布情况用于实体的具体内容和统计具体实体的左右边界特征;实体的外部特征:对食品安全事件语料中的“食品名称”和“具体因素”的左右边界进行统计,该统计结果对于后续构建“食品名称”和“具体因素”抽取模型具有重要价值;“食品名称”和“具体因素”的边界范围限定在以“。!?”结尾的子句范围内,“食品名称”和“具体因素”的左边界为起始标记,从句子开始到第一个标记结束的范围内,称为β;从最后一个标记开始到句子结束,这个范围记做α;具体选取“食品名称”和“具体因素”左边界词的计算公式如公式(1)所示;其中,f(W_left_outside)表示W在β范围内出现的频次,f(W_left)表示W在β、“食品名称”、“具体因素”内部出现的频次;通过公式(1),结合食品安全事件的语料,给定P的经验阈值为0.8,即当P≥0.8时,W可能成为“食品名称”和“具体因素”的左边界词,然后结合人工语言学知识的内省,最终确定7个左边界词:“的、用、和、是、食品、超标、中”;使用公式(2)用于“食品名称”和“具体因素”右边界词的选取;其中,f(W_right_outside)表示W在α范围内出现的频次,f(W_right)表示W在α、“食品名称”、“具体因素”内部出现的频次,将右边界词P的阈值也设定为0.8,根据语言学知识的内省再结合大于或等于0.8的P值,最终确定10个右边界词:“的、用、品、有、种、和、是、超、中、产”;S2:模型建立和特征确定S21:机器学习模型建立设x={x1,x2,…,xn-1,xn}表示被观察的输入数据序列,如语料中分词后的词;y={y1,y2,…,yn-1,yn}表示有限状态集合,其中每个状态对应于一个标记;在给定输入序列x的条件下,对于参数λ={λ1,λ2,…,λn-1,λn}的线性链CRFs的状态序列y的条件概率如公式(3)和公式(4)所示;其中,Zx为归一化因子,表示所有可能的状态序列的得分,确保所有可能状态序列的条件概率之和为1;是一个统一形式的特征函数,通...
【专利技术属性】
技术研发人员:王东波,朱子赫,叶文豪,吴毅,王玥雯,
申请(专利权)人:南京农业大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。