当前位置: 首页 > 专利查询>山西大学专利>正文

一种基于社交网络数据的药品不良事件信息提取方法技术

技术编号:20916815 阅读:25 留言:0更新日期:2019-04-20 09:45
本发明专利技术公开了一种基于社交网络数据的药品不良事件信息提取方法,该方法包括以下步骤:抓取社交网络患者用药反馈文本;对评论文本进行数据预处理;对评论文本进行句法分析;对评论文本中的谓词进行语义类识别;识别评论文本中谓词所支配的主体语义角色;计算程度值;填充药品不良事件模板。本发明专利技术适用于药品不良事件信息的提取,药物种类不限;能够有效分析患者用药后的反馈信息,为药品的生产、经营、使用及药政部门的管理提供药品不良事件的咨询,利于业务的开展和管理的提高。

A Method of Drug Adverse Events Information Extraction Based on Social Network Data

The invention discloses a drug adverse event information extraction method based on social network data, which includes the following steps: grabbing drug feedback text from patients in social network; preprocessing comment text; parsing comment text; recognizing predicates in comment text; recognizing predicates'dominant subjective semantic roles in comment text. Computing degree value; Filling in the template of adverse drug events. The invention is suitable for extracting information of adverse drug events, with unlimited types of drugs, can effectively analyze feedback information of patients after medication, provide consultation for drug production, operation, use and management of drug administration departments, and is conducive to business development and management improvement.

【技术实现步骤摘要】
一种基于社交网络数据的药品不良事件信息提取方法
本专利技术属于信息抽取
,具体地说,涉及一种基于社交网络数据的药品不良事件信息提取方法。技术背景药品不良事件(adversedrugevent,简称ADE)是指服用药物治疗疾病过程中所发生的不幸的医疗卫生事件,是由药物引起或与药物相关的患者机体损害。药品不良事件的原因包括药品标准缺陷、药品不良反应、药品质量问题、药品滥用以及用药失误。在概念范围上药品不良事件大于药品不良反应,有些药品不良事件不一定与药物治疗存在因果关系。在涉及的机构和人群方面,药品不良事件涉及到生产和研究者、监管者、流通商、医生、护士、药师、患者或消费者。本着“可疑即报”的原则,将传统的药品不良反应监测延伸至药品不良事件监测,对用药期间出现的各种医学事件都进行监督,可以更大程度地降低用药风险。尽管药品上市前会进行临床实验分析,医院在临床使用过程中也有相应的集中监测上报制度,但是受到时间、检测对象等限制,,数据代表性差,得出的分析结果无法覆盖所有的药品不良事件,导致药品不良事件被低报或漏报,从而造成无法全面认知药品副作用和安全性注意事项。因此,利用社交网络数据提取药品不良事件信息可以作为现有药物不良事件呈报系统的补充,作为药品安全性和有效性管理工作的重要参考,具有重要的理论价值和现实意义。
技术实现思路
本专利技术的技术解决方案:一种基于社交网络数据的药品不良事件信息提取方法,包括以下基本步骤:从社交网络中抓取网上患者对药物评论文本,以字符形式存储,并对获取的药物评论文本数据进行预处理;根据依存语法体系,对评论文本进行句法分析,将句法结构描述为一个支配词及其从属成分构成的树结构,并标注主语、谓语、定语的依存关系;其中,所述支配词是谓语中心语;确定依存句法结构中每一药物评论文本中处于支配地位的谓词,对谓词进行语义类识别,并依据预设规则标注谓词所支配的主体语义角色;其中,所述主体语义角色是从属于谓词的名词性短语、且在语义关系上是动作行为或性状描述的主体;依据对药物评价文本的标注情况,确定药物评价描述的程度值,并将程度值填充入药品不良事件模板。其中,在从社交网络中抓取网上患者对药物评论文本的步骤中,是利用爬虫技术从博客、微博、在线评论的社交网络中抓取。其中,在对获取的用药物评论文本数据进行预处理的步骤中,预处理的步骤包括:识别药物评论文本对应的评论者名称和URL标识,对药物评论文本进行分词和词性标注,识别药物评价文本中包含的药品名称;对药物评论文本进行断句处理,以“,?!。”为标志,将文本切分为语块;将药品名及其对应的评论语块存储于数据库。其中,在确定依存句法结构中每一药物评论文本中处于支配地位的谓词的步骤中,谓词包括形容词、动词、成语和习用语,其句法功能包括主谓结构的谓语、述宾结构的述语、述补结构的补语和定中结构的中心语;对谓词进行语义类识别是根据语义分类词典进行识别。其中,在依据预设规则标注谓词所支配的主体语义角色的步骤中,预设规则为:若药物评价文本只有一个谓词,则不标注语义角色;若药物评价文本的句法结构为“谓词-->词1”,且词1之前没有其他定语依存成分,且词1与谓词的句法关系为主谓,则标注词1为主体;若药物评价文本的句法结构为“谓词-->词1”,且词1前有定语依存成分,即“词1-->词2,词2-->词3……”,则将“词3词2词1……”整个序列标注为主体;若药物评价文本的句法结构为“谓词-->词1”,且词1之前没有其他定语依存成分,且词1与谓词的句法关系为定中结构,则标注词1为主体;若药物评价文本的句法结构为“谓词-->词1”,且词1与谓词的句法关系为定中结构,若词1前有其他定语依存成分,即“词1-->词2,词2-->词3……”,则将“词3词2词1……”整个序列标注为主体。其中,在确定药物评价描述的程度值的步骤中,包括步骤:根据语义分类词典中对词语程度值的标注,将药物评价文本中谓词对应的程度值设置为药物评价描述程度值的初始值;根据程度副词词表,扫描药物评价文本内是否有程度副词,若有,查阅副词词表,根据词表中的调节量值,将第一程度值设为初始值±调节量;其中,初始值>0.5的,取加号,初始值<0.5的取减号;如果赋值后的第一程度值>0.9,则输出第一程度值为0.9;如果赋值后的第一程度值<0.1,则输出第一程度值为0.1;根据否定词词表,扫描药物评价文本内是否有否定词,若有,将程度值赋值为1-第一程度值,若无,输出第一程度值为最终结果。其中,语义分类词典对每个词语定义其程度值,以0.1-0.9之间的浮点数表示,其中,0.5为中性,0.1-0.4为不良感受,数值越低表示不良感受越强,0.6-0.9为良好感受,数值越高表示良好感受越强。其中,药品不良事件模板为:Ei(dri,pi,bi,dgri)其中,Ei为事件类型,对应谓词的语义类识别结果,dri为药物名称,对应评论文本预处理识别的药物名称,pi为评论者,对应预处理中的评论者名称和URL标识,bi为感知部位,对应主体语义角色,dgri为程度值,对应程度值计算结果。其中,当一条评论就一个事件类型、同一感知部位用了多个评价语块描述时,取各评价语块程度值的平均值为最终程度值;若一条评论中识别为同一事件类型、同一感知部位的评价语块有n个,其中,第j个评价语块所计算的程度值为Vj,j=1,2,3,…,n,则在一个事件类型Ei中,程度值dgr的计算公式为:区别于现有技术,本专利技术提出一种基于社交网络数据的药品不良事件信息提取方法,该方法包括以下步骤:抓取社交网络患者用药反馈文本;对评论文本进行数据预处理;对评论文本进行句法分析;对评论文本中的谓词进行语义类识别;识别评论文本中谓词所支配的主体语义角色;计算程度值;填充药品不良事件模板。本专利技术适用于药品不良事件的提取,药物种类不限;能够有效分析患者用药后的反馈信息,为药品的生产、经营、使用及药政部门的管理提供药物不良事件的咨询,利于业务的开展和管理的提高。附图说明图1为本专利技术提供的一种基于社交网络数据的药品不良事件信息提取方法的流程示意图。图2为本专利技术提供的一种基于社交网络数据的药品不良事件信息提取方法的逻辑示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参阅图1和图2,图1是本专利技术提供的一种基于社交网络数据的药品不良事件信息提取方法的流程示意图;图2是本专利技术提供的一种基于社交网络数据的药品不良事件信息提取方法的逻辑示意图。该方法的步骤包括:S110:从社交网络中抓取网上患者对药物评论文本,以字符形式存储,并对获取的用药物评论文本数据进行预处理。在从社交网络中抓取网上患者对药物评论文本的步骤中,利用爬虫技术,从博客、微博、在线评论等社交网络中抓取患者对药物的评论文本,例如知乎、微博话题中含有“副作用”和药物不良反应等信息的问答记录,医疗在线评论和药品电商评论中的相关评论,等等。以字符形式存储于本地数据本文档来自技高网...

【技术保护点】
1.一种基于社交网络数据的药品不良事件信息提取方法,其特征在于,包括:从社交网络中抓取网上患者对药物评论文本,以字符形式存储,并对获取的药物评论文本数据进行预处理;根据依存语法体系,对评论文本进行句法分析,将句法结构描述为一个支配词及其从属成分构成的树结构,并标注主语、谓语、定语的依存关系;其中,所述支配词是谓语中心语;确定依存句法结构中每一药物评论文本中处于支配地位的谓词,对谓词进行语义类识别,并依据预设规则标注谓词所支配的主体语义角色;其中,所述主体语义角色是从属于谓词的名词性短语、且在语义关系上是动作行为或性状描述的主体;依据对药物评价文本的标注情况,确定药物评价描述的程度值,并将程度值填充入药品不良事件模板。

【技术特征摘要】
1.一种基于社交网络数据的药品不良事件信息提取方法,其特征在于,包括:从社交网络中抓取网上患者对药物评论文本,以字符形式存储,并对获取的药物评论文本数据进行预处理;根据依存语法体系,对评论文本进行句法分析,将句法结构描述为一个支配词及其从属成分构成的树结构,并标注主语、谓语、定语的依存关系;其中,所述支配词是谓语中心语;确定依存句法结构中每一药物评论文本中处于支配地位的谓词,对谓词进行语义类识别,并依据预设规则标注谓词所支配的主体语义角色;其中,所述主体语义角色是从属于谓词的名词性短语、且在语义关系上是动作行为或性状描述的主体;依据对药物评价文本的标注情况,确定药物评价描述的程度值,并将程度值填充入药品不良事件模板。2.根据权利要求1所述的基于社交网络数据的药品不良事件信息提取方法,其特征在于,在从社交网络中抓取网上患者对药物评论文本的步骤中,是利用爬虫技术从博客、微博、在线评论的社交网络中抓取。3.根据权利要求1所述的基于社交网络数据的药品不良事件信息提取方法,其特征在于,在对获取的用药物评论文本数据进行预处理的步骤中,预处理的步骤包括:识别药物评论文本对应的评论者名称和URL标识,对药物评论文本进行分词和词性标注,识别药物评价文本中包含的药品名称;对药物评论文本进行断句处理,以“,?!。”为标志,将文本切分为语块;将药品名及其对应的评论语块存储于数据库。4.根据权利要求3所述的基于社交网络数据的药品不良事件信息提取方法,其特征在于,在确定依存句法结构中每一药物评论文本中处于支配地位的谓词的步骤中,谓词包括形容词、动词、成语和习用语,其句法功能包括主谓结构的谓语、述宾结构的述语、述补结构的补语和定中结构的中心语;对谓词进行语义类识别是根据语义分类词典进行识别。5.根据权利要求4所述的基于社交网络数据的药品不良事件信息提取方法,其特征在于,在依据预设规则标注谓词所支配的主体语义角色的步骤中,预设规则为:若药物评价文本只有一个谓词,则不标注语义角色;若药物评价文本的句法结构为“谓词-->词1”,且词1之前没有其他定语依存成分,且词1与谓词的句法关系为主谓,则标注词1为主体;若药物评价文本的句法结构为“谓词-->词1”,且词1前有定语依存成分,即“词1-->词2,词2-->词3……”,则将“词3词2词1……”整个序列标注为主体;若药物评价文本...

【专利技术属性】
技术研发人员:由丽萍李朝翻
申请(专利权)人:山西大学
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1