基于中文触发词指导的越南语新闻事件检测方法技术

技术编号:27879201 阅读:44 留言:0更新日期:2021-03-31 01:08
本发明专利技术涉及基于中文触发词指导的越南语新闻事件检测方法,属于自然语言处理技术领域。本发明专利技术首先采用对抗学习的方法将两种语言映射到同一语义空间下,然后在编码过程中融入实体信息,通过注意力机制将映射后的中文触发词嵌入指导模型关注越南语新闻中的触发词信息,最后利用得到的触发词信息进行事件类型的多分类,进而实现越南语新闻事件检测。本发明专利技术目前事件检测需要识别新闻中的触发词,目前没有越南语触发词标记语料,使用丰富的中文标记语料可以解决越南语标记语料缺失的问题。

【技术实现步骤摘要】
基于中文触发词指导的越南语新闻事件检测方法
本专利技术涉及基于中文触发词指导的越南语新闻事件检测方法,属于自然语言处理

技术介绍
事件检测是当前自然语言处理研究的热点问题。触发词的识别在事件检测任务中起着至关重要的作用。目前越南语数据稀缺,并且越南语没有触发词标记数据,检测出越南语新闻中的事件比较困难。因此,根据表达相同观点但用不同语言表达的句子通常有相同或相似的语义成分这一特征,使用丰富的中文触发词标记解决越南语触发词标记缺失问题具有重要意义。
技术实现思路
本专利技术提供了基于中文触发词指导的越南语新闻事件检测方法,以用于解决目前越南语数据稀缺,没有越南语触发词标记语料问题,以及解决了不同语言文本很难表示在同一特征空间下等问题。本专利技术的技术方案是:基于中文触发词指导的越南语新闻事件检测方法,所述基于中文触发词指导的越南语新闻事件检测方法的具体步骤如下:Step1、收集用于中越双语相关新闻事件检测的新闻文本,对新闻文本进行去重与筛选;Step2、对中越新闻文本进行分词,实体标注等预处理,标注中越双语新闻文本中的事件类型以及中文触发词,将标记好的越南语新闻语料分为训练语料、测试语料和验证语料;Step3、采用对抗学习的方法将中越两种语言映射到同一语义空间下,抽取出映射后的中文触发词词向量;Step4、获取越南语词向量融合句中实体向量作为BiLSTM层的输入;采用BiLSTM获取越南语新闻句的语义信息,通过注意力机制将映射后的中文触发词指导模型找到越南语句子中的触发词信息;Step5、最后利用得到的触发词信息进行事件类型的多分类,进而实现越南语新闻事件检测。作为本专利技术的进一步方案,所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为中文、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文数据。作为本专利技术的进一步方案,所述步骤Step2的具体步骤为:Step2.1、参考ACE的事件标注体系标记出中文新闻文本中的触发词和事件类型、越南语新闻文本中的事件类型,将事件类型分为七种类型,分别为和“xúc”、“Giao”、“xung”关系;Step2.2、再将实验数据分为训练语料、测试语料和验证语料。作为本专利技术的进一步方案,所述步骤Step3的具体步骤:Step3.1、采用skip-gram扩展模型的方法预测目标词在中文中的上下文信息,同时预测目标词在越南语中对齐词的上下文信息,从而得到中越双语词向量;Step3.2、使用映射函数将中文投影到与越南语相同的语义空间中,使用随机梯度下降的方法依次训练单词鉴别器和映射函数;Step3.3、给定中文新闻文本并标记句子中的触发词。作为本专利技术的进一步方案,所述步骤Step4采用BiLSTM获取越南语新闻的语义信息的具体步骤为:Step4.1、在越南语语料上预训练越南语词向量,得到词向量词表,利用underthesea工具中的实体标记类型为每种实体标记都随机初始化一个实体向量,得到实体向量词表,通过查找词向量词表和实体向量词表,所有的输入单词和实体标记都转化为低维向量;Step4.2、将词向量和实体向量拼接起来作为BiLSTM的输入,用来捕获句子中的语义信息。作为本专利技术的进一步方案,所述步骤Step5的具体步骤为:将提取到的越南语句子中的触发词输入至分类层,采用softmax分类器对越南语新闻句进行事件类型的分类,从而实现越南语新闻事件检测。本专利技术的有益效果是:1、本专利技术的基于中文触发词指导的越南语新闻事件检测方法,利用对抗学习的方法将两种语言映射到同一语义空间中,使用映射函数将中文无限接近于越南语,直到判别器判别不出两种语言,然后抽取出映射后的中文触发词词向量;2、本专利技术的基于中文触发词指导的越南语新闻事件检测方法,使用BiLSTM来挖掘事件句的上下文隐含语义信息,通过注意力机制将映射后的中文触发词指导模型找到越南语句子中的触发词信息,最后利用得到的注意力上下文向量进行事件类型的多分类。3、本专利技术的基于中文触发词指导的越南语新闻事件检测方法,结合双语一致性特点,使用丰富的中文触发词标记可以找到越南语新闻句中触发词信息,并通过softmax层进行分类;4、本专利技术的基于中文触发词指导的越南语新闻事件检测方法,解决了越南语事件检测任务中触发词缺失的问题。附图说明图1为本专利技术提出的基于中文触发词指导的越南语新闻事件检测流程图;图2为本专利技术提出的基于中文触发词指导的越南语新闻事件检测模型图。具体实施方式实施例1:如图1-2所示,基于中文触发词指导的越南语新闻事件检测方法,具体步骤如下:Step1、收集用于中越双语相关新闻事件检测的新闻文本;先爬取越南语新闻网站(越南新闻社、越南经济时报、越南之门),然后针对越南语爬取到的新闻主题对应爬取中文新闻网站(百度、新华网、人民网),其中共爬取813篇越南语新闻文本和4065篇中文新闻文本。最后对新闻文本进行去重与筛选;作为本专利技术的优选方案,所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为中文、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文等数据。此优选方案设计是本专利技术的重要组成部分,主要为本专利技术收集语料过程,为本专利技术识别事件时序关系提供了数据支撑。Step2、对中越新闻文本进行分词,实体标注等预处理,标注中越双语新闻文本中的事件类型以及中文触发词,将标记好的越南语新闻语料按照8∶1:1的比例分配训练语料、测试语料和验证语料;Step3、采用对抗学习的方法将中越两种语言映射到同一语义空间下。抽取出映射后的中文触发词词向量;Step4、获取越南语词向量融合句中实体向量作为BiLSTM层的输入;采用BiLSTM获取越南语新闻句的语义信息,通过注意力机制将映射后的中文触发词指导模型找到越南语句子中的触发词信息;Step5、最后利用得到的触发词信息进行事件类型的多分类,进而实现越南语新闻事件检测。作为本专利技术的优选方案,所述步骤Step2的具体步骤为:Step2.1、本专利技术中事件由触发词和参数组成,触发词能清楚的表达一类事件发生,通常是单个动词或者名词,参数描述事件发生的时间、地点、人物等信息;定制的中越双语相关新闻事件,标记出中文触发词及中越新闻文本中的事件类型;Step2.2、利用ACE2005数据集的格式定义为7种事件类型,其中共有25089条新闻句;Step2.3、再将实验数据分为训练语料、测试语料和验证语料。作为本专利技术的优选方案,所述步骤Step2中:将事件类型分为七种类型,分别为“(访问)”、“(会见)”和“xúc(合作)”、“kinh(经济)”、“Thay(换届)”、“Giao本文档来自技高网...

【技术保护点】
1.基于中文触发词指导的越南语新闻事件检测方法,其特征在于,包括如下:/nStep1、收集用于中越双语相关新闻事件检测的新闻文本,对新闻文本进行去重与筛选;/nStep2、对中越新闻文本进行分词,实体标注等预处理,标注中越双语新闻文本中的事件类型以及中文触发词,将标记好的越南语新闻语料分为训练语料、测试语料和验证语料;/nStep3、采用对抗学习的方法将中越两种语言映射到同一语义空间下,抽取出映射后的中文触发词词向量;/nStep4、获取越南语词向量融合句中实体向量作为BiLSTM层的输入;采用BiLSTM获取越南语新闻句的语义信息,通过注意力机制将映射后的中文触发词指导模型找到越南语句子中的触发词信息;/nStep5、最后利用得到的触发词信息进行事件类型的多分类,进而实现越南语新闻事件检测。/n

【技术特征摘要】
1.基于中文触发词指导的越南语新闻事件检测方法,其特征在于,包括如下:
Step1、收集用于中越双语相关新闻事件检测的新闻文本,对新闻文本进行去重与筛选;
Step2、对中越新闻文本进行分词,实体标注等预处理,标注中越双语新闻文本中的事件类型以及中文触发词,将标记好的越南语新闻语料分为训练语料、测试语料和验证语料;
Step3、采用对抗学习的方法将中越两种语言映射到同一语义空间下,抽取出映射后的中文触发词词向量;
Step4、获取越南语词向量融合句中实体向量作为BiLSTM层的输入;采用BiLSTM获取越南语新闻句的语义信息,通过注意力机制将映射后的中文触发词指导模型找到越南语句子中的触发词信息;
Step5、最后利用得到的触发词信息进行事件类型的多分类,进而实现越南语新闻事件检测。


2.根据权利要求1所述的基于中文触发词指导的越南语新闻事件检测方法,其特征在于:所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为中文、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文数据。


3.根据权利要求1所述的基于中文触发词指导的越南语新闻事件检测方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、参考ACE的事件标注体系标记出中文新闻文本中的触发词和事件类型、越南语新闻文本中的事件类型,将事件类型分为七种类型,分别为和关系;
Step2....

【专利技术属性】
技术研发人员:高盛祥寇梦珂余正涛王振晗朱俊国朱恩昌
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1