【技术实现步骤摘要】
一种金融舆情研报的机器阅读理解方法及系统
[0001]本专利技术涉及一种计算机理解文章语义并回答相关问题的技术,尤其涉及一种基于有监督、深度学习算法的金融领域机器阅读理解方法及系统。
技术介绍
[0002]机器阅读理解(Machine Reading Comprehension,MRC)是一种利用算法使计算机理解文章语义并回答相关问题的技术。由于文章和问题均采用人类语言的形式,因此机器阅读理解属于自然语言处理(NLP)的范畴,也是其中最新最热门的课题之一。近些年来,随着机器学习,特别是深度学习的发展,机器阅读理解研究有了长足的进步,并在实际应用中崭露头角。
[0003]在2016年之前,大家使用更多的是统计学习的方法,包含了大量的特征工程,非常耗时耗力。在2016年之后,SQuAD数据集发布之后,出现了一些基于注意力机制的匹配模型,比如BiDAF、LSTM等等。这之后出现了各种网络结构比较复杂的模型,相关工作试图通过复杂的网络结构去捕捉问题和篇章之间的匹配关系。在2018年之后,随着各种预训练语言模型的出现,阅读理解 ...
【技术保护点】
【技术特征摘要】
1.一种金融舆情研报的机器阅读理解方法,其特征在于包括:数据制定与收集,对应金融垂直领域的需求,预定义用户的问题集,并搜集与问题集相关联的舆情数据;训练数据标注,通过关键词匹配从舆情数据中找出与预定义问题集中问题相贴切的数据,利用有监督模型筛选出数据中包含问题答案的句子,并进行数据标注;深度学习模型构建,利用金融领域预训练的BERT模型获取文字的向量表示,再通过自然语言处理法中注意力机制对数据和问题进行交互,得到计算机能够理解的融合向量表示;答案组织,对深度学习模型反馈的两条以上答案进行逻辑组合。2.根据权利要求1所述金融舆情研报的机器阅读理解方法,其特征在于:数据制定与收集中设置筛选阈值,对所预定义的问题集筛选重点问题和普通问题。3.根据权利要求1所述金融舆情研报的机器阅读理解方法,其特征在于:训练数据标注中,对于未找出与预定义问题集中问题相贴切的部分数据,标注为零答案集合。4.根据权利要求1或3所述金融舆情研报的机器阅读理解方法,其特征在于:训练数据标注中,还包括对标注的数据进行人工筛查。5.根据权利要求1所述金融舆情研报的机器阅读理解方法,其特征在于:所述答案组织的流程包括:Ⅰ、在一种以上关键词文本相似度匹配算法中选择一种,用于召回任一问题的前十条数据;Ⅱ、对前十条所述数据逐一通过...
【专利技术属性】
技术研发人员:成昊,龚慧敏,敖翔,
申请(专利权)人:中科苏州智能计算技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。