本发明专利技术公开了一种识别学术观点句的方法及系统。先建立显性词数据库和隐性观点句识别模型;再通过显性词数据库对待识别的句子进行显性词匹配,得到显性观点句匹配结果;通过隐性观点句识别模型对待识别的句子进行识别,得到隐性观点句识别结果,有效解决了现有技术中只能通过人工方式从学术文本中识别出学术观点句的技术问题,实现了高效地从大量的学术文本中识别出学术观点句的技术效果。
A method and system of identifying academic viewpoint sentences
【技术实现步骤摘要】
一种识别学术观点句的方法及系统
本专利技术涉及观点识别
,尤其涉及一种识别学术观点句的方法及系统。
技术介绍
学术观点广泛存在于科学或学术研究过程中,其在科学或学术研究中具有很重要的作用。从宏观层面来看,学术观点的提出、质疑、否定、推翻、重建等是科学理论发展的体现,而不同学派或学者所持的不同学术观点和见解的交锋、争论、讨论,是科学发展的内在推动力。从个体层面来看,学术观点是学者思维活动的结果,对学者的科研活动与认知结构具有重要的作用。学术观点经常以句子的形式出现,具有可度量和具体化的特征,可视为一种重要的学术文本信息资源。学术观点句的识别是进一步开展学术观点挖掘研究工作的基础,也是进一步在领域学科等更宏观层面开展学术观点挖掘研究的前面工作。随着科学研究人员规模的扩大与科研成果发表过程的规范化,学术文本的数量越来越大,且增长趋势越来越快,这给广大科研从业者带来了巨大的阅读负担,因此,通过现有的人工方式整理与归纳学者观点从而掌握某领域、学者研究进展与知识脉络也变得越来越困难,因此,如何高效地从大量的学术文本中识别出包含学术观点的句子具有很重要的意义。
技术实现思路
本专利技术通过提供一种识别学术观点句的方法及系统,解决了现有技术中只能通过人工方式从学术文本中识别出学术观点句的技术问题,实现了高效地从大量的学术文本中识别出学术观点句的技术效果。本专利技术提供了一种识别学术观点句的方法,包括:建立显性词数据库;建立隐性观点句识别模型;通过所述显性词数据库对待识别的句子进行显性词匹配,得到显性观点句匹配结果;通过所述隐性观点句识别模型对待识别的句子进行识别,得到隐性观点句识别结果。进一步地,所述建立隐性观点句识别模型,包括:获取识别模型训练词;对所述训练词进行训练,得到所述隐性观点句识别模型。进一步地,在所述对所述训练词进行训练的过程中,使用10折交叉的方式划分训练集与测试集。进一步地,所述训练词至少为以下任意一个:词汇特征、核心词、核心词性、句式、长度、文内位置、重要性。进一步地,所述通过所述显性词数据库对待识别的句子进行显性词匹配,得到显性观点句匹配结果,包括:通过所述显性词数据库对所述待识别的句子进行显性词匹配;若所述待识别的句子中匹配到所述显性词数据库中的显性词,则所述待识别的句子为显性观点句。本专利技术还提供了一种识别学术观点句的系统,包括:数据库建立模块,用于建立显性词数据库;识别模型建立模块,用于建立隐性观点句识别模型;匹配模块,用于通过所述显性词数据库对待识别的句子进行显性词匹配,得到显性观点句匹配结果;识别模块,用于通过所述隐性观点句识别模型对待识别的句子进行识别,得到隐性观点句识别结果。进一步地,所述识别模型建立模块,包括:训练词获取单元,用于获取识别模型训练词;训练单元,用于对所述训练词进行训练,得到所述隐性观点句识别模型。进一步地,所述识别模型建立模块,还包括:划分单元,用于使用10折交叉的方式划分训练集与测试集。进一步地,所述训练词至少为以下任意一个:词汇特征、核心词、核心词性、句式、长度、文内位置、重要性。进一步地,所述匹配模块,具体用于通过所述显性词数据库对所述待识别的句子进行显性词匹配;若所述待识别的句子中匹配到所述显性词数据库中的显性词,则判断所述待识别的句子为显性观点句。本专利技术中提供的一个或多个技术方案,至少具有如下技术效果或优点:先建立显性词数据库和隐性观点句识别模型;再通过显性词数据库对待识别的句子进行显性词匹配,得到显性观点句匹配结果;通过隐性观点句识别模型对待识别的句子进行识别,得到隐性观点句识别结果,有效解决了现有技术中只能通过人工方式从学术文本中识别出学术观点句的技术问题,实现了高效地从大量的学术文本中识别出学术观点句的技术效果。附图说明图1为本专利技术实施例提供的识别学术观点句的方法的流程图;图2为基于本专利技术实施例提供的识别学术观点句的方法的具体实施例的流程图;图3为本专利技术实施例提供的识别学术观点句的系统的模块图。具体实施方式本专利技术实施例通过提供一种识别学术观点句的方法及系统,解决了现有技术中只能通过人工方式从学术文本中识别出学术观点句的技术问题,实现了高效地从大量的学术文本中识别出学术观点句的技术效果。本专利技术实施例中的技术方案为解决上述问题,总体思路如下:在对本专利技术实施例的技术方案进行说明之前,首先对本专利技术实施例中的显性观点句和隐性观点句的含义进行说明。其中,显性观点句是指那些含有明显提示词的学术观点句,例如:“认为”、“指出”、“表明”等;隐性观点句是指那些学术论文中含有作者对一些学术问题的理解判断和评价,但并未有“认为”、“指出”、“表明”等明显提示词的学术观点句。先建立显性词数据库和隐性观点句识别模型;再通过显性词数据库对待识别的句子进行显性词匹配,得到显性观点句匹配结果;通过隐性观点句识别模型对待识别的句子进行识别,得到隐性观点句识别结果,有效解决了现有技术中只能通过人工方式从学术文本中识别出学术观点句的技术问题,实现了高效地从大量的学术文本中识别出学术观点句的技术效果。为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。参见图1,本专利技术实施例提供的识别学术观点句的方法,包括:步骤S110:建立显性词数据库;在本实施例中,显性词即明显提示词,为具有明显观点表达的词语,如:认为、指出、表明等。步骤S120:建立隐性观点句识别模型;对本步骤进行具体说明,建立隐性观点句识别模型,包括:获取识别模型训练词;对训练词进行训练,得到隐性观点句识别模型。为了提高学术观点句的识别准确性,在对训练词进行训练的过程中,使用10折交叉的方式划分训练集与测试集。在本实施例中,训练词至少为以下任意一个:词汇特征、核心词、核心词性、句式、长度、文内位置、重要性。使用的训练词越多,则学术观点句的识别准确性越高。具体地,训练词获取的具体过程包括:(1)词汇特征:构建常用的否定词、程度词表,共包含35个否定词(例如:不确定性、没有、不可能等)、61个程度词(例如:主要、显著、明显等),将各个句子中的否定词、程度词与表中的内容进行比对并剔除。将句子内容以文本型特征的形式存储在数据集中,使用String2vec过滤器(使用ik分词器对句子内容进行分词,分词间隔用空格表示)将文本型特征处理为标称型特征,特征名为字符名,特征值为词频和逆文档频率。(2)核心词与核心词性:在对句子分词的基础上,对各个词语进行标注,使用Stanford的Parser句法分析器(选用汉语概率上下文无关文法模型)的依存句法分析功能标注各句子依存句法树,提取其核心词与词性形成特征。核心词本文档来自技高网...
【技术保护点】
1.一种识别学术观点句的方法,其特征在于,包括:/n建立显性词数据库;/n建立隐性观点句识别模型;/n通过所述显性词数据库对待识别的句子进行显性词匹配,得到显性观点句匹配结果;/n通过所述隐性观点句识别模型对待识别的句子进行识别,得到隐性观点句识别结果。/n
【技术特征摘要】
1.一种识别学术观点句的方法,其特征在于,包括:
建立显性词数据库;
建立隐性观点句识别模型;
通过所述显性词数据库对待识别的句子进行显性词匹配,得到显性观点句匹配结果;
通过所述隐性观点句识别模型对待识别的句子进行识别,得到隐性观点句识别结果。
2.如权利要求1所述的方法,其特征在于,所述建立隐性观点句识别模型,包括:
获取识别模型训练词;
对所述训练词进行训练,得到所述隐性观点句识别模型。
3.如权利要求2所述的方法,其特征在于,在所述对所述训练词进行训练的过程中,使用10折交叉的方式划分训练集与测试集。
4.如权利要求2所述的方法,其特征在于,所述训练词至少为以下任意一个:
词汇特征、核心词、核心词性、句式、长度、文内位置、重要性。
5.如权利要求1-4中任一项所述的方法,其特征在于,所述通过所述显性词数据库对待识别的句子进行显性词匹配,得到显性观点句匹配结果,包括:
通过所述显性词数据库对所述待识别的句子进行显性词匹配;
若所述待识别的句子中匹配到所述显性词数据库中的显性词,则所述待识别的句子为显性观点句。
6.一种...
【专利技术属性】
技术研发人员:徐健,李纲,魏泉,桂思思,冷杨名,张虎胆,雷文,毛进,刘湘赣,詹璐鸣,
申请(专利权)人:武汉优聘科技有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。