一种基于中文分词的线索提取方法及系统技术方案

技术编号：20118114 阅读：40 留言：0更新日期：2019-01-16 12:07

本发明专利技术属于自然语言处理技术领域，公开了一种基于中文分词的线索提取方法及系统，系统包括语义分词模块、线索提取模块和文本标注模块，对中文分词进行线索提取首先采用导入Asnj开源工具包调用NlpAnalysis.parse()方法将线索文本根据语义分词，并分析词性，然后将分词所得词序列结合词性提取线索价值信息，最后在文本内容中标出提取到的线索信息；同时公开一种提取方法。本发明专利技术能够根据切分出来的词性进行组合提取，大大提高了提取的灵活性和准确性，提高了工作效率，节省了时间和人力。

A Clue Extraction Method and System Based on Chinese Word Segmentation

The invention belongs to the field of natural language processing technology, and discloses a clue extraction method and system based on Chinese word segmentation. The system includes semantic word segmentation module, clue extraction module and text annotation module. To extract clues from Chinese word segmentation, first, NlpAnalysis. parse () method is introduced into Asnj open source toolkit to call NlpAnalysis. Parse () method to segment clue text according to semantics and analyze part of speech. After that, the word sequence obtained by word segmentation is combined with part of speech to extract the clue value information. Finally, the extracted clue information is marked in the text content. At the same time, an extraction method is disclosed. The method can combine and extract according to the segmented parts of speech, greatly improving the flexibility and accuracy of extraction, improving the work efficiency, saving time and manpower.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于中文分词的线索提取方法及系统
本专利技术属于自然语言处理
，尤其涉及一种基于中文分词的线索提取方法及系统。
技术介绍
目前，业内常用的现有技术是这样的：近年来，随着网络日益普及，互联网上的文本规模逐步扩大，信息资源不断增加，相关部门的工作人员往往需要通过技术手段从海量文本信息中提取具有线索价值的内容。由于计算机不能识别中文文本的语义，所以必须将文本进行中文分词。中文分词是指将连续的中文字符串按照一定的规范分割成词序列的过程。中文不同于英文,其自身特点在于中文是以字为基本的书写单位，句子和段落之间通过分界符来划界,但词间并没有形式上的分界符,而在自然语言处理中，词是最小的能够独立活动的有意义的语言成分,所以分词的质量的好坏直接影响之后的自然语言处理任务。传统的技术如果要在一段文本中提取可能存在的人名或地名，需将预先准备好的可能存在的人名或地名进行全文检索提取，这样灵活性、准确性大大降低。综上所述，现有技术存在的问题是：传统的技术提取文本缺乏灵活性，且准确率很低，致使提取文本的工作效率低，浪费时间。
技术实现思路
针对现有技术存在的问题，本专利技术提供了一种基于中文分词的线索提取方法及系统。本专利技术是这样实现的，一种基于中文分词的线索提取方法，所述基于中文分词的线索提取方法包括：根据切分出来的词性进行组合提取；对文本内容进行智能分析，提取具有线索价值的内容。进一步，所述基于中文分词的线索提取方法具体包括：将线索文本根据语义分词，并分析词性；将分词所得词序列结合词性提取线索价值信息；在文本内容中标出提取到的线索信息。进一步，所述将线索文本根据语义分词...

【技术保护点】
1.一种基于中文分词的线索提取方法，其特征在于，所述基于中文分词的线索提取方法包括：将工程项目导入Asnj开源工具包并调用NlpAnalysis.parse()方法，并返回分词相关属性序列。

【技术特征摘要】
1.一种基于中文分词的线索提取方法，其特征在于，所述基于中文分词的线索提取方法包括：将工程项目导入Asnj开源工具包并调用NlpAnalysis.parse()方法，并返回分词相关属性序列。2.如权利要求1所述的基于中文分词的线索提取方法，其特征在于，所述基于中文分词的线索提取方法包括：对文本内容进行智能分析，将分词后所得词序列中带有相同词性进行提取线索信息。3.如权利要求2所述的基于中文分词的线索提取方法，其特征在于，在文本内容中标出提取到的线索信息。4.一种线索提取计算机程序，其特征在于，所述线索提取计算机程序实现权利要求1～3任意一项所述的基于中文分词的线索提取方法。5.一种终端，其特征...

【专利技术属性】
技术研发人员：李志兴，
申请(专利权)人：南威软件股份有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人