The invention relates to a vehicle networking system, which discloses a method for extracting news text from a vehicle networking system, which extracts the news content displayed by a page into a pure text without the support of a browser, and is easy to handle. The method comprises the following steps: using div A. to analyze the layout and structure of news page, page traverse document objects, find all the internal div tag package structure; B. for each < div> < /div> tag group, use the label stack record labels, text paragraphs, use stack records; C. each extract a paragraph added to the text in the stack, until all paragraphs sorted text extraction; the length D. of each paragraph text in the stack, the maximum length of the text as the text output.
【技术实现步骤摘要】
车联网系统新闻正文提取方法
本专利技术涉及车联网系统,具体涉及一种车联网系统新闻正文提取方法。
技术介绍
RSS订阅源是获取新闻的常见通道,但是通常由于结构限制,RSS订阅源中只会包含有新闻的摘要信息,而具体的新闻正文则需要访问RSS数据中给出的新闻链接来在浏览器端展现。在没有浏览器支持的情况下(如语音播报新闻,纯文字新闻显示等),需要有一种算法能够将页面展示的新闻内容提取成为纯文本。
技术实现思路
本专利技术所要解决的技术问题是:提出一种车联网系统新闻正文提取方法,在没有浏览器支持的情况下将页面展示的新闻内容提取成为纯文本,便于处理。本专利技术解决其技术问题所采用的技术方案是:车联网系统新闻正文提取方法,包括以下步骤:a.对采用div布局结构的新闻页面进行分析,遍历页面的document对象,找到内部的所有div标签包裹的结构;b.对于每个<div></div>标签组,使用标签堆栈记录标签,使用段落堆栈记录其在内的正文内容;c.每提取一个段落将其加入正文堆栈中,直至所有段落提取完成;d.对正文堆栈中的各段落的文字长度进行排序,其中文字长度最大的段落作为正文输出。作为进一步优化,在步骤c中,将提取的段落加入正文堆栈之前还包括对段落进行调序操作:对记录在段落堆栈中的正文内容按照出栈顺序向段落调序堆栈入栈;段落调序堆栈按照出栈顺序组成完整正文再向正文堆栈入栈。作为进一步优化,步骤a中,当遍历页面的document对象发现干扰时,对干扰不予处理。本专利技术的有益效果是:1)可以依照指定的标签嵌套规则将网页新闻快速准确解析出对应的纯文本内容;2 ...
【技术保护点】
车联网系统新闻正文提取方法,其特征在于,包括以下步骤:a.对采用div布局结构的新闻页面进行分析,遍历页面的document对象,找到内部的所有div标签包裹的结构;b.对于每个<div></div>标签组,使用标签堆栈记录标签,使用段落堆栈记录其在内的正文内容;c.每提取一个段落将其加入正文堆栈中,直至所有段落提取完成;d.对正文堆栈中的各段落的文字长度进行排序,其中文字长度最大的段落作为正文输出。
【技术特征摘要】
1.车联网系统新闻正文提取方法,其特征在于,包括以下步骤:a.对采用div布局结构的新闻页面进行分析,遍历页面的document对象,找到内部的所有div标签包裹的结构;b.对于每个<div></div>标签组,使用标签堆栈记录标签,使用段落堆栈记录其在内的正文内容;c.每提取一个段落将其加入正文堆栈中,直至所有段落提取完成;d.对正文堆栈中的各段落的文字长度进行排序,其中文...
【专利技术属性】
技术研发人员:魏劲超,江涛,
申请(专利权)人:四川长虹电器股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。