爬虫分析过程
待爬取目标分析
- 目标:百度百科python词条的相关此条网页——标题及简介
URL格式:
- 词条页面URL:/view/125370.htm
数据格式:
- 标题:
1
<dd class="lemmaWgt-lemmaTitle-title"><h1>***</h1></dd>
- 简介:
1 | <div class="lemma-summary">***<div> |
- 页面编码:UTF-8
不念过去,不畏将来
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true