脚本宝典收集整理的这篇文章主要介绍了爬虫知识超详细讲解(零基础入门,老年人都看的懂),脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
网络爬虫是一种按照一定的规则、自动的抓取万维网信息的脚本或者程序
简单来说:爬虫是用事先写好的程序去抓取网络上的数据,这样的程序叫爬虫
按照使用场景来分,可以分为两类:通用爬虫 和 聚焦爬虫
通用爬虫:搜索引擎爬虫(百度)
聚焦爬虫:获取想要的数据
1.概念
利用HTTP协议,从网站采集、提取数据的过程
2.知识结构及路线图
1)web前端
(1)HTML
(2)CSS 层级样式表
(3)JS
2)HTTP超文本传输协议
3)Python语言
4)HTTP编程
(1)Python标准库:urllib
(2)第三方库:requests(需要安装、下载)
5)数据采集
(1)文本类型
(2)图片
(3)媒体文件(e.g. :音乐、视频)
6)数据提取
(1)xpath
(2)正则表达式
(3)Beautiful Soup
7)数据存储
(1)文本文档
(2)MySQL数据库
(3)Excel
(4);mongoBD数据库
(5)redis数据库
8)反爬虫技术应用
(1)图片验证码
(2)滑块验证码
(3)IP代理池
(4)封装请求头
(5)动态内容处理
1>Ajax
2>Selenium
(6)JS加密
(7)Cookie加密
(8)CSS加密
(9)Base64加密
9)爬虫框架
(1)Scrapy框架
1>scrapy-redis分布式爬虫
(2)pyspider框架
3.工具
1)环境
(1)windows
(2)linux系统
2)开发
(1)Python
1>Pycharm
(2)数据库
1>MySQL
2>MongolianDB
3>Redis
(3)浏览器
1>谷歌浏览器
2>火狐浏览器
客户端--发送请求(request)-->服务器
客户端<--返回响应(response)--服务器
请求方式:get请求/post请求
get请求:会将请求的参数放到地址栏(URL)/网址后面,不安全
post请求:不会将请求的参数放到网址后面,相对安全
以上是脚本宝典为你收集整理的爬虫知识超详细讲解(零基础入门,老年人都看的懂)全部内容,希望文章能够帮你解决爬虫知识超详细讲解(零基础入门,老年人都看的懂)所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。