Scrapy JavaScript、js解析利器Scrapy Splash详解(一):安装!

时间:2017-12-23 19:46:09作者:scrapy中文网阅读:

scrapy解析JavaScript或是js一直是小伙伴的痛,其实scrapy早给我们准备好了一个解析利器:scrapy splash,这里介绍如何安装scrapy splash。我想很多小伙伴害怕使用splash主要是因为splash的安装方式,它需要使用docker安装,但是docker的话许多小伙伴并不熟悉,另一方面还涉及到Linux,全都是些听都木听过的东东,所以就望而却步了,于是splash一直是许多小伙伴的痛。
scrapy splash安装
看来只有我来拯救大家了,让我娓娓道来,教你怎样使用scrapy splash。使用之前得先安装,这也是很多小伙伴的痛!那首先我们来说安装,安装的话官方只提供了docker安装方式,那问题就聚集在了安装docker上面,那首先我们来安装docker!

docker安装

这里的话我并不打算教大家使用:Docker Toolbox安装docker!因为Docker Toolbox,其实就是:虚拟机+Linux+docker的组合,也就是它打了个包,先把你把虚拟机装了,然后在虚拟机里再给你装个linux系统,然后再在linux里面安装docker,为神马这么麻烦,因为docker只支持Linux,不支持windows,因此,要在windows安装docker,得先在windows上面安装linux,那怎么安装?肯定是虚拟机呀,所以就出现了上面的:Docker Toolbox,一坨的给你安装起来。这样虽然方便,但出错率非常高,因为如果你机子上装了virtualbox虚拟机,百分百出错,因为它封装的是virtualbox虚拟机,所以会冲突。

基于这些考虑,我们就分开步骤来安装,目的就是在windows安装个linux,这里的话不限于你是神马虚拟机,只要是虚拟机都能装linux,只要装上了linux都能装docker!所以、无论是virtualbox、还是VMware、还是Hyper-V(win10自带)只要你装上了linux,那docker安装就so easy了(一个命令搞定)!这里的话我们就以VMware安装centos linux为例,给你介绍如何在虚拟机安装linux,安装方法,请点击:《VMware安装Centos7 Linux》查看!

 这篇文章已经很详细介绍了如何安装linux,安装好linux之后,开始安装docker!docker在linux下面安装灰常、灰常、灰常……简单,登录linux(属于linux的一些常规操作,大家不熟悉需要百度、百度,这里不多说了),命令行输入这么个命令:
yum install docker -y
待命令跑完,那docker就安装完成了,我们再次在命令行输入:
docker --version
可以看到下图所示:
scrapy splash安装
可以看到1.12.6版本,这样的话docker就成功安装完成了,下面我们安装splash;

scrapy splash安装

接下来我们安装scrapy splash,首先需要启动docker,命令行输入命令:
service docker start 
启动之后我们就可以安装了,输入命令:
sudo docker pull scrapinghub/splash
拉取splash镜像,如果你发现速度很慢,不妨修改一下docker源,修改为中国镜像官网,修改方式为:在 /etc/docker/daemon.json 文件里添加如下键值对:
{
  "registry-mirrors": ["https://registry.docker-cn.com"]
}
最终添加完成后,如下图所示:
scrapy splash安装
添加完成之后,需要重启docker服务,命令为:
service docker restart
然后再下载splash镜像,也就是再输入:
sudo docker pull scrapinghub/splash
经过这么改变后,你会发现速度刷刷刷的……如果你的不刷刷刷……那是你本地网速慢,我1分多钟就下载好了!好了下面启动splash,启动命令为:
docker run -p 8050:8050 -p 5023:5023 scrapinghub/splash
命令输入后,我们在浏览器输入splash所在主机ip:8050,就会发现奇迹了,比如我的splash所在主机ip是:192.168.0.106,那我这样访问:
192.168.0.106:8050
输入之后,见证奇迹的时候到了,如下图,这就是splash:
scrapy splash安装
安装完成,下面我们慢慢介绍通过scrapy如何爬取JavaScript,突破很多限制,有了它那淘宝、京东……等网站爬取也就狠easy了!若有疑问请访问scrapy中文网

相关文章