安居客 上海 租房安居客--上海租房信息获取

安居客 上海 租房安居客--上海租房信息获取

金山房产2020-05-29 7:496640上海金山

  爬取过程:利用scrapy能够无效的多线程爬取。我以前写爬虫的时候都是用requests和Beautiful Soup去写的,对于那类消息比力多的网坐,效率上不太高。利用scrapy和xpath能够规避那个问题,让爬虫的开辟者只需要关心提取的消息、阐发以及当对网坐的反爬虫机制。流码:PyCN/dianping_data

  进修记实:1)xpath的书写。安利个东西,Xpath checker(Chrome 插件)--能够快速地查抄xpath能否准确,然后对xpath进行调零。很好用,强烈保举。

  2)网坐反爬的当对。一般来说,爬虫法式若是是爬取比力大点的网坐,1⃣️必定要利用随机ua和代办署理的。安居客网坐对统一时间请求多的ip会进行封ip的处置。一起头我是用随机ua和动态的利用爬虫DOWNLOAD_DELAY参数,但愿能削减请求次数,防行ip被封。可是现实爬取的时候并欠好用,法式正在爬取前几页的时候就会停行工做,然后安居客的首页也是无法打开。2⃣️还无一类当对是利用代办署理的ip,如许能够删量式的获得所无需要的数据。我测过几个免费的代办署理ip都是欠好用的,需要写爬虫去捕可用的代办署理ip,现实上添加了一点工做量。3⃣️我那边采用的是google cache的方式。我正在网上查觅一些反爬的策略时,良多的博客和论坛提到google cache,可是都没无利用,缘由是我们的收集很较着无法利用google。至于怎样搭代办署理利用谷歌,那个不是我要说的。我就是用那类法子,安居客的反爬策略没封我的ip,我也如愿的获得本人想要的数据。

  我的本量工做不是数据阐发,也不是写爬虫的。我只是把它当做是一个业缺快乐喜爱,晚上闲下来 的时候会本人揣摩那些。那几天正在知乎上看到一个问题是关于爬虫者的节操的会商,吓得我赶紧查抄了本人的法式是不是合规的(-。-)。

  跋文:写那么多只是想和大师分享一下,无乐趣的本人看下贱码,当然也能够提问。我是业缺的新手把,大师不喜轻喷啊。

上海金山区 Copyright © Copyright www.shjs.cc Rights Reserved.
安居客 上海 租房安居客--上海租房信息获取