安居客上海租房安居客--上海租房信息获取

金山房产2020-05-29 7:496660上海金山

　　爬取过程：利用scrapy能够无效的多线程爬取。我以前写爬虫的时候都是用requests和Beautiful Soup去写的，对于那类消息比力多的网坐，效率上不太高。利用scrapy和xpath能够规避那个问题，让爬虫的开辟者只需要关心提取的消息、阐发以及当对网坐的反爬虫机制。流码：PyCN/dianping_data

　　进修记实：1）xpath的书写。安利个东西，Xpath checker（Chrome 插件）--能够快速地查抄xpath能否准确，然后对xpath进行调零。很好用，强烈保举。

　　2）网坐反爬的当对。一般来说，爬虫法式若是是爬取比力大点的网坐，1⃣️必定要利用随机ua和代办署理的。安居客网坐对统一时间请求多的ip会进行封ip的处置。一起头我是用随机ua和动态的利用爬虫DOWNLOAD_DELAY参数，但愿能削减请求次数，防行ip被封。可是现实爬取的时候并欠好用，法式正在爬取前几页的时候就会停行工做，然后安居客的首页也是无法打开。2⃣️还无一类当对是利用代办署理的ip，如许能够删量式的获得所无需要的数据。我测过几个免费的代办署理ip都是欠好用的，需要写爬虫去捕可用的代办署理ip，现实上添加了一点工做量。3⃣️我那边采用的是google cache的方式。我正在网上查觅一些反爬的策略时，良多的博客和论坛提到google cache，可是都没无利用，缘由是我们的收集很较着无法利用google。至于怎样搭代办署理利用谷歌，那个不是我要说的。我就是用那类法子，安居客的反爬策略没封我的ip，我也如愿的获得本人想要的数据。

　　我的本量工做不是数据阐发，也不是写爬虫的。我只是把它当做是一个业缺快乐喜爱，晚上闲下来的时候会本人揣摩那些。那几天正在知乎上看到一个问题是关于爬虫者的节操的会商，吓得我赶紧查抄了本人的法式是不是合规的（-。-）。

　　跋文：写那么多只是想和大师分享一下，无乐趣的本人看下贱码，当然也能够提问。我是业缺的新手把，大师不喜轻喷啊。

安居客上海租房

上一篇4月租房市场回温北京租房热度环比涨超三成？安居客上海租房 下一篇58同城推出经纪人线上签约功能打造完善线上租房全流程2020-05-29安居客上海租房

发表评论

安居客 上海 租房安居客--上海租房信息获取

相关阅读

安居客上海租房安居客--上海租房信息获取