从豆瓣的反爬说说自建代理池
爬过豆瓣的同学应该都有过这样的经历,一开始爬取的过程挺正常的,但爬着爬着就不能获取到数据了。这是因为豆瓣对IP作了限制,如果短时间内来自同一个IP的请求太多,就会禁止来自这个IP的访问,我们的爬虫也就无法继续获取到数据了。
爬过豆瓣的同学应该都有过这样的经历,一开始爬取的过程挺正常的,但爬着爬着就不能获取到数据了。这是因为豆瓣对IP作了限制,如果短时间内来自同一个IP的请求太多,就会禁止来自这个IP的访问,我们的爬虫也就无法继续获取到数据了。
点评网上爬取信息会发现很多数据都做了特殊处理,比如像评分、人均这些数据,直接爬网页是爬不到这些数据的。其实这是点评网设置的反爬,本文我们来讲解一下怎样破解点评的破解。
之前的一篇文章 爬虫爬了下知乎上的神回复,已笑趴~ 发布后,引发了大家热烈的反响。很多朋友觉得很神奇,在后台问强哥是怎么做到的,有的朋友还表示不太相信。其实爬取知乎神回复很简单,这篇文章 我们就来揭晓一下背后的原理。
夕节就要到了,我们用Python爬了下点评上所有上海的西餐厅,看看上海都有哪些高性价比的西餐厅。
这一篇我们来分析分析首都北京的房价。贝壳上北京的在售房源共有54107套,平均售价677万/套,平均单价66568元/平方,平均房龄16.6年。
这一篇我们来看一看中国最具活力的城市深圳的房价,我们直接分享数据。
最近用Python爬取了贝壳上7万多套上海的在售房源,7万多套房源是目前贝壳上正在挂牌出售的房源,覆盖了上海各个区县。我们对这7万多套房源做一下分析,来真实地感受一下上海的房价到底有多高。
从2016年5月第一场知乎Live开播,到今天,知乎Live已走过将近两个年头。有别于传统的文字、音频、视频的知识分享途径,知乎Live以直播的方式分享知识,给用户一种全新的体验。最近爬取了所有成功举办的知乎Live。从2016年知乎Live开播以来,知乎共计举办了5707场Live。通过数据分析,本文将会告诉你知乎Live的发展情况如何,覆盖哪些专业领域,有哪些奇特的Live,哪些Live最受欢迎,哪些Live最受好评,哪些Live最吸金等有趣的答案。
不知道大家是否发现,知乎书店有很多免费的书,像知乎周刊、知乎日报年度精选、以及一些大V编写的书。最近写了个爬虫,爬了下知乎书店上所有免费的图书,整理出来分享给大家。
用豆瓣API爬取了豆瓣上的Python图书,筛选了评分人数>80的书,按照评分高低排序,删除了些中英文版本重复的书,整理出了下面这张最受好评的20本Python图书榜单,书名包含豆瓣链接,点击直达豆瓣书的详情页面。