从豆瓣的反爬说说自建代理池

爬过豆瓣的同学应该都有过这样的经历,一开始爬取的过程挺正常的,但爬着爬着就不能获取到数据了。这是因为豆瓣对IP作了限制,如果短时间内来自同一个IP的请求太多,就会禁止来自这个IP的访问,我们的爬虫也就无法继续获取到数据了。

阅读全文 »

破解点评网的反爬

点评网上爬取信息会发现很多数据都做了特殊处理,比如像评分、人均这些数据,直接爬网页是爬不到这些数据的。其实这是点评网设置的反爬,本文我们来讲解一下怎样破解点评的破解。

阅读全文 »

知乎Live数据面面观

从2016年5月第一场知乎Live开播,到今天,知乎Live已走过将近两个年头。有别于传统的文字、音频、视频的知识分享途径,知乎Live以直播的方式分享知识,给用户一种全新的体验。最近爬取了所有成功举办的知乎Live。从2016年知乎Live开播以来,知乎共计举办了5707场Live。通过数据分析,本文将会告诉你知乎Live的发展情况如何,覆盖哪些专业领域,有哪些奇特的Live,哪些Live最受欢迎,哪些Live最受好评,哪些Live最吸金等有趣的答案。

阅读全文 »

263本知乎书店的免费图书

不知道大家是否发现,知乎书店有很多免费的书,像知乎周刊、知乎日报年度精选、以及一些大V编写的书。最近写了个爬虫,爬了下知乎书店上所有免费的图书,整理出来分享给大家。

阅读全文 »

豆瓣最受好评的20本Python图书

用豆瓣API爬取了豆瓣上的Python图书,筛选了评分人数>80的书,按照评分高低排序,删除了些中英文版本重复的书,整理出了下面这张最受好评的20本Python图书榜单,书名包含豆瓣链接,点击直达豆瓣书的详情页面。

阅读全文 »