从豆瓣的反爬说说自建代理池

爬过豆瓣的同学应该都有过这样的经历,一开始爬取的过程挺正常的,但爬着爬着就不能获取到数据了。这是因为豆瓣对IP作了限制,如果短时间内来自同一个IP的请求太多,就会禁止来自这个IP的访问,我们的爬虫也就无法继续获取到数据了。

阅读全文 »

破解点评网的反爬

点评网上爬取信息会发现很多数据都做了特殊处理,比如像评分、人均这些数据,直接爬网页是爬不到这些数据的。其实这是点评网设置的反爬,本文我们来讲解一下怎样破解点评的破解。

阅读全文 »

用Python生成马赛克画

大家知道马赛克画是什么吗?不是动作片里的马赛克哦~~ 马赛克画是一张由小图拼成的大图,本文的封面就是我们的效果图,放大看细节,每一块都是一张独立的图片,拼在一起组成一张大图,感觉像是用马赛克拼出来的画,所以叫马赛克画。看到网上的一些马赛克画觉得很酷,于是自己用Python实现了一下将一张原图转换成马赛克画。

阅读全文 »

用Python识别验证码

很多网站登录都需要输入验证码,如果要实现自动登录就不可避免的要识别验证码。最近学习了一下图像处理相关的知识,并用Python实现了基于KNN的验证码识别。

阅读全文 »