这样做的好处就是:爬虫端会给出一个代理列表给,按照规则,可以很好管理和调度选择代理服务器。最重要的是,爬虫端使用代理服务器只需访问的服务端口就可以了!
现在服务化也搭建完成了,唯一差得一步就是整合:
1、定时监控ip转换器代理源网站(30分/1小时都可),解析出所有代理IP,入数据库
2、从数据库中取出所有代理服务器,换ip工具访问某个固定的网站,找出访问成功的代理服务器,更新数据库可用标记和响应时间
3、从数据库中加载所有可用代理可以通过计算,主要是根据时间来计算。
4、按照squid的cache_peer格式,写入配置文件
5、重新加载squid配置文件,刷新squid下的代理列表
6、爬虫指定squid的服务IP和端口,进行纯粹的爬取操作
一个完整的代理服务器通过这样的方法就可以搭建完成,定时输出高质量代理服务器。爬虫端不用担心,只管使用的统一服务入口爬取数据即可。换ip软件在采集网站的时候有时浏览器里面的数据无法抓取。应该是服务器提交自认为已经处理得很好的表单却被拒绝,也许是自己的IP地址不知道什么原因直接被网站封杀,不能再继续访问。如果你在客户端遇到了HTTP错误,尤其是403禁止访问错误,这可能说明网站已经把你的IP当作机器人了,任何请求都不会处理。只能等到IP地址从网站黑名单里移除,要么就换个IP地址。
为此,推出了自主研发的代理IP软件来切换服务来解决这一问题。提供四种代理IP:柚子网络是国内专业的高质量换IP工具供应商,支持Windows,Android和IOS客户端,一键IP代理全国200多个城市优质节点,百万海量ip任意选择,ip带宽均可达4-60Mbps,支持免费试用60分钟!
