利用Python爬取可用的代理IP

yucaikang 2018-02-27 原文

前言

就以最近发现的一个免费代理IP网站为例：http://www.xicidaili.com/nn/。在使用的时候发现很多IP都用不了。

所以用Python写了个脚本，该脚本可以把能用的代理IP检测出来。

 1 #encoding=utf8
 2 import urllib2
 3 from bs4 import BeautifulSoup
 4 import urllib
 5 import socket
 6   
 7 User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'
 8 header = {}
 9 header['User-Agent'] = User_Agent
10   
11 '''
12 获取所有代理IP地址
13 '''
14 def getProxyIp():
15  proxy = []
16  for i in range(1,2):
17   try:
18    url = 'http://www.xicidaili.com/nn/'+str(i)
19    req = urllib2.Request(url,headers=header)
20    res = urllib2.urlopen(req).read()
21    soup = BeautifulSoup(res)
22    ips = soup.findAll('tr')
23    for x in range(1,len(ips)):
24     ip = ips[x]
25     tds = ip.findAll("td")
26     ip_temp = tds[1].contents[0]+"\t"+tds[2].contents[0]
27     proxy.append(ip_temp)
28   except:
29    continue
30  return proxy
31    
32 '''
33 验证获得的代理IP地址是否可用
34 '''
35 def validateIp(proxy):
36  url = "http://ip.chinaz.com/getip.aspx"
37  f = open("E:\ip.txt","w")
38  socket.setdefaulttimeout(3)
39  for i in range(0,len(proxy)):
40   try:
41    ip = proxy[i].strip().split("\t")
42    proxy_host = "http://"+ip[0]+":"+ip[1]
43    proxy_temp = {"http":proxy_host}
44    res = urllib.urlopen(url,proxies=proxy_temp).read()
45    f.write(proxy[i]+'\n')
46    print proxy[i]
47   except Exception,e:
48    continue
49  f.close()
50   
51      
52 if __name__ == '__main__':
53  proxy = getProxyIp()
54  validateIp(proxy)

总结

这只是爬取的第一页的IP地址，如有需要，可以多爬取几页。同时，该网站是时时更新的，建议爬取时只爬取前几页的即可。

版权声明：本文为yucaikang原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/yucaikang/p/8481520.html

利用Python爬取可用的代理IP的更多相关文章

python 国内镜像加速 – suntl
python 国内镜像加速原因经常在使用Python的时候需要安装各种模块，而pip是很强大的模块安装工具 […]...
Python入门教程
这篇文章我会把python入门学习的经验，以及心得分享出来，其中内容不少是我在学习中的一些笔记，与大家分享，希望用这种文字的方式，能让大家快速了解这门编程语言，或者对这门语言产生兴趣以及学习的入门方式。...
python socket 编程（TCP与UDP）
实验环境：python2 一、TCP编程 1.建立TCP服务器 ①创建TCPServer.py文件 ②编写服务 […]...
小白学 Python 爬虫（31）：自己构建一个简单的代理池
人生苦短，我用 Python 前文传送门：小白学 Python 爬虫（1）：开篇小白学 Python 爬虫 […]...
setTimeout 是到了xx ms 就执行吗，了解浏览器的 Event-Loop 机制
要想 JavaScript 玩得溜，还得了解波 JavaScript 执行机制/(ㄒoㄒ)/~~。个人博客： […]...
协同过滤在推荐系统中的应用
1.概述前面的博客介绍过如何构建一个推荐系统，以及简要的介绍了协同过滤的实现。本篇博客，笔者将介绍协同过滤在 […]...
Python OJ 从入门到入门基础练习 10 题
1、天天向上的力量：一年365天，以第1天的能力值为基数，记为1.0。当好好学习时，能力值相比前一天提高N‰ […]...
爬虫处理网站的bug—小于号未转化为实体符
1.发现BUG 　　爬取 chinadrugtrials 详情页的公示的试验信息时候，发现程序在某些地方跑断 […]...

随机推荐

全景图转小行星视角投影原理详解
全景图是2:1比例的图片，一般是多张图像拼接而成。全景图2:1的比例可以很方便的映射到球面，而球坐标可以很方便 […]...
前端随心记———Ajax原理及实现跨域方法
Ajax原理：　　　　Ajax的原理简单来说就是通过XmlHttpRequest对象来向服务器发送异步请求， […]...
Spring Cloud Alibaba Nacos
一、介绍　　Nacos：由单词Naming和Cofiguration的前两个字母组成，最后的s代表Servi […]...
eclipse中maven项目部署到tomcat – guodefu909
eclipse中maven项目部署到tomcat 其实maven项目部署到tomcat的方式很多，我从一开始的 […]...
第二周笔记
直流电机从1821年法拉第发现有电流流过的导线在磁场中会受到磁场力开始，到1831年皮克西制成一 […]...
怎么用Ps怎么去掉图片上的文字
1、使用仿制图章工具去除文字。这是比较常用的方法。具体的操作是，选取仿制图章工具，按住 Alt键，在无文字区 […]...
树莓派挖坑填坑笔记_2_WiFi连接及静态IP
上回留了两个问题：　　坑一：如何连接一个全新的网络环境？　　坑二：使用静态IP可否解决坑一？　　简单 […]...
Linux安装软件
克隆虚拟机安装JDK 卸载: 1.使用java versio […]...

展开目录

目录导航