|
北京2022年冬残奥会开幕式3月4日晚在国家体育场隆重举行,绽放生命精彩,礼赞自强不息。接下来将由来自世界各地的数百名运动员齐聚北京,共享冰雪盛会。我想大家都很期待每个运动员在赛场上给我带来精彩十足的竞赛。 这是举办的第13届残奥会,那么之前的残奥会都是由哪些国家举行了,这里我们就通过python大数据给大家进行科普下。一般这些数据都是公开的,百度就能获取到,而且是比较容易获取的数据,因为相对一些网站来说百度的反爬机制还不是非常的严,我们在获取数据的过程中只要做了基本的反爬措施就够,一般包括随机ua的添加,cookie的获取和代理ip的使用。这里我们简单的实践下在爬虫程序里面加上代理ip进行数据获取。简单的代理添加使用示例如下: #! -*- encoding:utf-8 -*- import requests import random # 要访问的目标页面 targetUrl = "http://httpbin.org/ip" # 要访问的目标HTTPS页面 # targetUrl = "https://httpbin.org/ip" # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text我们在通过python获取往届举办冬奥会的城市后,再制作出地图、图库分享大家,这样可以很快的了解这些国家的信息。如果大家还有什么更好的方式获取可以一起交流下经验。
若有收获,就点个赞吧
|
|