巧用百度 APP 代理规避网站反爬-杨哥视界

爬虫是一种程序，它可以自动地访问网站并抓取数据。但是，如果爬虫发送的请求过于频繁，服务器可能会将其 IP 地址屏蔽，这就需要使用代理 IP 来访问，然而高质量的代理 IP 价格通常较贵。因此，我们可以使用百度 APP 的代理进行数据抓取。

代理 IP 信息：

HOST: cloudnproxy.baidu.com
PORT: 443

需要注意的是，百度代理会校验 User-Agent。因此，我们需要在正常的 User-Agent 后面追加 baiduboxapp/13.10.0.10。有些实现会要求在 Headers 中添加 X-T5-Auth，但经过测试，这个 key 其实是不必要的。

代码实现

import requests


def send_request_via_proxy(*args, **kwargs):
    baidu_proxy = 'cloudnproxy.baidu.com:443'
    kwargs['proxies'] = {'http': baidu_proxy, 'https': baidu_proxy}
    if 'headers' not in kwargs:
        kwargs['headers'] = {}
    if 'User-Agent' not in kwargs['headers']:
        kwargs['headers']['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 ' \
                                          '(KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'

    kwargs['headers']['User-Agent'] += ' baiduboxapp/13.10.0.10'
    # kwargs['headers']['X-T5-Auth'] = '196289709'
    resp = requests.request(*args, **kwargs)
    return resp


if __name__ == '__main__':
    api = 'https://pubstatic.b0.upaiyun.com/?_upnode'
    ip_info = send_request_via_proxy('GET', api).json()
    print(ip_info['remote_addr'])
    print(ip_info['remote_addr_location'])

运行代码，可以看到我们的 IP 地址已经变成了百度的代理 IP 地址

$ python3 proxy-test.py
180.101.81.32
{'country': '中国', 'isp': '电信', 'province': '江苏', 'continent': '亚洲', 'city': '苏州'}

每次请求的出口 IP 随机，这样就可以避免被服务器屏蔽了。

代理 IP 池

使用 ping 命令，可以获取多个地点的入口 IP，但是出口 IP 仍然是随机的，这点需要注意。

220.181.7.1  中国北京电信
220.181.33.174  中国北京电信
220.181.111.189  中国北京电信
180.97.93.202  中国江苏苏州 电信
180.97.104.168  中国江苏南京 电信
14.215.179.244  中国广东广州 电信
157.0.148.53  中国江苏苏州 联通
153.3.236.22  中国江苏南京 联通
110.242.70.69  中国河北保定 联通
110.242.70.68  中国河北保定 联通
157.255.78.51  中国广东广州 联通
36.152.45.98  中国江苏南京 移动
36.152.45.97  中国江苏南京 移动

缺点

因为这个代理本身就很多用户在使用，所以一些反爬比较严格的网站可能会拦截这个代理的请求。

其实这个代理有一些其他的用法（~~比如流量卡~~），但是可能涉及到一些法律问题，这里就不多介绍。

一个有效的设备: 一个未被封禁*的小米、红米或 POCO 设备。设备正在运行官方版 HyperOS。 (2023/11/23 更新) 您的设备不会被小米强制验证账户资格。一个有效的 SIM 卡: * 无法使用 SIM 卡的平板电脑除外。 SIM 卡不得处于停机或无服务状态。 SIM 卡需要能够连接到互联网。每张有效 SIM 卡在三个月内只能解锁 2 台设备。一个有效的小米账号: 一个未被封禁*的小米账号。每个账号一个月只能解锁一部手机，一年只能解锁三部手机。您已阅读并理解上述警告。 * 根据小米提供的解锁说明，某些账号和设备将被禁止使用解锁工具，这被称为"风控"。

options { listen-on port 53 { any; }; //监听端口 listen-on-v6 port 53 { ::1; }; directory "/var/named"; dump-file "/var/named/data/cache_dump.db"; statistics-file "/var/named/data/named_stats.txt"; memstatistics-file "/var/named/data/named_mem_stats.txt"; recursing-file "/var/named/data/named.recursing"; secroots-file "/var/named/data/named.secroots"; allow-query { any; }; //允许访问的IP地址段，这里设置为所有 recursion yes; dnssec-enable yes; dnssec-validation yes; /* Path to ISC DLV key */ bindkeys-file "/etc/named.root.key"; managed-keys-directory "/var/named/dynamic"; pid-file "/run/named/named.pid"; session-keyfile "/run/named/session.key"; }; logging { channel default_debug { file "data/named.run"; severity dynamic; }; }; zone "." IN { type master; file "domain.Com"; }; include "/etc/named.rfc1912.zones"; include "/etc/named.root.key";

代码实现

import requests


def send_request_via_proxy(*args, **kwargs):
    baidu_proxy = 'cloudnproxy.baidu.com:443'
    kwargs['proxies'] = {'http': baidu_proxy, 'https': baidu_proxy}
    if 'headers' not in kwargs:
        kwargs['headers'] = {}
    if 'User-Agent' not in kwargs['headers']:
        kwargs['headers']['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 ' \
                                          '(KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'

    kwargs['headers']['User-Agent'] += ' baiduboxapp/13.10.0.10'
    # kwargs['headers']['X-T5-Auth'] = '196289709'
    resp = requests.request(*args, **kwargs)
    return resp


if __name__ == '__main__':
    api = 'https://pubstatic.b0.upaiyun.com/?_upnode'
    ip_info = send_request_via_proxy('GET', api).json()
    print(ip_info['remote_addr'])
    print(ip_info['remote_addr_location'])

$ python3 proxy-test.py
180.101.81.32
{'country': '中国', 'isp': '电信', 'province': '江苏', 'continent': '亚洲', 'city': '苏州'}

代理 IP 池

220.181.7.1  中国北京电信
220.181.33.174  中国北京电信
220.181.111.189  中国北京电信
180.97.93.202  中国江苏苏州 电信
180.97.104.168  中国江苏南京 电信
14.215.179.244  中国广东广州 电信
157.0.148.53  中国江苏苏州 联通
153.3.236.22  中国江苏南京 联通
110.242.70.69  中国河北保定 联通
110.242.70.68  中国河北保定 联通
157.255.78.51  中国广东广州 联通
36.152.45.98  中国江苏南京 移动
36.152.45.97  中国江苏南京 移动

巧用百度 APP 代理规避网站反爬

代理 IP 信息：

代码实现

代理 IP 池

缺点

相关推荐

评论抢沙发

时间轴

小米澎湃OS（HyperOS）绕过限制解bootloader锁（BL锁）教程

一、准备工作

二、使用方法

办192号段，iPhoneX iOS13.3 刷IPCC用192的广电卡

密码保护：Cloudflare防火墙部署指南【过滤恶意流量恶意爬虫威胁】

密码保护：创建icloud域名邮箱并薅iCloud+土区羊毛（2023年12月）

通过bind自建DNS，把任意域名返回固定IP

巧用百度 APP 代理规避网站反爬

代理 IP 信息：

代码实现

代理 IP 池

缺点

随机推荐

热门标签

网上邻居

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续给力更多优质内容，让我们一起创建更加美好的网络世界！

支付宝扫一扫打赏

微信扫一扫打赏

代理 IP 信息：

代码实现

代理 IP 池

缺点

相关推荐

评论 抢沙发

时间轴

小米澎湃OS（HyperOS）绕过限制解bootloader锁（BL锁）教程

一、准备工作

二、使用方法

办192号段，iPhoneX iOS13.3 刷IPCC用192的广电卡

密码保护：Cloudflare防火墙部署指南【过滤恶意流量恶意爬虫威胁】

密码保护：创建icloud域名邮箱并薅iCloud+土区羊毛（2023年12月）

通过bind自建DNS，把任意域名返回固定IP

巧用百度 APP 代理规避网站反爬

代理 IP 信息：

代码实现

代理 IP 池

缺点

随机推荐

热门标签

网上邻居

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续给力更多优质内容，让我们一起创建更加美好的网络世界！

支付宝扫一扫打赏

微信扫一扫打赏

评论抢沙发