如何禁止搜索引擎爬虫抓取网站页面？-杨哥视界

以下列举了屏蔽主流搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路，如果你不希望搜索引擎抓取你的页面，或者不希望web.archive.org留下历史信息，可以试一下这么做。

注意：是整站屏蔽，而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫（蜘蛛）：

1、通过 robots.txt 文件屏蔽
可以说 robots.txt 文件是最重要的一种渠道（能和搜索引擎建立直接对话），给出以下建议：

User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YoudaoBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /

2、通过 meta tag 屏蔽
在所有的网页头部文件添加，添加如下语句：

<meta name="robots" content="noindex, nofollow">

3、通过服务器（如：Linux/nginx ）配置文件设置
直接过滤 spider/robots 的IP 段。

一个有效的设备: 一个未被封禁*的小米、红米或 POCO 设备。设备正在运行官方版 HyperOS。 (2023/11/23 更新) 您的设备不会被小米强制验证账户资格。一个有效的 SIM 卡: * 无法使用 SIM 卡的平板电脑除外。 SIM 卡不得处于停机或无服务状态。 SIM 卡需要能够连接到互联网。每张有效 SIM 卡在三个月内只能解锁 2 台设备。一个有效的小米账号: 一个未被封禁*的小米账号。每个账号一个月只能解锁一部手机，一年只能解锁三部手机。您已阅读并理解上述警告。 * 根据小米提供的解锁说明，某些账号和设备将被禁止使用解锁工具，这被称为"风控"。

options { listen-on port 53 { any; }; //监听端口 listen-on-v6 port 53 { ::1; }; directory "/var/named"; dump-file "/var/named/data/cache_dump.db"; statistics-file "/var/named/data/named_stats.txt"; memstatistics-file "/var/named/data/named_mem_stats.txt"; recursing-file "/var/named/data/named.recursing"; secroots-file "/var/named/data/named.secroots"; allow-query { any; }; //允许访问的IP地址段，这里设置为所有 recursion yes; dnssec-enable yes; dnssec-validation yes; /* Path to ISC DLV key */ bindkeys-file "/etc/named.root.key"; managed-keys-directory "/var/named/dynamic"; pid-file "/run/named/named.pid"; session-keyfile "/run/named/session.key"; }; logging { channel default_debug { file "data/named.run"; severity dynamic; }; }; zone "." IN { type master; file "domain.Com"; }; include "/etc/named.rfc1912.zones"; include "/etc/named.root.key";

代码实现

import requests


def send_request_via_proxy(*args, **kwargs):
    baidu_proxy = 'cloudnproxy.baidu.com:443'
    kwargs['proxies'] = {'http': baidu_proxy, 'https': baidu_proxy}
    if 'headers' not in kwargs:
        kwargs['headers'] = {}
    if 'User-Agent' not in kwargs['headers']:
        kwargs['headers']['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 ' \
                                          '(KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'

    kwargs['headers']['User-Agent'] += ' baiduboxapp/13.10.0.10'
    # kwargs['headers']['X-T5-Auth'] = '196289709'
    resp = requests.request(*args, **kwargs)
    return resp


if __name__ == '__main__':
    api = 'https://pubstatic.b0.upaiyun.com/?_upnode'
    ip_info = send_request_via_proxy('GET', api).json()
    print(ip_info['remote_addr'])
    print(ip_info['remote_addr_location'])

$ python3 proxy-test.py
180.101.81.32
{'country': '中国', 'isp': '电信', 'province': '江苏', 'continent': '亚洲', 'city': '苏州'}

代理 IP 池

220.181.7.1  中国北京电信
220.181.33.174  中国北京电信
220.181.111.189  中国北京电信
180.97.93.202  中国江苏苏州 电信
180.97.104.168  中国江苏南京 电信
14.215.179.244  中国广东广州 电信
157.0.148.53  中国江苏苏州 联通
153.3.236.22  中国江苏南京 联通
110.242.70.69  中国河北保定 联通
110.242.70.68  中国河北保定 联通
157.255.78.51  中国广东广州 联通
36.152.45.98  中国江苏南京 移动
36.152.45.97  中国江苏南京 移动

如何禁止搜索引擎爬虫抓取网站页面？

相关推荐

评论 1

时间轴

小米澎湃OS（HyperOS）绕过限制解bootloader锁（BL锁）教程

一、准备工作

二、使用方法

办192号段，iPhoneX iOS13.3 刷IPCC用192的广电卡

密码保护：Cloudflare防火墙部署指南【过滤恶意流量恶意爬虫威胁】

密码保护：创建icloud域名邮箱并薅iCloud+土区羊毛（2023年12月）

通过bind自建DNS，把任意域名返回固定IP

巧用百度 APP 代理规避网站反爬

代理 IP 信息：

代码实现

代理 IP 池

缺点

随机推荐

热门标签

网上邻居

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续给力更多优质内容，让我们一起创建更加美好的网络世界！

支付宝扫一扫打赏

微信扫一扫打赏