Nginx限制搜索引擎爬虫频率、禁止屏蔽网络爬虫配置示例

发布时间:2022-04-24 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了Nginx限制搜索引擎爬虫频率、禁止屏蔽网络爬虫配置示例脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

复制代码 代码如下:

#全局配置
limIT_req_zone $anti_spider zone=anti_spider:10m rate=15r/m;

#某个server中
 limit_req zone=anti_spider burst=30 nodelay;
 if ($http_user_agent ~* "xxspider|xxbot") {
 set $anti_spider $http_user_agent;
}

超过设置的限定频率,就会给spider一个503。
上述配置详细解释请自行GOOGLE下,具体的spider/bot名称请自定义。

附:nginx中禁止屏蔽网络爬虫

复制代码 代码如下:

server { 
        listen       80; 
        server_name  www.xxx.COM
 
        #charset koi8-r; 
 
        #access_LOG  logs/host.access.log  main; 
 
        #location / { 
        #    root   htML
        #    index  index.html index.htm; 
        #} 
    if ($http_user_agent ~* "qihoobot|BaiduSpider|Googlebot|Googlebot-mobile|Googlebot-image|Mediapartners-Google|Adsbot-Google|FeeDFetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YouDAOBot|Sosospider|Sogou spider|Sogou web spider|msnBot|ia_Archiver|Tomato Bot") { 
                return 403; 
        } 
 
    location ~ ^/(.*)$ { 
                Proxy_pass http://localhost:8080; 
        PRoxy_redirect          off; 
        proxy_set_header        Host $host; 
        proxy_set_header        X-Real-IP $remote_addr; 
        proxy_set_header       X-Forwarded-For   $proxy_add_x_forwarded_for; 
        client_max_body_size    10m; 
        client_body_buffer_size 128k; 
        proxy_connect_timeout   90; 
        proxy_send_timeout      90; 
        proxy_read_timeout      90; 
        proxy_buffer_size       4k; 
        proxy_buffers           4 32k; 
        proxy_busy_buffers_size 64k; 
        proxy_temp_file_write_size 64k; 
    } 
     
        #error_page  404              /404.html; 
 
        # redirect server error pages to the static page /50x.html 
        # 
        error_page   500 502 503 504  /50x.html; 
        location = /50x.html { 
            root   html; 
        } 
 
        # proxy the PHP scripts to apache listening on 127.0.0.1:80 
        # 
        #location ~ \.php$ { 
        #    proxy_pass   http://127.0.0.1; 
        #} 
 
        # pass the PHP scripts to FastCGI server listening on 127.0.0.1:9000 
        # 
        #location ~ \.php$ { 
        #    root           html; 
        #    fastcgi_pass   127.0.0.1:9000; 
        #    fastcgi_index  index.php; 
        #    fastcgi_param  SCRIPT_FILENAME  /scripts$fastcgi_SCRIPT_NAME
        #    include        fastcgi_params; 
        #} 
 
        # deny access to .htaccess files, if Apache's document root 
        # concurs with nginx's one 
        # 
        #location ~ /\.ht { 
        #    deny  all; 
        #} 
    } 


可以用 curl 测试一下

复制代码 代码如下:
curl -I -A "qihoobot" www.xxx.com

脚本宝典总结

以上是脚本宝典为你收集整理的Nginx限制搜索引擎爬虫频率、禁止屏蔽网络爬虫配置示例全部内容,希望文章能够帮你解决Nginx限制搜索引擎爬虫频率、禁止屏蔽网络爬虫配置示例所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。
标签: