用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)

发布时间:2022-07-03 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

隔壁大娘看着光秃秃的菜园彻底呆住了,冲到狗剩家门口骂了三天三夜,丝毫没有要走的意思,狗剩忍无可忍,拿出脑在大娘的农场搜索了好久,竟然找到了大娘私藏的照片。 狗剩F1a;大娘,您跟隔壁王叔。。。

用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)

Robots协议漏洞

  • 一、用户隐私数据泄露
  • 二、Robots协议简介
    • 1、什么是Robots协议
    • 2、初识网络爬虫
    • 3、为什么要使用Robots协议
  • 三、Robots协议漏洞利用
    • 1、如何查看网站的Robots协议
    • 2、Robots协议内容解析
    • 3、网站对Robots协议的利用方式
    • 4、Robots协议漏洞利用
  • 总结

一、用户隐私数据泄露

相信很多朋友都接到过【骚扰电话】,有卖房子的,有带宽的,还有推销动作电影的(手动捂脸),虽然很多时候来电显示会标明骚扰电话,但大家有没有想过,我们的私人信息是怎么被他们拿到的呢?如果只是单纯的骚扰电话还好,一旦不法分子利用我们的隐私数据进行【诈骗】,后果将不堪设想。

用户隐私数据泄露的途径有很多,归根结底都是利用了网站存在的一些漏洞,网站的漏洞可谓是五花八门,本期就跟大家分享一下【Robots协议漏洞】导致的用户隐私数据泄露。

二、Robots协议简介

1、什么是Robots协议

Robots协议全称是Robots Exclusion Standard,翻译成中文就是【网络爬虫排除协议】,别名:爬虫协议,机器人协议等。 Robots协议依靠 robots.txt 文件来【制定爬虫访问的规则】,其本质上是一个文本文件,这个文本文件规定了网站中哪些内容可被爬取,哪些内容不可以被爬取。 需要注意的是,robots.txt必须放在 网站的根目录 下,并且文件的名字必须全部小写

2、初识网络爬虫

我们平时在百度上搜索的内容,实际上是百度的 【搜索引擎】 利用 【网络爬虫】 爬取到的内容,当爬虫访问一个站点的时候,首先会检查站点的根目录下是否存在robots.txt文件, 如果存在这个文件,爬虫就会 按照文件中的规则来确定访问的内容 ; 如果没有这个文件,爬虫 默认能够访问网站上的所有内容

3、为什么要使用Robots协议

出于 【网络安全】 的考虑,每个网站都需要设置自己的Robots协议规则,来表明哪些内容愿意被搜索引擎收录,哪些内容禁止被爬取。Robots协议代表一种 网站的根目录 契约精神,所有网站都应该遵守这一约定,以保证网站以及用户的隐私数据不被泄露。

三、Robots协议漏洞利用

1、如何查看网站的Robots协议

我们就拿平时最常用的百度来举例,这种大型的正规网站肯定会使用Robots协议,首先我们输入 www.baidu.COM,进入百度的首页

用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)

接下来,我们在地址栏中追加输入 /robots.txt

用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)

因为robots.txt必须放在网站的根目录下,所以我们直接在域名后面输入文件名就可以了,这个操作本质上是访问 robots.txt这个文件,由于是纯文本文件,所以访问时不会执行文件,而会展示文件中的内容(如果是程序文件则会执行文件中的代码,而不是展示文件内容)

2、Robots协议内容解析

Robots协议的内容需要写在robots.txt文件中,格式是: 【协议头】:【空格】【协议头内容】,常见的协议头有以下几个

  • User-agent: 爬虫名
  • Disallow: 禁止访问的路径
  • Allow: 允许访问的路径
  • SITemap: 网站地图

比如,禁止百度的爬虫爬取网站指定目录可以这样写

用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)

网站通常会采用【黑名单】的方式来标明禁止爬取的内容,而没有标明是否可以爬取的内容默认可以被爬取

3、网站对Robots协议的利用方式

爬虫协议的主要作用是规定 哪些文件不能被爬虫爬取 ,不希望被爬取的文件大致有两种可能:一种是 【无意义的文件】,禁止JS、CSS、图片等资型文件,这种文件即使被爬取了也没有任何意义,禁止被爬取反而可以节省服务器的资源;还有一种就是 【敏感文件】,这也是采用Robots协议的主要目的,网站出于对安全和隐私的考虑,会禁止一些敏感文件被被浏览器爬取;

4、Robots协议漏洞利用

需要注意的是: 【不能被爬取不代表不能被访问!】,网站在禁止访问的路径中标识了不希望被访问的敏感文件,殊不知,这一操作变相的告诉了用户敏感文件的所在位置,用户根据路径访问敏感文件即可获取网站的敏感数据。比如访问配置文件,查看配置文件的内容,根据网站的不当配置进行漏洞利用;或者在日志文件中传入一句话木马,访问日志文件来连接网站后门,获取网站权限等等。利用这些漏洞(为了能过审,这里就不进行实际的演示了),非法用户可以轻易的获取数据库中的信息,包括 用户的手机号,家庭住址,购物信息等敏感信息,从而进行电话骚扰,甚至是诈骗!

用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)

总结

Robots协议本是用来保护网站和用户隐私数据的准则,但总有一些 【年轻人不讲武德】,反向利用护规则来窃取用户隐私数据。虽然网络安全的圈子不乏各种灰产,以及高调宣传自己是黑客的脚本小子,但不可否认,这个圈子仍有不少人保持着 【举世皆浊我独清,众人皆醉我独醒】的心态,努力磨砺技提升自身修养,让互联网变得更加安全。 本期内容旨在提高大家的网络安全意识,动歪脑筋的同学请在心里默念三遍 【我国有一部完整且历史悠久的法律】

用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)

脚本宝典总结

以上是脚本宝典为你收集整理的用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)全部内容,希望文章能够帮你解决用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。