整站防护设置

  1. 第一层 robots.txt
  2. 第二层 useragent 特征拦截
  3. 第三层 JS发送鼠标点击事件
  4. 第四层 后台接口限制

第一层 robots.txt

robots 是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,

也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。

注意:它只是做了协议规定,是否允许将爬取的数据收录,不影响网页访问。

备注:对于手动写爬虫技术人员而言,一般都是直接忽略掉的。

如果不允许所有的爬虫蜘蛛访问,内容如下:

User-agent: *
Disallow: /

第二层 useragent 特征拦截

因为user-agent带有Bytespider爬虫标记,这可以通过Nginx规则来限定流氓爬虫的访问,直接返回403错误。

具体操作,请查看 nginx配置

备注:这样可以防止一部分爬虫访问,以及初级爬虫人员。

第三层 JS发送鼠标点击事件

有些网站,你从浏览器可以打开正常的页面,而在requests里面却被要求输入验证码或者是重定向到其他的页面。
原理:当点击登录时,触发js加密代码,复杂的加密算法参数+时间戳+sig值,后台进行 参数+时间的限制。验证成功后,才可以登录。

备注:爬虫高手需要模拟浏览器行为,加载js代码以及图片识别,才能正常登陆。

第四层 后台接口限制

  1. 根据 IP 访问频率封禁 IP(注意:频率要控制好,否则容易误伤。)
  2. 设置账号登陆时长,账号访问过多封禁。
    设置账号的登录限制,只有登录才能展现内容 设置账号登录的时长,时间一到则自动退出
  3. 弹出数字验证码和图片确认验证码
    爬虫访问次数过多,前端弹出验证码要求输入
  4. 对 API 接口的限制
    每天的登录账户,请求后端 api 接口时,做调用次数限制。对后台 api 返回信息进行加密处理

通过这4层设置,就可以有效的保护数据的安全了。


转载请注明来源。 欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。 可以在下面评论区评论,也可以邮件至 sharlot2050@foxmail.com。

文章标题:整站防护设置

字数:543

本文作者:夏来风

发布时间:2019-10-16, 22:37:24

原始链接:http://www.demo1024.com/blog/java-web-deny/

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。