记录我工作学习生活中的点点滴滴......

【盾与剑】小谈采集与防采集
发布于 网络采集
2012-10-07 15:41:37
5312
2
自古正邪不两立,采集与防采集一直是相互对立的,一方面我们想采集到别人站点的好的内容,另一方面我们又不想让自己站点的好内容被别人采集。

手段一、判断来路,如果来路是自己站点的,那么显示,否则显示其他内容
这是防采集最简单的办法,实现起来也是最简单的.htaccess文件中,或者php代码中,都很容易去实现
破解:既然实现简单,那么破解起来也是相当的简单,只要在发送请求的时候伪造一下referer信息即可

手段二、登录信息判断 Cookie
这种常见于论坛的附件下载
破解:要采集这种内容就要模拟登录,这点使用curl无疑要简单的多

手段三、请求次数判断。如一段时间内请求多少,非常规操作则封IP
比如采集搜搜问问,如果你在一段时间内访问频繁的话会要你输入验证码
破解:1、轮询其cdn站点  2、查看记录访问次数原理,绕过检测

手段四、发送方式判断 POST GET 使用JS,Ajax等请求内容
这个需要具体问题具体分析了,比如AspNetPager的翻页空间,就需要模拟post数据才能获取到下一页内容
特别是在firebug出现之后,ajax请求的页面完全就是赤裸裸的展现出来了。

当然还有其他很多的手段,比如网盘上常用的随机文件名,动态地址这些,在比如一些下载站要填写验证码等等。下面是一个小实战练习

实战:微盾(VirtualWall)防盗链专家
原理:在cookie中写入特定信息,然后与服务器中存储的进行检验
破解:先获取在cookie中存储的信息,然后采集的时候将cookie发送过去

最后:如果你真想把采集这块搞好,那么http协议,curl,socket这些你是必须要掌握甚至精通的


分享本文到:
除非特殊注明,本文版权归原作者所有,欢迎转载!转载请注明版权以及本文地址,谢谢。
转载保留版权:Pakey's BLog >>网络采集 >>【盾与剑】小谈采集与防采集
本文地址:http://www.pakey.net/blog/think-about-collect.html