记录我工作学习生活中的点点滴滴......

折腾采集接口,打算把几个聚合占都做成规则,前面几个都还好,可是到了uc这里,整个人立马不淡定了。你看看那谁谁,虽然不给json数据,但是人家是框架啊,加个参数直接就把数据改成json了,你在看看这谁,怕咱们跨域不好做,都是jsonp的送你数据,到了uc这个神马小说这里,各种加密,各种挖坑,连人与人之间最基本的信任都没了。

从头吐槽,别家可没强制手机访问,这uc神马小说缺必须手机访问,pc直接跳转。好吧,改ua,虽然不爽,还是要研究,还是要破解啊。

打开章节后,看网络请求,一看......

发布于2014年12月12日 18时41分,被围观5291次,留下了583脚印立即阅读

昨晚朋友发来个地址,打开一看是一个做镜像程序。看了下演示,发现原理其实很简单,或者说就是在线代理的原理。 上午抽时间还原了下这个原理,现在代码分享出来,供有需要的朋友获取。 1、地址归一 为了获得更好的效果,所以地址我们完全仿照源站地址,这样就需要使用各种技术来接收这个地址,因为我们这里仅讨论原理,所以就使用伪静态吧,以下是apache的伪静态规则 <IfModule mod_rewrite.c> RewriteEngine on Re......

发布于2013年05月23日 11时07分,被围观5830次,留下了4脚印立即阅读

自古正邪不两立,采集与防采集一直是相互对立的,一方面我们想采集到别人站点的好的内容,另一方面我们又不想让自己站点的好内容被别人采集。 手段一、判断来路,如果来路是自己站点的,那么显示,否则显示其他内容 这是防采集最简单的办法,实现起来也是最简单的.htaccess文件中,或者php代码中,都很容易去实现 破解:既然实现简单,那么破解起来也是相当的简单,只要在发送请求的时候伪造一下referer信息即可 手段二、登录信息判断 Cookie 这种常见于论坛的附件下载 破解:要采集......

发布于2012年10月07日 15时41分,被围观3546次,留下了2脚印立即阅读

中广网北京2月3日消息(记者张棉棉)据中国之声《央广新闻》报道,工信部1月14日公布了《互联网信息服务市场秩序监督管理暂行办法(征求意见稿)》,向社会各界征求意见。反馈意见截止日期是2月14日。条例中,有一条非常引人关注,涉及内容为弹出式广告规范。 工信部公布的这一则《互联网信息服务市场秩序监督管理暂行办法(征求意见稿)》共分为五章,包括总则、互联网信息服务市场行为规范、互联网信息服务争议处理机制,罚则和附则。在第二章第六条第三点中提到,互联网信息服务提供者在市场活动中不得有下列不正当行为:不......

发布于2011年02月07日 22时53分,被围观4185次,留下了3脚印立即阅读

研究小偷很长时间了,这次为了做一个论坛的,本来以为抓取只是简单的用file_get_contents,然后正则就OK了,但随着逐步的深入发现模拟登陆,模拟发帖,模拟蜘蛛貌似都很必要…… 先简单描述一下计划的模拟登陆…… 首先抓取列表页(这一步以后可以使用模拟蜘蛛抓取以防止被封杀IP),抓取页面登陆地址,抓取登陆页面内容,取出所有隐藏表单及表单地址(对于用AJAX和JS提交的页面先暂不考虑,毕竟我现在主要目标是论坛~~~),从数据库取出对应的用户名和密码构成post字符串,与得到的隐藏表单内容......

发布于2010年03月07日 01时20分,被围观3388次,留下了0脚印立即阅读

实现了模拟蜘蛛,但是还是被封了ip,郁闷…… 云轩阁封的真是狠啊,流量稍微大一点就封,难道是在封采集么? 不知道如何才能解决云轩阁封ip这个问题,太烦人了,获取得实现伪装ip才可以吧,不过这样就是ddos了~ 代码贴出来,大家借鉴下。 //以模拟蜘蛛的方式获取文件,并返回内容 function vspider_get($url){ $ch2 = curl_init(); $user_agent = "Baiduspider+(+http://www.baidu.com/search/spi......

发布于2010年03月07日 01时05分,被围观3686次,留下了5脚印立即阅读