记录我工作学习生活中的点点滴滴......

UC神马小说章节内容采集破解过程
发布于 网络采集
2014-12-12 18:41:56
5290
583

折腾采集接口,打算把几个聚合占都做成规则,前面几个都还好,可是到了uc这里,整个人立马不淡定了。你看看那谁谁,虽然不给json数据,但是人家是框架啊,加个参数直接就把数据改成json了,你在看看这谁,怕咱们跨域不好做,都是jsonp的送你数据,到了uc这个神马小说这里,各种加密,各种挖坑,连人与人之间最基本的信任都没了

从头吐槽,别家可没强制手机访问,这uc神马小说缺必须手机访问,pc直接跳转。好吧,改ua,虽然不爽,还是要研究,还是要破解啊。

打开章节后,看网络请求,一看这都什么数据,有必要搞这样的加密么?这些都是什么玩意呢?这样加密,真是感觉用户浏览器自己解密不占cpu啊。尝试解密,各种编码转换、进制转换无解,没办法,只有一步步按照他们加密的顺序来了。

只有看代码了,用了武林神功--网页另存为大法之后打开一看,尼玛css呢,尼玛js呢,什么都没,直接查看源代码也没有,信任呢?还好武林中神器众多,祭出咱的chrome神器,dom元素里js、css都回来了,直接整个拷贝,ok!在怎么藏也没用,这不还是出来了,抱着求根问底的精神探索了下,在源代码中看到了localstorage,嗯?果真js都被藏在了localstorage,好吧,小样藏的真深,这不还是挖出来了。

看着这混淆过的js,一阵阵发愣,真是有无从下手的感觉,各种设置断点,打印log,无从下手啊,好吧其实是心里抗拒,这比之前的shushuw、飞速中文什么的变态多了。静心静心,既然都是发起了ajax请求,打算从ajax请求入手。先搜,由于看到了zepto,知道是用的zepto框架所以直接搜索关键词".ajax(",运气不错,找到了,输出log,刷新,控制台没log,擦竟然不是用的这个?继续找继续找,呃乱了,好像好到了xhr,莫非用的xmlhttprequest?搜了一下,这么多处.....这怎么下手呢

..........................................

好吧,这些都是我之前的尝试,最终失败告终,我也不分享我错误的过程了,直接进入后面的流程,跟着我一层一层解开这层面纱,拆开他加密的过程,还原真实的本质。

未完待续,有时间继续写。



分享本文到:
除非特殊注明,本文版权归原作者所有,欢迎转载!转载请注明版权以及本文地址,谢谢。
转载保留版权:Pakey's BLog >>网络采集 >>UC神马小说章节内容采集破解过程
本文地址:http://www.pakey.net/blog/uc-sm-chapter-collect.html