目标场景
在移动互联网时代,很大一部分企业抛弃了传统的网站,选择将数据、服务整合到 App 端,因此 App 端无论是爬虫还是反反爬都显得尤为重要 。
常见的 App 端的爬虫方式是利用 Appium 和 Airtest 驱动手机打开应用,操作页面,然后通过元素 ID 获取元素的内容,又或者借助 mitmproxy 捕获到请求的数据,最后将数据保存下来 。
如果要完成复杂的操作,加快爬虫的效率,就必须破解 App 端的登录,获取一些关键的数据,直接模拟接口请求,达到快速高效地爬取数据的目的 。
文章插图
准备工作
在开始编写脚本之前,需要做好如下准备工作
1、待破解的 APK 应用,可去官网或者各大应用市场去下载,然后安装应用到手机中
【Python 爬虫破解移动端登录】2、反编译工具,mac OSX 推荐 Android Crack Tool 工具集,Win OS 可以使用 dex2jar 来反编译 APK 应用包
3、源码浏览工具:jadx-gui
4、抓包工具:Charles 或者 Fiddler
文章插图
编写脚本
第 1 步,确保手机配置好代理之后,就可以利用 Charles 对「获取验证码」和「登录」进行抓包操作,得到请求地址、请求参数和请求头等数据 。
文章插图
第 2 步,对请求参数、请求头中「没有规律的数据」寻找生成的规律,并用 Python 代码来生成这些数据 。
首先,我们查看获取验证码这一请求的参数,发现除了手机号码外,参数 t 可以很容易想到是请求的时间戳,唯独参数 token 在没有其他网络请求的情况下生成了 。
文章插图
所以,我们大胆猜测:这个 token 是 App 端通过一定的逻辑生成的;同理,请求头中 token 也是由 App 端生成 。
在我们多次发起获取验证码的操作之后,我们得出一个规律:参数中的 token 保持不变,与请求时间没有关系;请求头的 token 会随着时间的变化的也会发生变化 。
我们利用 Android Crack Tool对 APK 应用进行反编译,得到源码 Jar 包 。
文章插图
然后就可以使用 jadx-gui 工具打开源码 Jar 包,通过请求地址中的「关键词:login」搜索源码,就能找到请求发送的位置 。
文章插图
由于应用源码打包的时候混淆了代码,因此,我们需要根据上面的搜索结果去定位参数初始化位置及实现逻辑 。
文章插图
逐步往上追溯应用源码,可以找到按钮点击事件的监听函数 。
具体实现逻辑是把用户输入的手机函数传给混淆后的函数 :b()
文章插图
点击查看函数 b() 的实现逻辑,会发现方法中对手机号码进行了截取,获取当前日期时间,进行字符串的「第一次拼接」操作 。
文章插图
对第一部分的拼接我们用 Python 代码进行实现 。
文章插图
第一次拼接完成之后,我们发现又调用了一个函数 a(),参数为上面拼接生成的两个变量 。
函数 a() 的内部使用「DES + Base64」加密算法来进行第二步的处理 。
文章插图
加密的操作用 Python 可以很轻松的实现 。
文章插图
需要注意的是,b()函数的最后一行,对第二步生成的字符串进行了特殊字符的替换操作,生成 Token 之前需要对数据进行同样的处理 。
文章插图
推荐阅读
- Python:同步异步阻塞非阻塞
- 如何在Windows上做Python开发?微软出了官方教程
- 用Python爬取网易云音乐全部歌手的热门歌曲
- 10种最好的Python开发编辑器,你使用过几种呢?
- 个让Python代码运行更快的最佳方式!
- Python超详细的字符串用法大全
- 140种Python标准库、第三方库和外部工具都有了
- Python函数式编程,Python闭包
- Python接口测试自动化实战及代码示例:含get、post等方法
- 教你如何优雅地用Python连接MySQL数据库