「数量技术宅|Python爬虫系列」实时监控股市公告的爬虫


「数量技术宅|Python爬虫系列」实时监控股市公告的爬虫文章插图
精力有限的我们 , 如何更加有效率地监控信息?很多时候特别是交易时 , 我们需要想办法监控一些信息 , 比如股市的公告 。 如果现有的软件没有办法实现我们的需求 , 那么就要靠我们自己动手 , 才能丰衣足食 。
你在交易看盘时 , 如果有一个小窗口 , 平时默默的不声不响 , 但是如果有公告发布 , 就会显示公告的信息:这是什么公告 , 然后给我们公告的链接 。 这样 , 既不会像弹窗那样用信息轰炸我们 , 又能够定制我们自己想要的内容 , 做到想看就看 , 想不看就不看 , 那就很方便了 。
「数量技术宅|Python爬虫系列」实时监控股市公告的爬虫文章插图
爬虫抓取的是东方财富上的上市公司公告 , 上市公司公告有些会在盘中公布 。 实时监控的原理 , 其实就是程序代替人工 , 定期地去刷新网页 , 然后用刷新前后得到的数据进行比对 , 如果一样 , 那么等待下一个周期继续刷新 , 如果不一样 , 那么就把增量信息提取出来 , 供我们查阅 。
利用python爬虫实时监控公告信息四部曲第一步 , 导入随机请求头和需要的包
「数量技术宅|Python爬虫系列」实时监控股市公告的爬虫文章插图
我们使用json来解析获取的信息 , 使用什么方法解析数据取决于我们请求数据的返回形式 , 这里使用json最方便 , 我们就导入json包 。
「数量技术宅|Python爬虫系列」实时监控股市公告的爬虫文章插图
第二步 , 获取初始的公告数据
我们发现 , 每一个公告都有一个独有的文章号码:art_code , 因此我们以这个号码作为新旧比较的基准 , 如果新页面的头一个公告的art_code和已有的一致 , 那么就进入下一个刷新周期 , 如果不一致 , 那么说明页面已经更新过了 , 我们提取最新的报告 , 同时更新这个art_code , 用于下一次比对 。
「数量技术宅|Python爬虫系列」实时监控股市公告的爬虫文章插图

  1. 原始url的获取 。 获取之后 , 通过json解析其中的内容 , 得到art_code , 覆盖写入在tmp.txt文件中 , 用于比对 。
  2. 读取了tmp.txt文件中的art_code , 跟页面解析的art_code比对 。

「数量技术宅|Python爬虫系列」实时监控股市公告的爬虫文章插图
第三步 , 获取公告标题和文章链接
  1. 通过json我们基本上已经能够解析出大部分的数据内容 。
  2. 通过观察网站的公告链接的特点 , 我们发现主要的差别就是在art_code , 因此通过网址链接的拼接 , 我们就能够得到公告的pdf链接 。

「数量技术宅|Python爬虫系列」实时监控股市公告的爬虫文章插图
第四步 , 运行我们的程序
程序运行的结果会打印到窗口当中 , 每当有新的公告发布 , 程序上就会出现一串新的信息 。
最后自此 , 我们通过程序把我们要的信息打印到了程序的运行窗口 , 同时 , 我们的程序也可以根据我们需求进行强化和扩充 。 首先 , 这些信息也可以非常方便的通过接口发送到邮箱、钉钉等平台 , 起到实时提醒的作用 , 其次 , 我们也可以从不同的地方抓取信息 , 完成所需信息的自定义整合 , 这些将在我们后续的文章中提到 。
文章和代码仅供交流学习 , 请勿用于非法用途 。
【「数量技术宅|Python爬虫系列」实时监控股市公告的爬虫】「数量技术宅|Python爬虫系列」现货季节性跟踪的爬虫分享


    推荐阅读