文章插图
前言往期的文章中,基本上都是写策略 。而今天,作者将利用Python抓取东方财富上面的,当日上市公布重大事项内容 。
上市公司的公告,也是对我们交易来说也是有一定的意义的 。
文章插图
上市公司的公告有的会在盘中进行公布,我可以做到实时监控重大事项的动态,这将有助于辅助交易 。
因此,作者将从东方财富上抓取的上市公司公告,通过钉钉所提供的机器人接口就发送到手机 。
文章插图
实现上市公司重大事项监控的业务逻辑 。想要动态获取上市公司的公告,程序就必须得一直刷新 。用刷新前的数据与刷新后的数据对比 。如果最新的数据比上一刻的数据要长,说明有新的公告发布 。此时,我们在进行后续的操作 。
如下图所示:
文章插图
效果如下图所示:
文章插图
上述就是,实现监控上市公司最新公告的整个逻辑 。由于我们爬取的是动态加载的数据,需要找到存放上市公司公告的数据文件的url才能够抓取 。
作者在接下来会非常详细的为大家介绍,整个功能是如何实现的!
利用Python 实现监控上市公司最新发布的公告 。在开始之前,首先要保证你已经下载了钉钉PC端,注册账号并登陆 。作者将用6步完成整个功能的实现,让我们开始吧 。
1.第一步,导入对应的包和随机请求头 。
作者将使用xpath,来获取网页信息,xpath是一个非常简单实用的工具,建议使用它来进行抓取数据 。
如下图所示:
文章插图
2.第二步,获取从00:00 到目前已发布的所有公告数据 。
我们程序在启动之前,要知道已经发布了的公告有哪些,这些数据是不会被推送的 。
1) 获取已发布的公告url 。通过xpath获取每页的公告,并通过正则提取出每个股票公告详情页面的链接 。
以便我们在后面找到对应的PDF文件链接 。
文章插图
代码如下图所示:
文章插图
上图中的url,我们需要到js文件中才能找到 。
如下图:
文章插图
url就在header里面 。
文章插图
2) 获取当日已发布的公告链接 。
这里作者会通过字符串的截取,将公告的里的时间截取出来和本地计算机时间相比 。如果相同,则为当日公告 。
反之,则为昨日公告 。
链接如下图所示:
文章插图
代码实现:
文章插图
3.第三步,获取最新公告中的PDF链接和标题 。
这一步相对复杂一点点 。我们首先通过Whlie循环,不断的运行上面的函数 。
1)当获取到数据后,与上一次对比 。如果产生了新的数据,那么就存入待推送公告的列表中 。
代码如下图所示:
文章插图
run:
文章插图
2) 上图中的info和PDF,就是当日最新发布的公告 。我们会通过下面这个函数,抓取公告对应的PDF文件链接 。
以及,将公告标题的格式格式化 。具体格式为(股票代码):公告标题 。
代码如下图所示:
文章插图
文章插图
run:
(002719):*ST麦趣关于对公司2019年年报的问询函相关问题的专项说明 。.....
4.第四步,将最新公告的链接缩短,并向钉钉发送post请求 。
由于PDF的链接过于长,所以作者通过一个短网址的API将其缩短 。
这样的话,在钉钉接收数据的时候页面看起来就比较的简洁 。
1) 通过API缩短网址 。
推荐阅读
- 在R、Python和Julia中常用的数据可视化技术
- 一篇文章掌握 Python 内置 zip 的全部内容
- 如何用 Python 清洗数据?
- Pycharm中Python Console与Terminal的区别
- 再见HTML ! 用纯Python就能写一个漂亮的网页
- 最受欢迎 12 个 Python 开源框架,你用过哪些?
- Python基础到高级,完整全套视频分享解析,学编程方法很重要
- 淘宝店铺数据抓取 如何正确获取淘宝商家注册信息
- Snakeviz是一个python的交互式可视化的图形化文件分析库
- python机器学习:多元线性回归模型实战