打算给闺女买几本书,计划是列一个书单让闺女自己选 。
于是找到另一个还算不错的书单介绍页,可惜它不让复制,鼠标右键选中提示
扫码以后就跳到学而思的网页让加老师的微信之类的 。
这事怎么能难倒我这个程序员呢?工具伺候 。
工具获取方法:头条首发:自己写的一款正则表达式测试工具
1、切换到网页源码页
我用的是Chrome浏览器,在书单页页面鼠标右键,然后点查看网页源代码
文章插图
2、你会看到网页源码了,鼠标滚轮到合适的位置,你就能看到书单文字了,这个是可以复制的,只不过里面有一些网页标签,有他们在不方便阅读 。
文章插图
数字序号 + 、+书名+</div>符号结束发现它的网页源码都是有规律的:
数字序号 + 、+书名+</div>符号结束
文章插图
那么正则表达式写为:
d+、.*?(?=</div>)在软件中运行结果如下:
解释如下:
d+匹配连续的数字;
.*?匹配所有字符;
(?=</div>)以</div>结尾的字符,结果中不包含</div>
文章插图
原来是内容分成了两个不同的部分,先把前15个复制下来,然后再处理后面的:
文章插图
全部复制下来,发现前面15本是对的,后面的仅仅是介绍,没有书名
1、西方寓言的始祖原来是内容分成了两个不同的部分,先把前15个复制下来,然后再处理后面的:
2、中国先秦时期的百科全书
3、兵家韬略之首
4、垂范千古的儒家经典
5、中国道家学说的开山之作
文章插图
总结发现规律,原来书名都是以《开头,</div>结尾,于是修改下正则表达式:
《.*?(?=</div>)匹配结果如下,稍作处理得到了满意的结果:
《伊索寓言》 伊索
《诗经》 孔子
《孙子兵法》 孙武
《论语》 孔子及其弟子
《老子》 老子
《圣经》 希伯来人
《离骚》
《史记》 司马迁
《资治通鉴》 司马光等
《神曲》 但丁
《西厢记》 王实甫
《水浒传》 施耐庵
《三国演义》 罗贯中
《君主论》 马基雅维里
《一千零一夜》 阿拉伯人
《堂吉诃德》
《西游记》 吴承恩
《菜根谭》 洪应明
《蒙田随笔全集》 蒙田
《莎士比亚喜剧悲剧集》 莎士比亚
《堂吉诃德》 塞万提斯
《古文观止》 吴楚才,吴调侯
《唐诗三百首》 孙洙,徐兰英
《红楼梦》 曹雪芹,高鹗
《格林童话》 雅各布;格林,威廉;格林
《吉檀迦利》 泰戈尔
《变形记》 卡夫卡
《红与黑》 司汤达
《孙子兵法》齐名的一代巨着
《战争论》 克劳塞维茨
《安徒生童话》 安徒生
《简;爱》 夏洛蒂;勃朗特
《昆虫记》 法布尔
《茶花女》,断尽支那荡子肠
《茶花女》 小仲马
《包法利夫人》 居斯塔夫;福楼拜
《物种起源》 达尔文
《悲惨世界》 雨果
《罪与罚》 陀思妥耶夫斯基
《悲剧的诞生》 尼采
《曾国潘家书》 曾国藩
《安娜;卡列尼娜》 列夫;托尔斯泰
《梦的解析》 弗洛伊德
《鲁迅全集》 鲁迅
《毛泽东诗词》 毛泽东
《尤利西斯》 詹姆斯;乔伊斯
《朱自清散文》 朱自清
《志摩的省》 徐志摩
《宋词三百首》 朱疆村
《追忆似水年华》 马塞乐;普鲁斯特
《静静的顿河》 肖洛霍夫
《查泰莱夫人的情人》 劳伦斯
《卡耐基成功之道全书》 卡耐基
《钢铁是怎样炼成》 尼古拉;奥斯特洛夫斯基
《飘》 玛格丽特;米切尔
《倾城之恋》 张爱玲
《围城》 钱钟书
《经济学》 萨缪尔森,诺德豪斯
《麦田的守望者》 塞林格
《老人与海》 厄纳斯特;海明威
推荐阅读
- 柠檬马鞭草,柠檬马鞭草应用配方
- 应该送男朋友什么礼物
- 胆固醇高不应该吃什么?
- ai目前的应用 ai在中国的应用
- 吃什么可以清火祛痘
- 中学生应该怎样做才能远离病毒?
- 华为|华为终端云服务应用创新升级 重新定义智慧体验标准
- ARM|ARM中国CEO吴雄昂被曝要遭总部罢免 本人回应:不能凌驾于法律
- 汽车|今晚油价上调!加满一箱92号汽油多花8元 会继续涨吗?官方回应
- 英雄联盟|Faker直播吐槽《英雄联盟》现状:应该删除秒退机制 演员可能会让游戏凉掉