Python库大全 _Python库

文章插图

学Python，想必大家都是从爬虫开始的吧。毕竟网上类似的资源很丰富，开源项目也非常多。
Python学习网络爬虫主要分3个大的版块：抓取，分析，存储
当我们在浏览器中输入一个url后回车，后台会发生什么？
简单来说这段过程发生了以下四个步骤：
1、查找域名对应的IP地址。
2、向IP对应的服务器发送请求。
3、服务器响应请求，发回网页内容。
4、浏览器解析网页内容。
网络爬虫要做的，简单来说，就是实现浏览器的功能。通过指定url，直接返回给用户所需要的数据，而不需要一步步人工去操纵浏览器获取。
抓取这一步，你要明确要得到的内容是什么？是html源码，还是Json格式的字符串等。将得到内容逐一解析就好。具体的如何解析，以及如何处理数据，文章后面提供了非常详细的且功能强大的开源库列表。
当然了，爬去别人家的数据，很有可能会遭遇反爬虫机制的，怎么办？使用代理。
适用情况：限制IP地址情况，也可解决由于“频繁点击”而需要输入验证码登陆的情况。
这种情况最好的办法就是维护一个代理IP池，网上有很多免费的代理IP，良莠不齐，可以通过筛选找到能用的。
对于“频繁点击”的情况，我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉。
有些网站会检查你是不是真的浏览器访问，还是机器自动访问的。这种情况，加上User-Agent，表明你是浏览器访问即可。有时还会检查是否带Referer信息还会检查你的Referer是否合法，一般再加上Referer 。也就是伪装成浏览器，或者反“反盗链” 。
对于网站有验证码的情况，我们有三种办法：
1、使用代理，更新IP 。
2、使用cookie登陆。
3、验证码识别。
接下来我们重点聊聊验证码识别。这个python q-u-n 227--435---450就是小编期待大家一起交流讨论，各种入门资料啊，进阶资料啊，框架资料啊免费领取
可以利用开源的Tesseract-OCR系统进行验证码图片的下载及识别，将识别的字符传到爬虫系统进行模拟登陆。当然也可以将验证码图片上传到打码平台上进行识别。如果不成功，可以再次更新验证码识别，直到成功为止。
好了，爬虫就简单聊到这儿，有兴趣的朋友可以去网上搜索更详细的内容。
文末附上本文重点：实用Python库大全。
网络
urllib -网络库(stdlib) 。
requests -网络库。
grab – 网络库（基于pycurl）。
pycurl – 网络库（绑定libcurl）。
urllib3 – Python HTTP库，安全连接池、支持文件post、可用性高。
httplib2 – 网络库。
RoboBrowser – 一个简单的、极具Python风格的Python库，无需独立的浏览器即可浏览网页。
MechanicalSoup -一个与网站自动交互Python库。
mechanize -有状态、可编程的Web浏览库。
socket – 底层网络接口(stdlib) 。
网络爬虫框架
grab – 网络爬虫框架（基于pycurl/multicur）。
scrapy – 网络爬虫框架。
pyspider – 一个强大的爬虫系统。
cola – 一个分布式爬虫框架。
HTML/XML解析器
lxml – C语言编写高效HTML/ XML处理库。支持XPath 。
cssselect – 解析DOM树和CSS选择器。
pyquery – 解析DOM树和jQuery选择器。
BeautifulSoup – 低效HTML/ XML处理库，纯Python实现。
html5lib – 根据WHATWG规范生成HTML/ XML文档的DOM 。该规范被用在现在所有的浏览器上。
feedparser – 解析RSS/ATOM feeds 。
MarkupSafe – 为XML/HTML/XHTML提供了安全转义的字符串。
文本处理
用于解析和操作简单文本的库。
difflib – （Python标准库）帮助进行差异化比较。
Levenshtein – 快速计算Levenshtein距离和字符串相似度。
fuzzywuzzy – 模糊字符串匹配。
esmre – 正则表达式加速器。
ftfy – 自动整理Unicode文本，减少碎片化。
自然语言处理
处理人类语言问题的库。
NLTK -编写Python程序来处理人类语言数据的最好平台。
Pattern – Python的网络挖掘模块。他有自然语言处理工具，机器学习以及其它。
TextBlob – 为深入自然语言处理任务提供了一致的API 。是基于NLTK以及Pattern的巨人之肩上发展的。
jieba – 中文分词工具。

Python库大全

推荐阅读

无名渔夫|2020年有什么副业能够稳定月入千元？分析赚钱的方法

Filecoin分叉币FileStar预计10月30号上线

民调：过半俄罗斯人希望2024年后普京再连任总统

舟谊会展 Resilience，泰国曼谷工业自动化机器人展览会Maintenance

环球网|日本选定三菱重工为下一代战机主承包商 预计本世纪30年代首飞

疫情|华菱钢铁：预计2020年半年度净利润盈利29.3亿~31.3亿元

cdr应该咋的才可以填充

央视网|服贸会探馆丨一起“康康”专题展里的冬季运动“大礼包”

新消费内参|如何撼动“维秘”巨头地位，实现7.5亿美元市场估值，ThirdLove:

底牌|中国不再低调，主动亮出自己的“底牌”，俄：十分震撼！

雷电|注意 | 济南发布强对流天气来袭和雷电黄色预警信号

《声生不息3》：周深的尴尬，揭开了娱乐圈的三大现实面

关晓彤说自己是在逃格格|5G冲浪少年！关晓彤说自己是在逃格格，秒变新晋接梗王

[王瑶]裁决了！特朗普政府违法

铁锅除铁锈的方法

『火星』火星上也有沙尘暴？科学家：每10年爆发一次，连太阳都会被遮住

春节给孩子的祝福语大全！妈妈对宝贝新年寄语

中金网 Chain生态发起人AlanShaw出席欧盟区块链生态论坛，AWS

城市大看|2020怎么穿出时髦感？泫雅示范最新潮流！大秀细腰美腿打造好身材

台风“白鹿”在福建东山沿海登陆暂未接到人员伤亡报告