BeautifulSoup处理html文档的过程是怎么样的分为几个步骤
从我的个人经验上看,实际上,情况有点复杂,因为处理HTML需要几个步骤:解析这个 HTML把它解析为一个对象(比如一个文档对象)把它序列化"说的应该还是比较对的。前一段时间刚参加过一个学术工作坊,里面谈到了这个方面的内容,我就直接拿我们当时演示的内容做例子。开头两行主要是载入相关的模块:from bs4 import BeautifulSoupimport urllib2
然后开始解析html为一个对象,然后用BeautifulSoup处理一下:url="http://colleges.usnews.rankingsandreviews.com/best-colleges/rankings/national-universities/campus-ethnic-diversity"response = urllib2.urlopen(url)html = response.read()soup = BeautifulSoup(html)
之后要在这个对象里面找到要找的东西,就是网页里面的学校名字(School name),并把这些学校名字放到一个组里面(我猜应该是那个叫序列化的东西吧):tmp1 = soup.find_all("a", attrs={"class":"school-name"})
然后就可以随心所欲了,比如看看tmp1这个东西有多长或者第一个位置有什么东西:len(tmp1)tmp1
或者把里面的东西都打印出来:for x in school_names: print x
嗯 我猜就是这样。
■网友
这段话下面不是给了例子了吗,我没仔细看.不过我觉得是不是和命令行中的head(),tail()类似啊,读取部分,拿个上G的文档测试一下就知道了
■网友
多用,用熟就明白了,实在不行就和re混搭,俺就是混搭的
■网友
.py都是可读的吧。写个解析语句然后单步调试。对着文章里说的估计就能理解啦。
推荐阅读
- 济南垃圾处理单位“前分后混”将面临最高十万元罚款
- 汽车知识|捷达库存成灾,特价处理,4S店卖不动,大家都不差钱!
- 想要入门图像处理,应该从哪本书看起
- 学图像处理有哪些不错的书推荐
- 关于用phpfsocket 写Post, 模拟http 报文怎样写入要传输的处理数据
- python的html5lib这个库咋使用啊我在网上也没有找到相关文档
- 孩子|小孩发烧的处理方法有物理降温与药物退烧!但很多新手父母不会
- 在原码变补码时求反加一涉及最高位进位咋处理比如1.00000的补码是多少
- 广州白云警方通报巡逻车辆悬挂假牌视频:对有关人员依法依规进行处理
- 淘宝错判“虚假交易”后申诉也被驳回,客服态度蛮横,应当怎么样处理