BeautifulSoup处理html文档的过程是怎么样的分为几个步骤

从我的个人经验上看,实际上,情况有点复杂,因为处理HTML需要几个步骤:解析这个 HTML把它解析为一个对象(比如一个文档对象)把它序列化"说的应该还是比较对的。前一段时间刚参加过一个学术工作坊,里面谈到了这个方面的内容,我就直接拿我们当时演示的内容做例子。开头两行主要是载入相关的模块:from bs4 import BeautifulSoupimport urllib2然后开始解析html为一个对象,然后用BeautifulSoup处理一下:url="http://colleges.usnews.rankingsandreviews.com/best-colleges/rankings/national-universities/campus-ethnic-diversity"response = urllib2.urlopen(url)html = response.read()soup = BeautifulSoup(html)之后要在这个对象里面找到要找的东西,就是网页里面的学校名字(School name),并把这些学校名字放到一个组里面(我猜应该是那个叫序列化的东西吧):tmp1 = soup.find_all("a", attrs={"class":"school-name"})然后就可以随心所欲了,比如看看tmp1这个东西有多长或者第一个位置有什么东西:len(tmp1)tmp1或者把里面的东西都打印出来:for x in school_names: print x嗯 我猜就是这样。
■网友
这段话下面不是给了例子了吗,我没仔细看.不过我觉得是不是和命令行中的head(),tail()类似啊,读取部分,拿个上G的文档测试一下就知道了
■网友
多用,用熟就明白了,实在不行就和re混搭,俺就是混搭的
■网友
.py都是可读的吧。写个解析语句然后单步调试。对着文章里说的估计就能理解啦。


    推荐阅读