BeautifulSoup处理html文档的过程是怎么样的分为几个步骤从我的个人经

从我的个人经验上看，实际上，情况有点复杂，因为处理HTML需要几个步骤：解析这个 HTML把它解析为一个对象(比如一个文档对象)把它序列化"说的应该还是比较对的。前一段时间刚参加过一个学术工作坊，里面谈到了这个方面的内容，我就直接拿我们当时演示的内容做例子。开头两行主要是载入相关的模块：from bs4 import BeautifulSoupimport urllib2然后开始解析html为一个对象，然后用BeautifulSoup处理一下：url="http://colleges.usnews.rankingsandreviews.com/best-colleges/rankings/national-universities/campus-ethnic-diversity"response = urllib2.urlopen(url)html = response.read()soup = BeautifulSoup(html)之后要在这个对象里面找到要找的东西，就是网页里面的学校名字（School name），并把这些学校名字放到一个组里面（我猜应该是那个叫序列化的东西吧）：tmp1 = soup.find_all("a", attrs={"class":"school-name"})然后就可以随心所欲了，比如看看tmp1这个东西有多长或者第一个位置有什么东西：len(tmp1)tmp1或者把里面的东西都打印出来：for x in school_names: print x嗯我猜就是这样。
■网友
这段话下面不是给了例子了吗,我没仔细看.不过我觉得是不是和命令行中的head(),tail()类似啊,读取部分,拿个上G的文档测试一下就知道了
■网友
多用，用熟就明白了，实在不行就和re混搭，俺就是混搭的
■网友
.py都是可读的吧。写个解析语句然后单步调试。对着文章里说的估计就能理解啦。

BeautifulSoup处理html文档的过程是怎么样的分为几个步骤

推荐阅读

在新疆开青年客栈应该具备哪些条件

铲史人|有三次机会夺取天下，可惜他都错失了，三国条件最好的人

剑指苍穹|骑兵与军马的告别，泪目！桑科草原见证

吃货|粗粮虽好，但3类人千万别吃，3类人一定要少吃！

显矮|女人身高不到160，3种鞋子尽量不要去碰，不仅显矮更土到掉渣

任豪,大海和月亮的故事|文采不错！任豪借大海和月亮的故事回应恋情：月亮离开了大海平静如初

北京明年高考增加英语口语考试-明年北京高考口语加听力共计50分

国企|工作之后才明白，“社招”和“校招”的差距，工资不过是其中之一

怀孕可以吃白醋吗？怀孕吃什么比较好

?服务200+厂商，这家公司是如何解决数据痛点的？

网友|秦岚：我的子宫使不使用关你什么事？不少网友夸赞姐姐好样的

刚刚通报：广东新增6例确诊，14例无症状感染者

18号红茶,鱼池乡红茶产业

鸡蛋|脱发还有扁平疣 “没办法”付了一万多？

早爆娱闻|说话直来直去，性子直的人

小莉说历史|中国为什么只有270枚核弹？于老一句话令世界折服

『享趣看娱乐』实力王者！领克05超能力掌控全局

恬妞|原创20岁获金马女主，现给马伊琍作配，两人第一次见面就聊前夫

健康元：父女半月净赚9亿！被罚36亿！

古树红茶能存放多少年,古树红茶有几年