课程
                    
                        /后端开发
                        
                            /Python
                        
                        /Python开发简单爬虫

在抓取一个页面时HTMLParser.HTMLParseError: malformed start tag

在采用BeautifulSoup提取html页面时，出现HTMLParser.HTMLParseError: malformed start tag的错误，请问如何解决？

呆傻大哥

2016-10-11

源自：Python开发简单爬虫 6-4

关注问题我要回答

2229

操作

收起

1 回答

Snail_87103145
2016-10-11

$ pip install beautifulsoup4
$ pip install html5lib

Python:

from bs4 import BeautifulSoup

import urllib2

url = 'http://www.example.com'

page = urllib2.urlopen(url)

soup = BeautifulSoup(page.read(), 'html5lib')

links = soup.findAll('a')for link in links:
print link.string, link['href']

0 回复有任何疑惑可以回复我~

收起回答

0/150

提交

取消

Python开发简单爬虫

参与学习 227670 人
解答问题 1219 个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

在抓取一个页面时HTMLParser.HTMLParseError: malformed start tag

我要回答关注问题

热搜

最近搜索清空

在抓取一个页面时HTMLParser.HTMLParseError: malformed start tag

1 回答

在抓取一个页面时HTMLParser.HTMLParseError: malformed start tag