import urllib2
url='http://www.baidu.com/s?wd=cloga'content=urllib2.urlopen(url).read()import re
urls_pat=re.compile(r'<span class="g">(.*?)</span>')
siteUrls=re.findall(results_pat,content)
strip_tag_pat=re.compile(r'<.*?>')
file=open('results000.csv','w')for i in results:
i0=re.sub(strip_tag_pat,'',i)
i0=i0.strip()
i1=i0.split(' ')
date=i1[-1]
siteUrl=''.join(i1[:-1])
rank+=1
file.write(date+','+siteUrl+','+str(rank)+'\n')
file.close()
1 回答

LEATH
TA贡献1936条经验 获得超6个赞
显而易见,该代码是无法正常运行的。第一个问题是第六行中results_pat应该改成urls_pat;第二个问题,第九行results更改为siteUrls;第三个问题,第九行前加入rank = 0
;
其实该代码的目的是提取出指定百度搜索页面的所有链接以及日期,至于rank,我的猜测是顺序,不知是否正确。
添加回答
举报
0/150
提交
取消