为何多行文本内容最终只爬取到最后一行内容
老师,麻烦您看一下爬取introduce信息时,xpath写为
“.//div[@class='info']//div[@class='bd']/p[1]/text()”
然后赋值时
content_s = "".join(i_content.split())
您这边在pycharm终端中输出第一页时确实有多行内容分行提取到了,但是最后top250全部爬取时introduce只有最后一行的内容。
我完全按您的代码运行,爬取第一页时introduce就只有最后一行内容,top250全部爬取时也只有最后一行的内容。
于是我把xpath改成“.//div[@class='info']//div[@class='bd']/p[1]”,去掉了text()
然后content_s = "".join(i_content.split('<br>')) 但是这样一来虽然把多行内容都爬取到了,但是文本中又多出来空格和标签的信息,麻烦老师给个好一点的解决
办法。