课程
                    
                        /后端开发
                        
                            /Python
                        
                        /Python开发简单爬虫

soup.find()总是提示我SyntaxError: non-default argument follows default argument

from bs4 import BeautifulSoup
import re
import urllib.parse
from urllib.parse import urljoin
import urllib.request


class HtmlParser(object):

    def _get_new_urls(self,page_url , soup):
        print("get_new_urls")
        new_urls = set()
        links = soup.find_all('a' , href=re.compile(r"/view/\d+\.htm"))
        for link in links:
            new_url = link['href']
            new_full_url = urllib.parse.urljoin(page_url,new_url)
            new_url.add(new_full_url)
        return new_urls

    def _get_new_dataa(self, page_url, soup):

        print("in parse def _get_new_data")

        res_data = {}

        # url

        res_data['url'] = page_url

        # <dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1>

        title_node = soup.find('dd', class_="lemmaWgt-lemmaTitle-title").find("h1")

        res_data['title'] = title_node.get_text()

        # <div class="lemma-summary" label-module="lemmaSummary">

        summary_node = soup.find('div', class_="lemma-summary")

        res_data['summary'] = summary_node.get_text()

        print ("get_over")

        return res_data

    def _get_new_data(self,page_url,soup):
        print("get_new_data")
        res_data = {}
        res_data['url'] = page_url
        title_node = soup.find('dd', attrs={"class":"lemmaWgt-lemmaTitle-title"}).find('h1')
        res_data['title'] = title_node.get_text()
        summary_node = soup.find('div', attrs={"class":"lemma-summary"})
        res_data['summary'] = summary_node.get_text()
        return res_data

    def parse(self,page_url,html_cont):
        print("parse")
        if page_url is None or html_cont is None:
            return

        soup = BeautifulSoup(html_cont,'html.parser',from_encoding='utf-8')
        new_urls = self._get_new_urls(page_url,soup)
        new_data = self._get_new_data(page_url, soup)
        return  new_urls,new_data

然后提示我错误

C:\Users\Administrator\AppData\Local\Programs\Python\Python35\python.exe D:/要用的/python/text/spider_main.py
Traceback (most recent call last):
  File "D:/要用的/python/text/spider_main.py", line 1, in <module>
    from text import url_manager, html_downloader, html_parser, html_outputer
  File "D:\要用的\python\text\html_parser.py", line 1, in <module>
    from bs4 import BeautifulSoup
  File "C:\Users\Administrator\AppData\Roaming\Python\Python35\site-packages\bs4\__init__.py", line 35, in <module>
    from .builder import builder_registry, ParserRejectedMarkup
  File "C:\Users\Administrator\AppData\Roaming\Python\Python35\site-packages\bs4\builder\__init__.py", line 7, in <module>
    from bs4.element import (
  File "C:\Users\Administrator\AppData\Roaming\Python\Python35\site-packages\bs4\element.py", line 1273
    def find(self, name: object = None, attrs: object = {}, recursive: object = True, text: object = None,
                ^
SyntaxError: non-default argument follows default argument

我不知道我的find函数哪里错了提示我要添加变量不知道怎么弄有没有人可以帮下我麻烦了很急

慕容9778914

2017-05-07

源自：Python开发简单爬虫 7-5

关注问题我要回答

1690

操作

收起

1 回答

SElinux红帽
2017-05-08

print '我估计没多少人帮你看了，毫无头绪的代码'.encode('utf-8')

0 回复有任何疑惑可以回复我~

收起回答

0/150

提交

取消

Python开发简单爬虫

参与学习 227670 人
解答问题 1219 个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

soup.find()总是提示我SyntaxError: non-default argument follows default argument

我要回答关注问题

热搜

最近搜索清空

soup.find()总是提示我SyntaxError: non-default argument follows default argument

1 回答

soup.find()总是提示我SyntaxError: non-default argument follows default argument