首页猿问空对象引用上的“jav...

空对象引用上的“java.lang.String org.jsoup.nodes.Element.

Java

MM们 2022-06-23 17:47:58

我一直在尝试使用 Java 从网站获取字符串。这是我的代码：protected String doInBackground(String... urls) { try { gotten_next_date = Jsoup.connect("https://www.vividseats.com/nba-basketball/toronto-raptors-schedule.html") .get().getElementsByClass("productionsDate").first().text(); full_next = gotten_next_date; return full_next; } catch (IOException e) { return "Unable to retrieve data. URL may be invalid."; }我昨天写了这个并且效果很好，但是当我今天尝试时，由于某种原因它给了我这个错误：java.lang.NullPointerException: Attempt to invoke virtual method 'java.lang.String org.jsoup.nodes.Element.text()' on a null object reference我不明白为什么会这样。有人可以帮忙吗？编辑：我相信错误不会因为创建变量而发生，而是因为没有从网站接收元素。我认为这个问题被错误地标记为重复。

查看完整描述

1 回答

蝴蝶刀刀

TA贡献1801条经验获得超8个赞

你所做的应该可以正常工作。我已经运行过一次，但后来它停止工作。

问题是网站有一个反抓取机制，如果你在他们的网站上做了太多的请求，它会阻止你。

我建议你做的是：

添加userAgent()以将自己标识为机器人抓取工具。
阅读他们的服务条款以检查您是否被允许抓取他们的网站。
向他们发送一封电子邮件，告诉他们您的意图是什么，以及他们是否可以抓取他们网站的某些部分。

顺便说一句，如果你想调试正在发生的事情，我只是将 Jsoup 调用更改为：

String gotten_next_date =
                Jsoup.connect("https://www.vividseats.com/nba-basketball/toronto-raptors-schedule.html").get().html();

这将返回所请求页面的 html，如果你看，它没有任何有趣的东西。

<!doctype html>

<html>

<head>

(function(window){

try {

if (typeof sessionStorage !== 'undefined'){

sessionStorage.setItem('distil_referrer', document.referrer);

}

} catch (e){}

})(window);

</script>

</head>

<body>

</div>

</body>

更新：（来自 zack6849）如果您仔细查看head标签内部，最后一个meta标签暗示您正在被重定向到验证码页面：

如果您还搜索一下distilIdentificationBlock在 html 中找到的内容，您可以看到它与被阻止的爬虫有关。

希望它可以帮助您更好地了解正在发生的事情。

反对回复 2022-06-23

1 回答
0 关注
122 浏览

关注

添加回答

0/150

提交

取消

热搜

最近搜索清空

空对象引用上的“java.lang.String org.jsoup.nodes.Element.

空对象引用上的“java.lang.String org.jsoup.nodes.Element.

1 回答

添加回答