为了账号安全,请及时绑定邮箱和手机立即绑定

Apache Nutch 跳过 URL 和截断

Apache Nutch 跳过 URL 和截断

红颜莎娜 2023-05-24 15:42:03
在我的 nutch-site.xml 中,我添加以下内容以停止截断;但是,在获取过程中,出现以下错误。我希望它停止截断并提供我需要的结果,我假设 -1 值可以实现。我正在使用 2.2.1 版。有任何想法吗?<property>    <name>http.content.limit</name>    <value>-1</value>    <description>The length limit for downloaded content using the http        protocol, in bytes. If this value is nonnegative (>=0), content longer        than it will be truncated; otherwise, no truncation at all. Do not        confuse this setting with the file.content.limit setting.    </description></property>线程“main”中的异常 java.lang.RuntimeException:作业失败:name=fetch,job_local1185573074_0001 在 org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:55) 在 org.apache.nutch.fetcher。 FetcherJob.run(FetcherJob.java:194) 在 org.apache.nutch.fetcher.FetcherJob.fetch(FetcherJob.java:219) 在 org.apache.nutch.fetcher.FetcherJob.run(FetcherJob.java:301) 在 org .apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 在 org.apache.nutch.fetcher.FetcherJob.main(FetcherJob.java:307)
查看完整描述

1 回答

?
FFIVE

TA贡献1797条经验 获得超6个赞

我通过删除http.content.limitnutch-site.xml 中的部分并添加parser.skip.truncated并将其设置为 false 来解决此问题。


<property>

    <name>parser.skip.truncated</name>

    <value>false</value>

    <description>Boolean value for whether we should skip parsing for truncated documents. By default this

        property is activated due to extremely high levels of CPU which parsing can sometimes take.

    </description>

</property>


查看完整回答
反对 回复 2023-05-24
  • 1 回答
  • 0 关注
  • 132 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信