为了账号安全,请及时绑定邮箱和手机立即绑定

pyspark 使用 saveAsNewAPIHadoopFile 将 dstream

pyspark 使用 saveAsNewAPIHadoopFile 将 dstream

慕标5832272 2021-12-08 10:27:30
这是我的代码:  es_write_conf = {     ¦   "es.nodes" : ES_IP,     ¦   "es.port" : ES_PORT,     ¦   "es.resource" : "%s/%s" % (index, doc_type),     ¦   "es.input.json": "true",     ¦   # "es.mapping.rich.date": "true"     ¦   # "es.mapping.id": "guid"     }     dstream.foreachRDD(lambda es_rdd: es_rdd.saveAsNewAPIHadoopFile(     ¦   path="-",     ¦   outputFormatClass="org.elasticsearch.hadoop.mr.EsOutputFormat",     ¦   keyClass="org.apache.hadoop.io.NullWritable",     ¦   valueClass="org.elasticsearch.hadoop.mr.LinkedMapWritable",     ¦   conf=es_write_conf))我收到了这个警告WARN EsOutputFormat: Speculative execution enabled for reducer - consider disabling it to prevent data corruption我该如何解决这个警告?
查看完整描述

1 回答

?
慕丝7291255

TA贡献1859条经验 获得超6个赞

我通过这个解决问题


     es_write_conf = {

     ¦   "es.nodes" : ES_IP,

     ¦   "es.port" : ES_PORT,

     ¦   "es.resource" : "%s/%s" % (index, doc_type),

     ¦   "es.input.json": "true",

     ¦   "mapred.reduce.tasks.speculative.execution": "false",

     ¦   "mapred.map.tasks.speculative.execution": "false",

     ¦   # "es.mapping.rich.date": "true"

     ¦   # "es.mapping.id": "guid"

     }


     dstream.foreachRDD(lambda es_rdd: es_rdd.saveAsNewAPIHadoopFile(

     ¦   path="-",

     ¦   outputFormatClass="org.elasticsearch.hadoop.mr.EsOutputFormat",

     ¦   keyClass="org.apache.hadoop.io.NullWritable",

     ¦   valueClass="org.elasticsearch.hadoop.mr.LinkedMapWritable",

     ¦   conf=es_write_conf))


查看完整回答
反对 回复 2021-12-08
  • 1 回答
  • 0 关注
  • 337 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信