1 回答
TA贡献1773条经验 获得超3个赞
我终于让我的 DAG 工作了。他建议我尝试使用 docker-compose,它也在 puckle/docker-airflow github repo 中列出。不过,我最终使用了 docker-compose-LocalExecutor.yml 文件而不是 Celery Executor。我还需要进行一些小的故障排除和更多的配置。首先,我使用了包含示例数据库的现有 MSSQL 容器,并使用docker commit mssql_container_name. 我这样做的唯一原因是为了节省必须恢复备份样本数据库的时间;如果需要,您可以随时将备份复制到容器中并在以后恢复它们。然后我将我的新图像添加到现有的 docker-compose-LocalExecutor.yml 文件中,如下所示:
version: '2.1'
services:
postgres:
image: postgres:9.6
environment:
- POSTGRES_USER=airflow
- POSTGRES_PASSWORD=airflow
- POSTGRES_DB=airflow
mssql:
image: dw:latest
ports:
- "1433:1433"
webserver:
image: puckel/docker-airflow:1.10.2
restart: always
depends_on:
- postgres
- mssql
environment:
- LOAD_EX=n
- EXECUTOR=Local
#volumes:
#- ./dags:/usr/local/airflow/dags
# Uncomment to include custom plugins
# - ./plugins:/usr/local/airflow/plugins
ports:
- "8080:8080"
command: webserver
healthcheck:
test: ["CMD-SHELL", "[ -f /usr/local/airflow/airflow-webserver.pid ]"]
interval: 30s
timeout: 30s
retries: 3
请注意,dw是我命名的基于 mssql 容器的新映像。接下来,我将文件重命名为docker-compose.yml以便我可以轻松运行docker-compose up(不确定是否有直接指向不同 YAML 文件的命令)。一切都启动并运行后,我导航到 Airflow UI 并配置了我的连接。注意:由于您使用的是 docker-compose,因此您不需要知道其他容器的 IP 地址,因为它们使用了我在 此处发现的 DNS 服务发现。然后为了测试连接,我转到数据分析进行临时查询,但连接不存在。这是因为 puckle/docker-airflow 图像没有pymssql安装。所以只需 bash 进入容器docker exec -it airflow_webserver_container bash并安装它pip install pymssql --user。退出容器并使用docker-compose restart. 一分钟后,一切正常。我的连接出现在 Ad hoc Query 中,我可以成功选择数据。最后,我打开了我的 DAG,调度程序把它捡起来,一切都成功了!花了数周的谷歌搜索后,超级放心。感谢@y2k-shubham 的帮助,并对@Tomasz 给予了极大的感谢,在他在 r/datascience subreddit 上发表了关于 Airflow 的精彩而详尽的帖子后,我实际上联系了他。
添加回答
举报