一个数据分析项目如何有效的进行版本控制。在哪些方面需要版本控制,哪些不需要版本控制。数据分析项目中生成的图表该如何管理。
1 回答
幕布斯7119047
TA贡献1794条经验 获得超8个赞
基本上我的方案是使用jupyter notebook
。将一些中间结果(采用Pickle储存)和Pipeline使用的函数放在工具模块里面,然后通过Notebook的标号来显示版本,最后用git
来做版本控制。比如:-- project
|__ data:存放原始数据、中间数据
|__ SQL:存放原始数据所需要的SQL
|__ pickle:存放原始数据、中间数据
|__ src:存放文档或者Notebook需要引用的图片资源
|__ notebooks:
|__ 0.0 contents and introduction.ipnb:介绍整个项目,以及建立与下面notebook链接。
|__ 1.0 方案一的EDA.ipnb
|__ 1.1 方案一.ipnb
|__ 1.2 方案一评估.ipnb
|__ 2.0 方案二的EDA.ipnb
|__ ...
|__ end.0 跨方案比较结果.ipnb
|__ temp_module:写一些要跨notebook引用的方法。
|__ README
- 1 回答
- 0 关注
- 760 浏览
添加回答
举报
0/150
提交
取消