为了账号安全,请及时绑定邮箱和手机立即绑定

数据分析项目如何进行版本控制

数据分析项目如何进行版本控制

Git
不负相思意 2018-11-19 14:44:51
一个数据分析项目如何有效的进行版本控制。在哪些方面需要版本控制,哪些不需要版本控制。数据分析项目中生成的图表该如何管理。
查看完整描述

1 回答

?
幕布斯7119047

TA贡献1794条经验 获得超8个赞


基本上我的方案是使用jupyter notebook。将一些中间结果(采用Pickle储存)和Pipeline使用的函数放在工具模块里面,然后通过Notebook的标号来显示版本,最后用git来做版本控制。比如:

-- project
  |__ data:存放原始数据、中间数据
      |__ SQL:存放原始数据所需要的SQL
      |__ pickle:存放原始数据、中间数据
  |__ src:存放文档或者Notebook需要引用的图片资源
  |__ notebooks:
      |__ 0.0 contents and introduction.ipnb:介绍整个项目,以及建立与下面notebook链接。
      |__ 1.0 方案一的EDA.ipnb
      |__ 1.1 方案一.ipnb
      |__ 1.2 方案一评估.ipnb
      |__ 2.0 方案二的EDA.ipnb
      |__ ...
      |__ end.0 跨方案比较结果.ipnb
  |__ temp_module:写一些要跨notebook引用的方法。
  |__ README


查看完整回答
反对 回复 2018-11-19
  • 1 回答
  • 0 关注
  • 760 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信