大数据集的特征缩放

我正在尝试使用深度学习模型进行时间序列预测，在将数据传递给模型之前，我想缩放不同的变量，因为它们的范围大不相同。我通常“即时”完成此操作：加载数据集的训练子集，从整个子集中获取缩放器，存储它，然后在我想使用它进行测试时加载它。现在数据非常大，我不会一次加载所有训练数据进行训练。我怎样才能获得定标器？先验我想到做一次加载所有数据的操作，只是为了计算缩放器（通常我使用 sklearn 缩放器，如 StandardScaler），然后在我进行训练过程时加载它。这是一种常见的做法吗？如果是，如果将数据添加到训练数据集中你会怎么做？可以组合缩放器以避免一次性操作而只是“更新”缩放器吗？

查看完整描述