为了账号安全,请及时绑定邮箱和手机立即绑定

H5Py 和存储

H5Py 和存储

守着一只汪 2022-10-06 18:53:01
我正在编写一些代码,需要将一个非常大的 numpy 数组保存到内存中。numpy 数组实际上太大了,以至于我无法一次将其全部加载到内存中。但我可以分块计算数组。即我的代码看起来像:for i in np.arange(numberOfChunks):   myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = #... do some calculation由于我不能myArray一次全部加载到内存中,我想一次将它保存到一个“块”的文件中。即我想做这样的事情:for i in np.arange(numberOfChunks):   myArrayChunk = #... do some calculation to obtain chunk   saveToFile(myArrayChunk, indicesInFile=[(i*chunkSize):(i*(chunkSize+1)),:,:], filename)我知道这可以做到,h5py但我有点困惑如何做到这一点。我目前的理解是我可以这样做:import h5py# Make the fileh5py_file = h5py.File(filename, "a")# Tell it we are going to store a datasetmyArray = h5py_file.create_dataset("myArray", myArrayDimensions, compression="gzip")for i in np.arange(numberOfChunks):   myArrayChunk = #... do some calculation to obtain chunk   myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk但这就是我变得有点困惑的地方。我已经读过,如果你h5py像我写的那样索引一个数据类型myArray[(i*chunkSize):(i*(chunkSize+1)),:,:],那么这部分myArray现在已经被读入内存。所以可以肯定的是,在我上面的循环结束时,我现在还没有全部myArray记住吗?这如何拯救了我的记忆?同样,稍后,我想一次将一个块读入我的文件,做进一步的计算。即我想做类似的事情:import h5py# Read in the fileh5py_file = h5py.File(filename, "a")# Read in myArraymyArray = h5py_file['myArray']for i in np.arange(numberOfChunks):   # Read in chunk   myArrayChunk = myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]   # ... Do some calculation on myArrayChunk但是到这个循环结束时,整个myArray现在都在记忆中了吗?我对何时myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]在内存中以及何时不在内存中感到有些困惑。请有人解释一下。
查看完整描述

1 回答

?
GCT1015

TA贡献1827条经验 获得超4个赞

你有基本的想法。说“保存到内存”时要小心。NumPy 数组保存在内存 (RAM) 中。HDF5 数据保存在磁盘上(而不是内存/RAM!),然后访问(使用的内存取决于您的访问方式)。在第一步中,您将创建数据块并将其写入磁盘。在第二步中,您将分块访问磁盘中的数据。最后提供的工作示例。


使用h5py2 种读取数据的方式读取数据时:

返回 NumPy 数组:

myArrayNP = myArray[:,:,:]

返回 h5py 数据集对象,其操作类似于 NumPy 数组:

myArrayDS = myArray


区别:h5py 数据集对象不会一次全部读入内存。然后,您可以根据需要对它们进行切片。从上面继续,这是获取数据子集的有效操作:

myArrayChunkNP = myArrayDS[i*chunkSize):(i+1)*chunkSize),:,:]


我的示例还纠正了块大小增量方程中的 1 个小错误。你有:

myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk

你想要:

myArray[(i*chunkSize):(i+1)*chunkSize),:,:] = myArrayChunk


工作示例(写入和读取):


import h5py

import numpy as np


# Make the file

with h5py.File("SO_61173314.h5", "w") as h5w:


    numberOfChunks = 3

    chunkSize = 4

    print( 'WRITING %d chunks with w/ chunkSize=%d ' % (numberOfChunks,chunkSize) )

    # Write dataset to disk

    h5Array = h5w.create_dataset("myArray", (numberOfChunks*chunkSize,2,2), compression="gzip")


    for i in range(numberOfChunks):


       h5ArrayChunk = np.random.random(chunkSize*2*2).reshape(chunkSize,2,2)

       print (h5ArrayChunk)


       h5Array[(i*chunkSize):((i+1)*chunkSize),:,:] = h5ArrayChunk



with h5py.File("SO_61173314.h5", "r") as h5r:

    print( '/nREADING %d chunks with w/ chunkSize=%d/n' % (numberOfChunks,chunkSize) )


    # Access myArray dataset - Note: This is NOT a NumpPy array

    myArray = h5r['myArray']


    for i in range(numberOfChunks):


       # Read a chunk into memory (as a NumPy array)

       myArrayChunk = myArray[(i*chunkSize):((i+1)*chunkSize),:,:]


       # ... Do some calculation on myArrayChunk  

       print (myArrayChunk)


查看完整回答
反对 回复 2022-10-06
  • 1 回答
  • 0 关注
  • 112 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信