2 回答
TA贡献2012条经验 获得超12个赞
为了它的价值,我将 Pandas 数据帧保存到 Postgres 数据库,并且我想保留时区索引。我使用以下代码:
class db_JsonEncodedDataFrameWithTimezone(db.TypeDecorator):
"""Enables JSON storage by encoding and decoding on the fly."""
impl = db.Text
def process_bind_param(self, value, dialect):
if value is not None and isinstance(value, pd.DataFrame):
timezone = value.index.tz.zone
df_json = value.to_json(orient="index")
data = {'timezone': timezone, 'df': df_json, 'index_name': value.index.name}
value = json.dumps(data)
return value
def process_result_value(self, value, dialect):
if value is not None:
data = json.loads(value)
df = pd.read_json(data['df'], orient="index")
df.index = df.index.tz_localize('UTC')
df.index = df.index.tz_convert(data['timezone'])
df.index.name = data['index_name']
value = df
return value
def compare_values(self, x, y):
from pandas.util.testing import assert_frame_equal
try:
assert_frame_equal(x, y, check_names=True, check_like=True)
return True
except (AssertionError, ValueError, TypeError):
return False
TA贡献1886条经验 获得超2个赞
如果我正确理解了您的问题,那么您正在寻找一种保留数据帧数据类型的序列化方式。
问题是交换格式在内部使用的类型很少:只有 csv 的字符串、json 的字符串和数字。当然,有一些方法可以在读取时提供格式提示(csv 中日期列的日期格式),并且在提取后通常很容易转换回正确的类型,我认为您希望采用更自然的方式。正如 Attack68 所建议的那样,您可以使用数据库,但例如 SQLite 数据库将关闭,因为它没有内部日期类型。
恕我直言,一个简单的方法是依靠好的旧pickle
模块。毕竟,数据帧是一个包含其他 Python 对象的 Python 对象,所以 pickle 擅长序列化它。唯一要记住的一点是,在反序列化时,必须在调用之前导入熊猫pickle.load
。
但是我刚刚用包含各种数据类型的(小)数据帧进行了测试,pickle 非常适合正确保存和恢复它们。
添加回答
举报