我经常使用 pd.read_csv() 加载 csv 文件,而且它们通常具有不同数据类型的列。这很好,因为我可以将字典传递给 dtype 参数,其中所有列都使用它们各自的数据类型映射出来。我发现的问题是,有时这些 csv 文件有很多列,并且生成的字典非常长。很多时候,字典看起来像这样:df_dtype = { 'A' : str, 'B' : str, 'C' : int}但是当 df 很长时,字典开始看起来像这样:df_dtype = { 'A' : str, 'B' : str, 'C' : int, 'D' : str, 'E' : str, 'F' : int, 'G' : str, 'H' : str, 'I' : int, 'J' : str, 'K' : str, 'L' : int, 'M' : str, 'N' : str, 'O' : int, 'P' : str, 'Q' : str, 'R' : int, 'S' : str, 'T' : str, 'U' : int, 'V' : str, 'W' : str, 'X' : int, 'Y' : str, 'Z' : str}这很丑陋,并且使代码的可读性降低。这样做的最佳做法是什么?我应该将字典作为目录中的单独文件吗?有没有更漂亮的格式化方式?
1 回答
慕的地10843
TA贡献1785条经验 获得超8个赞
一种想法是更改格式以指定 dict 键的类型和列表中的列名:
d_types = {str: ['A', 'B', 'D'],
int: ['C','F'],
float: ['G']}
#swap key values in dict
#http://stackoverflow.com/a/31674731/2901002
d = {k: oldk for oldk, oldv in d_types.items() for k in oldv}
print (d)
{'A': <class 'str'>, 'B': <class 'str'>, 'D': <class 'str'>,
'C': <class 'int'>, 'F': <class 'int'>, 'G': <class 'float'>}
添加回答
举报
0/150
提交
取消