7 回答
TA贡献1875条经验 获得超5个赞
SettingWithCopyWarning
创建它是为了标记可能令人困惑的“链式”赋值,例如以下内容,它们并不总是按预期工作,特别是当第一个选择返回副本时。[ 有关背景讨论,请参见GH5390和GH5597。]
df[df['A'] > 2]['B'] = new_val # new_val not set in df
该警告提供了重写建议,如下所示:
df.loc[df['A'] > 2, 'B'] = new_val
但是,这不适合您的使用,相当于:
df = df[df['A'] > 2]df['B'] = new_val
虽然很明显你不关心写回到原始帧(因为你覆盖了对它的引用),但遗憾的是这种模式不能与第一个链式赋值示例区分开来,因此(误报)警告。如果您想进一步阅读,可以在索引文档中解决误报的可能性。您可以使用以下分配安全地禁用此新警告。
pd.options.mode.chained_assignment = None # default='warn'
TA贡献1998条经验 获得超6个赞
熊猫数据帧复制警告
当你去做这样的事情时:
quote_df = quote_df.ix[:,[0,3,2,1,4,5,8,9,30,31]]
pandas.ix 在这种情况下,返回一个新的,独立的数据帧。
您决定在此数据框中更改的任何值都不会更改原始数据框。
这是大熊猫试图警告你的事情。
为什么.ix是个坏主意
该.ix对象试图做不止一件事,对于任何读过干净代码的人来说,这是一种强烈的气味。
鉴于此数据框:
df = pd.DataFrame({"a": [1,2,3,4], "b": [1,1,2,2]})
两种行为:
dfcopy = df.ix[:,["a"]]
dfcopy.a.ix[0] = 2
行为一:dfcopy现在是一个独立的数据框架。改变它不会改变df
df.ix[0, "a"] = 3
行为二:这会更改原始数据帧。
请.loc改用
大熊猫开发人员认识到该.ix对象非常[推测性],因此创建了两个新对象,这有助于数据的加入和分配。(另一个.iloc)
.loc 更快,因为它不会尝试创建数据的副本。
.loc 用于修改现有的数据帧,这样可以提高内存效率。
.loc 是可预测的,它有一种行为。
解决方案
您在代码示例中所做的是加载包含大量列的大文件,然后将其修改为更小。
该pd.read_csv功能可以帮助您解决很多问题,并且可以更快地加载文件。
所以不要这样做
quote_df = pd.read_csv(StringIO(str_of_all), sep=',', names=list('ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefg')) #dtype={'A': object, 'B': object, 'C': np.float64}
quote_df.rename(columns={'A':'STK', 'B':'TOpen', 'C':'TPCLOSE', 'D':'TPrice', 'E':'THigh', 'F':'TLow', 'I':'TVol', 'J':'TAmt', 'e':'TDate', 'f':'TTime'}, inplace=True)
quote_df = quote_df.ix[:,[0,3,2,1,4,5,8,9,30,31]]
做这个
columns = ['STK', 'TPrice', 'TPCLOSE', 'TOpen', 'THigh', 'TLow', 'TVol', 'TAmt', 'TDate', 'TTime']
df = pd.read_csv(StringIO(str_of_all), sep=',', usecols=[0,3,2,1,4,5,8,9,30,31])
df.columns = columns
这只会读取您感兴趣的列,并正确命名。不需要使用邪恶的.ix物体做神奇的东西。
添加回答
举报