所以我得到了一个包含 120 行和 124 列的数据集。从属列是人的字符串名称。总共有20个不同的名字。我想从每个类中提取两行(因此为每个类提取两行具有相同名称的行)以便我可以用它创建一个测试集。任何帮助将不胜感激。谢谢
1 回答

三国纷争
TA贡献1804条经验 获得超7个赞
您可以使用以下函数来执行此操作:
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,stratify =y)
这里,
X = 包含所有自变量的数据框。
y = 具有因变量的序列。
test_size = 你想要作为测试大小的百分比,这里是 20%。
stratify = 所有类别的平均分配,在你的例子中是 20 个人的名字。
添加回答
举报
0/150
提交
取消