我有 6 个大数据 tsv 文件,我正在将这些文件读入 Google Collab 中的数据帧。但是,文件太大,Google Colab 无法处理。#Crew datadownloaded = drive.CreateFile({'id':'16'}) downloaded.GetContentFile('title.crew.tsv') df_crew = pd.read_csv('title.crew.tsv',header=None,sep='\t',dtype='unicode')#Ratings datadownloaded = drive.CreateFile({'id':'15'}) downloaded.GetContentFile('title.ratings.tsv') df_ratings = pd.read_csv('title.ratings.tsv',header=None,sep='\t',dtype='unicode')#Episode datadownloaded = drive.CreateFile({'id':'14'}) downloaded.GetContentFile('title.episode.tsv') df_episode = pd.read_csv('title.episode.tsv',header=None,sep='\t',dtype='unicode')#Name Basics datadownloaded = drive.CreateFile({'id':'13'}) downloaded.GetContentFile('name.basics.tsv') df_name = pd.read_csv('name.basics.tsv',header=None,sep='\t',dtype='unicode')#Principals datadownloaded = drive.CreateFile({'id':'12'}) downloaded.GetContentFile('title.pricipals.tsv') df_principals = pd.read_csv('title.pricipals.tsv',header=None,sep='\t',dtype='unicode')#Title Basics datadownloaded = drive.CreateFile({'id':'11'}) downloaded.GetContentFile('title.basics.tsv') df_title = pd.read_csv('title.basics.tsv',header=None,sep='\t',dtype='unicode')错误:您的会话在使用所有可用 RAM 后崩溃。运行时日志是这样说的:Google Collab 如何更好地处理 Ram?我所有 tsv 文件的总大小为 2,800 MB。请指教!
2 回答
人到中年有点甜
TA贡献1895条经验 获得超7个赞
最简单的方法是只在您使用数据时使用它并从内存中删除它。这可以有力地通过使垃圾收集器释放进行(见线程这里[https://stackoverflow.com/questions/1316767/how-can-i-explicitly-free-memory-in-python])1
如果你想在 Colab 中扩展你的 RAM,曾经有一个黑客,你故意导致它用完 RAM,然后它会为你提供更高的 RAM 运行时间。也可以使用 Colab pro 在运行时 -> 更改运行时类型下选择此选项。每月 10 美元,Colab pro 可能是您的不错选择。
我在这里看到了这个 hack ,但简而言之,只是在 while 循环中将一些内容附加到数组中,直到 RAM 耗尽。
a = [] while 1: a.append("1")
米琪卡哇伊
TA贡献1998条经验 获得超6个赞
Google colab 通常提供 12 GB 的免费内存,但我们可以通过向 google 支付任何费用来增加它。
只需编写三行代码,您就可以将 Ram 从 12GB 增加到 25GB
a = [ ] while(1): a.append('1')
试试这个它可能会有所帮助。
添加回答
举报
0/150
提交
取消