我下载了完整的维基百科档案 14.9gb,我正在运行这行代码:wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2")我的代码似乎没有通过这里,它已经运行了一个小时,我知道目标文件很大,但我想知道我怎么知道它正在工作,或者它的预期时间是多少去完成?
1 回答
慕尼黑的夜晚无繁华
TA贡献1864条经验 获得超6个赞
您通常可以使用特定于操作系统的监视工具(例如top在 Linux/Unix/MacOS 系统上)来了解您的 Python 进程是否正在密集计算、使用内存或继续使用 IO。
即使是在第一次实例化时完成的简单词汇扫描WikiCorpus也可能需要很长时间才能解压缩和标记/计数,所以我不会对超过一小时的运行时间感到惊讶。(如果它在这个简单的操作中依赖于任何虚拟内存/交换,从输出top或类似的监控中可以清楚地看出,那会进一步减慢速度。)
作为比较基准,您可以使用以下 shell 命令来计算仅解压所需的时间:
% time bzcat enwiki-latest-pages-articles.xml.bz2 | wc
(在我的 MacBook Pro 上进行的快速测试表明,15GB 的 BZ2 数据可能需要 30 分钟以上才能解压。)
在某些情况下,在INFO级别打开 Python 日志记录将显示gensim模块的进度信息,尽管我不确定WikiCorpus在完成之前会显示任何内容。启用INFO级别日志记录可以很简单:
import logging
logging.getLogger().setLevel(logging.INFO)
添加回答
举报
0/150
提交
取消