为了账号安全,请及时绑定邮箱和手机立即绑定

如何从 gensim 判断 WikiCorpus 是否正常工作?

如何从 gensim 判断 WikiCorpus 是否正常工作?

红糖糍粑 2021-12-26 14:47:13
我下载了完整的维基百科档案 14.9gb,我正在运行这行代码:wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2")我的代码似乎没有通过这里,它已经运行了一个小时,我知道目标文件很大,但我想知道我怎么知道它正在工作,或者它的预期时间是多少去完成?
查看完整描述

1 回答

?
慕尼黑的夜晚无繁华

TA贡献1864条经验 获得超6个赞

您通常可以使用特定于操作系统的监视工具(例如top在 Linux/Unix/MacOS 系统上)来了解您的 Python 进程是否正在密集计算、使用内存或继续使用 IO。


即使是在第一次实例化时完成的简单词汇扫描WikiCorpus也可能需要很长时间才能解压缩和标记/计数,所以我不会对超过一小时的运行时间感到惊讶。(如果它在这个简单的操作中依赖于任何虚拟内存/交换,从输出top或类似的监控中可以清楚地看出,那会进一步减慢速度。)


作为比较基准,您可以使用以下 shell 命令来计算仅解压所需的时间:


% time bzcat enwiki-latest-pages-articles.xml.bz2 | wc

(在我的 MacBook Pro 上进行的快速测试表明,15GB 的 BZ2 数据可能需要 30 分钟以上才能解压。)


在某些情况下,在INFO级别打开 Python 日志记录将显示gensim模块的进度信息,尽管我不确定WikiCorpus在完成之前会显示任何内容。启用INFO级别日志记录可以很简单:


import logging

logging.getLogger().setLevel(logging.INFO)


查看完整回答
反对 回复 2021-12-26
  • 1 回答
  • 0 关注
  • 200 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信