为了账号安全,请及时绑定邮箱和手机立即绑定

有效地计算文本文件的行数。(200mb +)

有效地计算文本文件的行数。(200mb +)

PHP
守着一只汪 2019-11-11 16:02:10
我刚刚发现我的脚本给了我一个致命错误:Fatal error: Allowed memory size of 268435456 bytes exhausted (tried to allocate 440 bytes) in C:\process_txt.php on line 109那行是这样的:$lines = count(file($path)) - 1;因此,我认为将文件加载到内存中并计算行数有困难,是否有更有效的方法可以在没有内存问题的情况下执行此操作?我需要计算行数范围从2MB到500MB的文本文件。有时候也许是演出。谢谢大家的帮助。
查看完整描述

3 回答

?
喵喔喔

TA贡献1735条经验 获得超5个赞

这将使用较少的内存,因为它不会将整个文件加载到内存中:


$file="largefile.txt";

$linecount = 0;

$handle = fopen($file, "r");

while(!feof($handle)){

  $line = fgets($handle);

  $linecount++;

}


fclose($handle);


echo $linecount;

fgets将一行加载到内存中(如果$length省略第二个参数,它将继续从流中读取数据,直到到达行尾为止,这就是我们想要的)。如果您关心墙壁时间和内存使用情况,这仍然不太可能像使用PHP之外的其他工具一样快。


唯一的危险是,如果有任何行特别长(如果遇到2GB的文件而没有换行符该怎么办?)。在这种情况下,最好将其分成几大块,然后计算行尾字符:


$file="largefile.txt";

$linecount = 0;

$handle = fopen($file, "r");

while(!feof($handle)){

  $line = fgets($handle, 4096);

  $linecount = $linecount + substr_count($line, PHP_EOL);

}


fclose($handle);


echo $linecount;


查看完整回答
反对 回复 2019-11-11
?
holdtom

TA贡献1805条经验 获得超10个赞

使用fgets()调用循环是一个很好的解决方案,并且最容易编写,但是:


即使在内部使用8192字节的缓冲区读取文件,您的代码仍然必须为每一行调用该函数。


从技术上讲,如果您正在读取二进制文件,则单行可能大于可用内存。


此代码读取每个文件的大小为8kB的块,然后计算该块中换行的数量。


function getLines($file)

{

    $f = fopen($file, 'rb');

    $lines = 0;


    while (!feof($f)) {

        $lines += substr_count(fread($f, 8192), "\n");

    }


    fclose($f);


    return $lines;

}

如果每行的平均长度最大为4kB,则您将已经开始保存函数调用,并且在处理大文件时这些函数可能会累加起来。


基准测试

我对一个1GB的文件进行了测试;结果如下:


             +-------------+------------------+---------+

             | This answer | Dominic's answer | wc -l   |

+------------+-------------+------------------+---------+

| Lines      | 3550388     | 3550389          | 3550388 |

+------------+-------------+------------------+---------+

| Runtime    | 1.055       | 4.297            | 0.587   |

+------------+-------------+------------------+---------+

时间以秒为单位实时测量,请参阅此处的实际含义


查看完整回答
反对 回复 2019-11-11
?
慕森卡

TA贡献1806条经验 获得超8个赞

简单的面向对象解决方案


$file = new \SplFileObject('file.extension');


while($file->valid()) $file->fgets();


var_dump($file->key());

更新资料

另一种实现方法是PHP_INT_MAXin SplFileObject::seek方法。


$file = new \SplFileObject('file.extension', 'r');

$file->seek(PHP_INT_MAX);


echo $file->key() + 1; 


查看完整回答
反对 回复 2019-11-11
  • 3 回答
  • 0 关注
  • 420 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信