上亿条数据(GB级)文件去重解决方案
程序员文章站
2022-04-15 11:40:14
...
1.准备待处理的文件
2.随便一个文件都有100000000条数据库,如果直接去重非常麻烦
3.一段php代码解决问题
define('FileIn', $argv[1]);
$time_start = microtime(true);
$count = 0;
function dump($data){
echo "<pre>";
var_dump($data);
echo "</pre>";
die();
}
function order_ByF(){
$list = fopen(FileIn, "r");
while(! feof($list)){
$line= fgets($list);
$index = substr($line, 0, 1);
/*file_put_contents("OutData/{$index}.txt",$line.PHP_EOL,FILE_APPEND);*/
file_put_contents("OutData/{$index}.txt",$line,FILE_APPEND);
$count++;
echo "{$count}:{$index}:{$line}";
}
}
order_ByF();
4.使用方法
#php orderByF.php s.txt
5.使用后会按首字母生成多个文件,然后再按每个单独的文件去重
推荐阅读