海量日记入库

程序员文章站 2022-06-13 21:48:22

...

海量日志入库
日志目录下有10个日志文件，每个文件压缩后大约60M左右，文件后缀是.gz,如a.gz、b.gz等，文件中行的内容是id=2112112,[email protected],等等其它，
id=2112112,[email protected],等等其它，
id=2112112,[email protected],等等其它，
id=2112112,[email protected],等等其它，
id=2112112,[email protected],等等其它，
id=2112112,[email protected],等等其它，
id=2112112,[email protected],等等其它，

现在是想把这个目录下的每个文件的所有内容insert到数据库中，数据库中的表，是通过email分表的，大约是log_1，log_2,一直到log_1000的分表的，请问下详细的解决方案，比如说怎么样能保证到每个文件在很快的时间内入库，使得脚本执行更有效率
先贴一段代码


		error_reporting(E_ALL & ~E_NOTICE);
		//接收参数
		$mysql_host  = XX.XX.XX.XX;
		$mysql_user  = XXX;
		$mysql_pass  = XX;
		$mysql_port  = 3306;
		$mysql_db    = 'test';		
		$table_pre   = 'log_';
		$gz_log_file = a.gz;
		//脚本执行日志
		$exec_log = '/data_log/record.txt';	
	    file_put_contents ($exec_log,'*****************************************START***********************************'."\r\n",FILE_APPEND );
		file_put_contents ($exec_log,'param is mysql_host='.$mysql_host.' mysql_user='.$mysql_user.' mysql_pass='.$mysql_pass.' mysql_port='.$mysql_port.' mysql_db='.$mysql_db.' table_pre='.$table_pre.' gz_log_file='.$gz_log_file.' start_time='.date("Y-m-d H:i:s")."\r\n",FILE_APPEND );		
		//读日志入库		 
		$z_handle = gzopen($gz_log_file,'r');
		$time_start = microtime_float();
		$mysql_value_ary = array();
		//链接数据库
		$conn = mysql_connect("$mysql_host:$mysql_port",$mysql_user,$mysql_pass);
		if (!$conn) {
			file_put_contents ($exec_log,'Could not connect database error, error='.mysql_error()."\r\n",FILE_APPEND );	
			exit;
		}
		$selec_db = mysql_select_db($mysql_db);
		if(!$selec_db){
			file_put_contents ($exec_log,'select database error, database='.$mysql_db."\r\n",FILE_APPEND );	
			exit;
		}
		while(!gzeof($z_handle)){
			$each_gz_line = gzgets($z_handle, 4096);
			$line_to_array = explode("\t",$each_gz_line);
			//过滤无效日志
			if(!empty($line_to_array[3]) && !empty($line_to_array[2]) && !empty($line_to_array[4])){
				$insert_value = "('".$line_to_array[3]."','".$line_to_array[2]."','".$line_to_array[1]."','".$line_to_array[4]."','".$line_to_array[0]."') ";
				$insert_sql = "insert into $table_name (uid,email,ip,ctime) values $insert_value ";
				$table_id = abs(crc32($line_to_array[2]) % 1000);
				$table_name = $table_pre.$table_id;
				$result = mysql_query($insert_sql); 
				if(!$result){
					//如果插入错误，则记录日志
					file_put_contents ($exec_log,'table_name='.$table_name.' email='.$line_to_array[2]."\r\n",FILE_APPEND );	
				}
			}
		}
		$time_end = microtime_float();
		$diff = $time_end - $time_start;
		file_put_contents ($exec_log,'success to insert database,log_file is '.$gz_log_file.' time-consuming is='.$diff."s \r\n",FILE_APPEND );
		file_put_contents ($exec_log,'*******************************************END***********************************'."\r\n",FILE_APPEND );
		gzclose($z_handle);

上面的代码执行起来，很慢，不可忍受，请大牛帮忙
------解决方案--------------------
表类型修改为：InnoDB，然后用事务实施，
还不行的话，换load file
------解决方案--------------------
对于innodb，开事物应该不会更慢，因为就算不开，每一条语句也都是一个事物，所以如果是只开启一个事物，最后commit一次，应该会比每条语句都begin一下，commit一下要快的（但我记得开了事物也不会快多少）；但myisam在只有一个插入线程执行，并且表内总数据量比较小的场合下，肯定比innodb要快的，尤其是只有60M数据的环境下

load data infile 绝对会快很多，但你文件得先转换成另一个"xxx \t xxx"的形式，然后再load data infile，应该比一条条插入能快几倍
------解决方案--------------------
load data吧，load进去以后比对一下条数，别搞什么事务。出错几率很低的，即使出错了，删除以后重新导入也快。PS，这数据不叫海量数据。
------解决方案--------------------
不知道为什么要放在数据库中
按你的描述，数据文件展开后，每个在 60*20M左右，甚至更高
你一条一条的插入，不慢才怪呢
------解决方案--------------------
历史数据入库，只是一次性工作。无所谓“效率”
你可以直接将文件导入 text 字段后，再由 update 指令拆分

如果不打算修改日志处理方式，那么将日志增量追加入库也只是一个定期工作（周期至少大于等于1天）
同样也没效率的概念

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn核实处理。

海量日记入库

效能日记本是什么怎么用

飞机入库后很尴尬

Illustrator制作时尚复古的皮质旅行日记本图标教程

挖掘海量长尾关键词的10大秘籍

PHP+MySQL实现海量数据导入导出的总结：is_numbric函数的坑

基于PHP的简单采集数据入库程序【续篇】

基于PHP的简单采集数据入库程序

帝联：云时代的CDN让海量数据更加便捷安全

利用支付宝校园日记13分钟吸粉11万（附：进去、运营、推广流程）

ps图层样式怎么导入? PS把图层样式导入库的教程

海量日记入库

效能日记本是什么 怎么用

飞机入库后很尴尬

Illustrator制作时尚复古的皮质旅行日记本图标教程

挖掘海量长尾关键词的10大秘籍

PHP+MySQL实现海量数据导入导出的总结：is_numbric函数的坑

基于PHP的简单采集数据入库程序【续篇】

基于PHP的简单采集数据入库程序

帝联：云时代的CDN让海量数据更加便捷安全

利用支付宝校园日记13分钟吸粉11万（附：进去、运营、推广流程）

ps图层样式怎么导入? PS把图层样式导入库的教程

效能日记本是什么怎么用