欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

解析优化MySQL插入方法的五个妙招

程序员文章站 2024-02-24 18:21:40
工作中遇到大概20万的数据插入操作,程序编完后发现运行超时,修改php最大执行时间到600,还是超时,检查超时前插入的数据条数推算一下,大概要处理40~60分钟才能插入完成...

工作中遇到大概20万的数据插入操作,程序编完后发现运行超时,修改php最大执行时间到600,还是超时,检查超时前插入的数据条数推算一下,大概要处理40~60分钟才能插入完成,看来程序写的效率太低,得优化了。
测试电脑配置:
cpu:amd sempron(tm) processor
内存:1.5g
语句如下:

复制代码 代码如下:

$sql = "insert into `test` (`test`) values ('$content')";
for ($i=1;$i<1000;$i++) {
mysql_query($sql);
}
mysql_unbuffered_query 运行三次执行时间分别为:
9.85321879387
9.43223714828
9.46858215332
mysql_query 执行时间分别为:
10.0020229816
9.61053204536
9.24442720413
本人目前为止认为最高效率方式如下:
$sql = "insert into `test` (`test`) values ('$content')";
for ($i=1;$i<999;$i++) {
$sql .= ",('$content')";
}
mysql_query($sql);
执行时间为:
0.0323481559753
0.0371758937836
0.0419669151306

insert语句的速度
插入一个记录需要的时间由下列因素组成,其中的数字表示大约比例:
连接:(3)
发送查询给服务器:(2)
分析查询:(2)
插入记录:(1x记录大小)
插入索引:(1x索引)
关闭:(1)
这不考虑打开表的初始开销,每个并发运行的查询打开。
表的大小以logn (b树)的速度减慢索引的插入。
加快插入的一些方法:
· 如果同时从同一个客户端插入很多行,使用含多个value的insert语句同时插入几行。这比使用单行insert语句快(在某些情况下快几倍)。如果你正向一个非空表添加数据,可以调节bulk_insert_buffer_size变量,使数据插入更快。参见5.3.3节,“服务器系统变量”。
· 如果你从不同的客户端插入很多行,能通过insert delayed语句加快速度。参见13.2.4节,“insert语法”。
· 用myisam,如果在表中没有删除的行,能在select语句正在运行的同时插入行。
· 当从一个文本文件装载一个表时,使用load data infile。这通常比使用很多insert语句快20倍。
· 当表有很多索引时,有可能要多做些工作使得load data infile更快些。使用下列过程:

有选择地用create table创建表。
执行flush tables语句或命令mysqladmin flush-tables。
使用myisamchk --keys-used=0 -rq /path/to/db/tbl_name。这将从表中取消所有索引的使用。
用load data infile把数据插入到表中,因为不更新任何索引,因此很快。
如果只想在以后读取表,使用myisampack压缩它。
用myisamchk -r -q /path/to/db/tbl_name重新创建索引。这将在写入磁盘前在内存中创建索引树,并且它更快,因为避免了大量磁盘搜索。结果索引树也被完美地平衡。
执行flush tables语句或mysqladmin flush-tables命令。

请注意如果插入一个空myisam表,load data infile也可以执行前面的优化;主要不同处是可以让myisamchk为创建索引分配更多的临时内存,比执行load data infile语句时为服务器重新创建索引分配得要多。
也可以使用alter table tbl_name disable keys代替myisamchk --keys-used=0 -rq/path/to/db/tbl_name,使用alter table tbl_name enable keys代替myisamchk -r -q/path/to/db/tbl_name。使用这种方式,还可以跳过flush tables。
· 锁定表可以加速用多个语句执行的insert操作:
lock tables a write;
insert into a values (1,23),(2,34),(4,33);
insert into a values (8,26),(6,29);
unlock tables;
这样性能会提高,因为索引缓存区仅在所有insert语句完成后刷新到磁盘上一次。一般有多少insert语句即有多少索引缓存区刷新。如果能用一个语句插入所有的行,就不需要锁定。
对于事务表,应使用begin和commit代替lock tables来加快插入。
锁定也将降低多连接测试的整体时间,尽管因为它们等候锁定最大等待时间将上升。例如:
connection 1 does 1000 inserts
connections 2, 3, and 4 do 1 insert
connection 5 does 1000 inserts
如果不使用锁定,2、3和4将在1和5前完成。如果使用锁定,2、3和4将可能不在1或5前完成,但是整体时间应该快大约40%。
insert、update和delete操作在mysql中是很快的,通过为在一行中多于大约5次连续不断地插入或更新的操作加锁,可以获得更好的整体性能。如果在一行中进行多次插入,可以执行lock tables,随后立即执行unlock tables(大约每1000行)以允许其它的线程访问表。这也会获得好的性能。
insert装载数据比load data infile要慢得多,即使是使用上述的策略。
· 为了对load data infile和insert在myisam表得到更快的速度,通过增加key_buffer_size系统变量来扩大 键高速缓冲区。
insert语法
复制代码 代码如下:

insert [low_priority | delayed | high_priority] [ignore]
       [into] tbl_name [(col_name,...)]
       values ({expr | default},...),(...),...
       [ on duplicate key update col_name=expr, ... ]


复制代码 代码如下:

insert [low_priority | delayed | high_priority] [ignore]
       [into] tbl_name
       set col_name={expr | default}, ...
       [ on duplicate key update col_name=expr, ... ]


复制代码 代码如下:

insert [low_priority | high_priority] [ignore]
       [into] tbl_name [(col_name,...)]
       select ...
       [ on duplicate key update col_name=expr, ... ]

一、delayed 的使用
使用延迟插入操作
delayed调节符应用于insert和replace语句。当delayed插入操作到达的时候,
服务器把数据行放入一个队列中,并立即给客户端返回一个状态信息,这样客户
端就可以在数据表被真正地插入记录之前继续进行操作了。如果读取者从该数据
表中读取数据,队列中的数据就会被保持着,直到没有读取者为止。接着服务器
开始插入延迟数据行(delayed-row)队列中的数据行。在插入操作的同时,服务器
还要检查是否有新的读取请求到达和等待。如果有,延迟数据行队列就被挂起,
允许读取者继续操作。当没有读取者的时候,服务器再次开始插入延迟的数据行。
这个过程一直进行,直到队列空了为止。
几点要注意事项:
· insert delayed应该仅用于指定值清单的insert语句。服务器忽略用于insert delayed...select语句的delayed。
· 服务器忽略用于insert delayed...on duplicate update语句的delayed。
· 因为在行被插入前,语句立刻返回,所以您不能使用last_insert_id()来获取auto_increment值。auto_increment值可能由语句生成。
· 对于select语句,delayed行不可见,直到这些行确实被插入了为止。
· delayed在从属复制服务器中被忽略了,因为delayed不会在从属服务器中产生与主服务器不一样的数据。
注意,目前在队列中的各行只保存在存储器中,直到它们被插入到表中为止。这意味着,如果您强行中止了mysqld(例如,使用kill -9)
或者如果mysqld意外停止,则所有没有被写入磁盘的行都会丢失。

二、ignore的使用
ignore是mysql相对于标准sql的扩展。如果在新表中有重复关键字,
或者当strict模式启动后出现警告,则使用ignore控制alter table的运行。
如果没有指定ignore,当重复关键字错误发生时,复制操作被放弃,返回前一步骤。
如果指定了ignore,则对于有重复关键字的行,只使用第一行,其它有冲突的行被删除。
并且,对错误值进行修正,使之尽量接近正确值。
insert ignore into tb(...) value(...)
这样不用校验是否存在了,有则忽略,无则添加

三、on duplicate key update的使用
如果您指定了on duplicate key update,并且插入行后会导致在一个unique索引或primary key中出现重复值,则执行旧行update。例如,如果列a被定义为unique,并且包含值1,则以下两个语句具有相同的效果:
mysql> insert into table (a,b,c) values (1,2,3)
       -> on duplicate key update c=c+1;

mysql> update table set c=c+1 where a=1;

如果行作为新记录被插入,则受影响行的值为1;如果原有的记录被更新,则受影响行的值为2。
注释:如果列b也是唯一列,则insert与此update语句相当:
mysql> update table set c=c+1 where a=1 or b=2 limit 1;

如果a=1 or b=2与多个行向匹配,则只有一个行被更新。通常,您应该尽量避免对带有多个唯一关键字的表使用on duplicate key子句。

您可以在update子句中使用values(col_name)函数从insert…update语句的insert部分引用列值。换句话说,如果没有发生重复关键字冲突,则update子句中的values(col_name)可以引用被插入的col_name的值。本函数特别适用于多行插入。 values()函数只在insert…update语句中有意义,其它时候会返回null。
示例:
复制代码 代码如下:

mysql> insert into table (a,b,c) values (1,2,3),(4,5,6)
       -> on duplicate key update c=values(a)+values(b);
本语句与以下两个语句作用相同:
mysql> insert into table (a,b,c) values (1,2,3)
       -> on duplicate key update c=3;
mysql> insert into table (a,b,c) values (4,5,6)
       -> on duplicate key update c=9;

当您使用on duplicate key update时,delayed选项被忽略。