PHP查询MySQL大量数据的时候内存占用分析
程序员文章站
2022-05-24 14:56:44
昨天, 有同事在php讨论群里提到, 他做的一个项目由于mysql查询返回的结果太多(达10万条), 从而导致php内存不够用. 所以, 他问, 在执行下面的代码遍历返回的...
昨天, 有同事在php讨论群里提到, 他做的一个项目由于mysql查询返回的结果太多(达10万条), 从而导致php内存不够用. 所以, 他问, 在执行下面的代码遍历返回的mysql结果之前, 数据是否已经在内存中了? -
while ($row = mysql_fetch_assoc($result)) {
// ...
}
当然, 这种问题有许多优化的方法. 不过, 就这个问题来讲, 我首先想到, mysql是经典的c/s(client/server, 客户端/服务器)模型, 在遍历结果集之前, 底层的实现可能已经把所有的数据通过网络(假设使用tcp/ip)读到了client的缓冲区, 也有另一种可能, 就是数据还在server端的发送缓冲区里, 并没有传给client.
在查看php和mysql的源码之前, 我注意到php手册里有两个功能相近的函数:
mysql_query()
mysql_unbuffered_query()
两个函数的字面意思和说明证实了我的想法, 前一个函数执行时, 会把所有的结果集从server端读到client端的缓冲区中, 而后一个则没有, 这就是”unbuffered(未缓冲)”的意思.
那就是说, 如果用mysql_unbuffered_query()执行了一条返回大量结果集的sql语句, 在遍历结果之前, php的内存是没有被结果集占用的. 而用mysql_query()来执行同样的语句的话, 函数返回时, php的内存占用便会急剧增加, 立即耗光内存.
如果阅读php的相关代码, 可以看到这两个函数的实现上的异同:
/* {{{ proto resource mysql_query(string query [, int link_identifier])
sends an sql query to mysql */
php_function(mysql_query)
{
php_mysql_do_query(internal_function_param_passthru, mysql_store_result);
}
/* }}} */
/* {{{ proto resource mysql_unbuffered_query(string query [, int link_identifier])
sends an sql query to mysql, without fetching and buffering the result rows */
php_function(mysql_unbuffered_query)
{
php_mysql_do_query(internal_function_param_passthru, mysql_use_result);
}
/* }}} */
两个函数都调用了php_mysql_do_query(), 只差了第2个参数的不同, mysql_store_result和mysql_use_result. 再看php_mysql_do_query()的实现:
if(use_store == mysql_use_result) {
mysql_result=mysql_use_result(&mysql->conn);
} else {
mysql_result=mysql_store_result(&mysql->conn);
}
mysql_use_result()和mysql_store_result()是mysql的c api函数, 这两个c api函数的区别就是后者把结果集从mysql server端全部读取到了client端, 前者只是读取了结果集的元信息.
回到php, 使用mysql_unbuffered_query(), 可以避免内存的立即占用. 如果在遍历的过程不对结果进行”php缓存”(如放到某数组中), 则整个执行过程虽然操作了十万条或者百万条或者更多的数据, 但php占用的内存始终是非常小的.
复制代码 代码如下:
while ($row = mysql_fetch_assoc($result)) {
// ...
}
当然, 这种问题有许多优化的方法. 不过, 就这个问题来讲, 我首先想到, mysql是经典的c/s(client/server, 客户端/服务器)模型, 在遍历结果集之前, 底层的实现可能已经把所有的数据通过网络(假设使用tcp/ip)读到了client的缓冲区, 也有另一种可能, 就是数据还在server端的发送缓冲区里, 并没有传给client.
在查看php和mysql的源码之前, 我注意到php手册里有两个功能相近的函数:
复制代码 代码如下:
mysql_query()
mysql_unbuffered_query()
两个函数的字面意思和说明证实了我的想法, 前一个函数执行时, 会把所有的结果集从server端读到client端的缓冲区中, 而后一个则没有, 这就是”unbuffered(未缓冲)”的意思.
那就是说, 如果用mysql_unbuffered_query()执行了一条返回大量结果集的sql语句, 在遍历结果之前, php的内存是没有被结果集占用的. 而用mysql_query()来执行同样的语句的话, 函数返回时, php的内存占用便会急剧增加, 立即耗光内存.
如果阅读php的相关代码, 可以看到这两个函数的实现上的异同:
复制代码 代码如下:
/* {{{ proto resource mysql_query(string query [, int link_identifier])
sends an sql query to mysql */
php_function(mysql_query)
{
php_mysql_do_query(internal_function_param_passthru, mysql_store_result);
}
/* }}} */
/* {{{ proto resource mysql_unbuffered_query(string query [, int link_identifier])
sends an sql query to mysql, without fetching and buffering the result rows */
php_function(mysql_unbuffered_query)
{
php_mysql_do_query(internal_function_param_passthru, mysql_use_result);
}
/* }}} */
两个函数都调用了php_mysql_do_query(), 只差了第2个参数的不同, mysql_store_result和mysql_use_result. 再看php_mysql_do_query()的实现:
复制代码 代码如下:
if(use_store == mysql_use_result) {
mysql_result=mysql_use_result(&mysql->conn);
} else {
mysql_result=mysql_store_result(&mysql->conn);
}
mysql_use_result()和mysql_store_result()是mysql的c api函数, 这两个c api函数的区别就是后者把结果集从mysql server端全部读取到了client端, 前者只是读取了结果集的元信息.
回到php, 使用mysql_unbuffered_query(), 可以避免内存的立即占用. 如果在遍历的过程不对结果进行”php缓存”(如放到某数组中), 则整个执行过程虽然操作了十万条或者百万条或者更多的数据, 但php占用的内存始终是非常小的.
上一篇: 模板引擎正则表达式调试小技巧
下一篇: 详解mysql中的concat相关函数