MySQL 的 20+ 条最佳实践

程序员文章站 2023-12-17 08:53:16

数据库操作是当今 web 应用程序中的主要瓶颈。不仅是 dba（数据库管理员）需要为各种性能问题操心，程序员为做出准确的结构化表，优化查询性能和编写更优代码，也要费尽心思...

数据库操作是当今 web 应用程序中的主要瓶颈。不仅是 dba（数据库管理员）需要为各种性能问题操心，程序员为做出准确的结构化表，优化查询性能和编写更优代码，也要费尽心思。在本文中，我列出了一些针对程序员的 mysql 优化技术。
在我们开始学习之前，我补充一点：你可以在 envato market 上找到大量的 mysql 脚本和实用程序。

MySQL 的 20+ 条最佳实践

1.优化查询的查询缓存

大部分mysql服务器都有查询缓存功能。这是提高性能的最有效的方法之一，这是由数据库引擎私下处理的。当同一个查询被多次执行，结果会直接从缓存里提取，这样速度就很快。

主要的问题是，这对程序员来说太简单了，不容易看到，我们很多人都容易忽略。我们实际上是可以组织查询缓存执行任务的。

// query cache does not work
$r = mysql_query("select username from user where signup_date >= curdate()");

// query cache works!
$today = date("y-m-d");
$r = mysql_query("select username from user where signup_date >= '$today'");

查询缓存在第一行不执行的原因在于curdte()功能的使用。这适用于所有的非确定性功能，就像now()和rand()等等。。。因为功能返回的结果是可变的。mysql决定禁用查询器的查询缓存。我们所需要做的是通过添加一额外一行php，在查询前阻止它发生。

2. explain你的选择查询

使用explain关键词可以帮助了解mysql是怎样运行你的查询的。这有助于发现瓶颈和查询或表结构的其它问题。

explain的查询结果会展示哪一个索引被使用过，表示怎样扫描和储存的，等等。。。

选择一个select查询（一个有连接的复杂查询会更好），在它的前面添加关键词explain，这样就可以直接使用数据库了。结果会以一个漂亮的表来展示。例如，就好比我执行连接时忘了添加一栏的索引：

MySQL 的 20+ 条最佳实践

现在它只会从表2里面扫描9和16行，而非扫描7883行。经验法则是乘以所有“行”那一栏的数字，你的查询性能会跟结果数字成比例的。

3. 获取唯一行时使用limit 1

有时当你查表时，你已经知道你正在查找的结果只有一行。你可能正在获取唯一记录，或者你可能只是查询是否存在满足你的where子句条件的记录。

在这种情况下，将limit 1添加到查询条件中可以提高性能。这样，数据库引擎将在找到刚刚第一个记录之后停止扫描记录，而不是遍历整个表或索引。

// do i have any users from alabama?

// what not to do:
$r = mysql_query("select * from user where state = 'alabama'");
if (mysql_num_rows($r) > 0) {
  // ...
}
// much better:
$r = mysql_query("select 1 from user where state = 'alabama' limit 1");
if (mysql_num_rows($r) > 0) {
  // ...
}

4. 索引搜索字段

索引不仅仅是为了主键或唯一键。如果你会在你的表中按照任何列搜索，你就都应该索引它们。

MySQL 的 20+ 条最佳实践

正如你所看到的，这个规则也适用于如 "last_name like 'a%'"的部分字符串搜索。当从字符串的开头搜索时，mysql就可以使用那一列的索引。

你也应该明白什么样搜索可以不使用有规律的索引。例如，当搜索一个单词时（例如，"where post_content like '%apple%'"），你将不会看到普通索引的好处。你最好使用 mysql 全文搜索或者构建你自己的索引解决方案。

5. 索引并对连接使用同样的字段类型

如果你的应用程序包含许多连接查询, 你需要确保连接的字段在两张表上都建立了索引。这会影响mysql如何内部优化连接操作。

此外,被连接的字段,需要使用同样类型。例如, 如果你使用一个decimal字段, 连接另一张表的int字段, mysql将无法使用至少一个索引。即使字符编码也需要使用相同的字符类型。

// looking for companies in my state
$r = mysql_query("select company_name from users
  left join companies on (users.state = companies.state)
  where users.id = $user_id");
 
// both state columns should be indexed
// and they both should be the same type and character encoding
// or mysql might do full table scans

6. 不要order by rand()

起初这是一个听起来挺酷的技巧, 让许多菜鸟程序员陷入了这个陷阱。但你可能不知道，一旦你开始在查询中使用它，你创建了非常可怕的查询瓶颈。

如果你真的需要对结果随机排序, 这有一个更好的方法。补充一些额外代码,你将可以防止当数据成指数级增长时造成的瓶颈。关键问题是，mysql必须在排序之前对表中的每一行执行rand()操作（这需要处理能力），并且仅仅给出一行。

// what not to do:
$r = mysql_query("select username from user order by rand() limit 1");
 
 
// much better:
 
$r = mysql_query("select count(*) from user");
$d = mysql_fetch_row($r);
$rand = mt_rand(0,$d[0] - 1);
 
$r = mysql_query("select username from user limit $rand, 1");

所以挑选一个小于结果数的随机数，并将其用作limit子句中的偏移量。

7. 避免使用select *

从数据表中读取的数据越多，查询操作速度就越慢。它增加了磁盘操作所需的时间。此外，当数据库服务器与web服务器分开时，由于必须在服务器之间传输数据，将会有更长的网络延迟。

这是一个好习惯：当你使用select语句时总是指定你需要的列。

// not preferred
$r = mysql_query("select * from user where user_id = 1");
$d = mysql_fetch_assoc($r);
echo "welcome {$d['username']}";
 
// better:
$r = mysql_query("select username from user where user_id = 1");
$d = mysql_fetch_assoc($r);
echo "welcome {$d['username']}";
 
// the differences are more significant with bigger result sets

8. 几乎总是有一个id字段

在每个以id列为primary key的数据表中，优先选择auto_increment或者int。也可以优选使用unsigned，因为该值不能为负的。

即使你拥有一个具有唯一用户名字段的用户表，也不要将其作为主键。 varchar字段作为主键（检索）速度较慢。通过内部id引用所有的用户数据，你的代码中将更加结构化。

有些后台操作是由mysql引擎本身完成的，它在内部使用主键字段。当数据库设置越复杂（集群，分区等...），这就变得更加重要了。

这个规则的一个可能的例外是“关联表”，用于两个表之间的多对多类型的关联。例如，“posts_tags”表中包含两列：post_id，tag_id，用于保存表名为“post”和“tags”的两个表之间的关系。这些表可以具有包含两个id字段的primary键。

9. 相比varchar优先使用enum

enum枚举类型是非常快速和紧凑的。在内部它们像tinyint一样存储，但它们可以包含和显示字符串值。这使他们成为某些领域的完美候选。

如果有一个字段只包含几种不同的值，请使用enum而不是varchar。例如，它可以是名为“status”的列，并且只包含诸如“active”，“inactive”，“pending”，“expired”等的值...

关于如何重构你的数据表，甚至有一种方法是可以从mysql本身得到“建议”。当你有一个varchar字段，它实际上建议你将该列类型更改为enum。这通过调用procedure analyze()来完成。

10. 使用procedure analyse()获取建议

procedure analyse() 将使用mysql分析列结构和表中的实际数据，为你提供一些建议。它只有在数据表中有实际数据时才有用，因为这在分析决策时很重要。

例如，如果你创建了一个int类型的主键，但没有太多行，mysql则可能建议您改用mediumint。或者如果你使用varchar字段，如果表里只有很少的取值，你可能会得到一个建议是将其转换为enum。

你也可以在其中一个表视图中单击phpmyadmin中的“建议表结构”链接来执行此操作。

MySQL 的 20+ 条最佳实践

请记住，这些只是建议。如果你的数据表变得越来越大，他们甚至可能不是正确的建议。至于如何修改最终是你来决定。

11. 如果可以的话使用not null

除非你有非常重要的理由使用null值，否则你应该设置你的列为not null。

首先，问一下你自己在空字符串值和null值之间（对应int字段：0 vs. null）是否有任何的不同.如果没有理由一起使用这两个，那么你就不需要一个null字段（你知道在oracle中null和空字符串是一样的吗？）。

null列需要额外的空间，他们增加了你的比较语句的复杂度。如果可以的话尽量避免它们。当然，我理解一些人，他们也许有非常重要的理由使用null值，这不总是一件坏事。

摘自mysql 文档：

"null列在行记录它们的值是否为null时需要额外的空间。例如myisam 表，每一个null列拥有额外的一个比特，聚集在最近的字节。"

12. 预处理语句

使用预处理语句有诸多好处，包括更高的性能和更好的安全性。

预处理语句默认情况下会过滤绑定到它的变量，这对于避免sql注入攻击极为有效。当然你也可以指定要过滤的变量。但这些方法更容易出现人为错误，也更容易被程序员遗忘。这在使用框架或 orm 的时候会出现一些问题。

既然我们关注性能，那就应该说说这个方面的好处。当在应用中多次使用同一个查询的时候，它的好处特别明显。既然向同一个预备好的语句中传入不同的参数值，mysql 对这个语句也只会进行一次解析。

同时，最新版本的 mysql 在传输预备好的语句时会采用二进制形式，这样做的作用非常明显，而且对减少网络延迟很有帮助。

曾经有一段时间，许多程序员为了一个重要的原因则避免使用预处理语句。这个原因就是，它们不会被mysql 缓存。不过在 5.1 版本的某个时候，查询缓存也得到的支持。

想在 php 中使用预处理语句，你可以看看或使用数据抽象层，如 pdo。

// create a prepared statement
if ($stmt = $mysqli->prepare("select username from user where state=?")) {
 
  // bind parameters
  $stmt->bind_param("s", $state);
 
  // execute
  $stmt->execute();
 
  // bind result variables
  $stmt->bind_result($username);
 
  // fetch value
  $stmt->fetch();
 
  printf("%s is from %s\n", $username, $state);
 
  $stmt->close();
}

13. 无缓冲查询

通常当你从脚本执行一个查询，在它可以继续后面的任务之前将需要等待查询执行完成。你可以使用无缓冲的查询来改变这一情况。

在php 文档中对 f函数有一个很好的解释：

"mysql_unbuffered_query() 发送sql查询语句到mysql不会像 mysql_query()那样自动地取并缓冲结果行。这让产生大量结果集的查询节省了大量的内存，在第一行已经被取回时你就可以立即在结果集上继续工作，而不用等到sql查询被执行完成。"

然而，它有一定的局限性。你必须在执行另一个查询之前读取所有的行或调用。另外你不能在结果集上使用或。

14. 使用 unsigned int 存储ip地址

很多程序员没有意识到可以使用整数类型的字段来存储 ip 地址，所以一直使用 varchar(15) 类型的字段。使用 int 只需要 4 个字节的空间，而且字段长度固定。

必须确保列是 unsinged int 类型，因为 ip 地址可能会用到 32 位无符号整型数据的每一个位。

在查询中可以使用 inet_aton() 来把一个ip转换为整数，用 inet_ntoa() 来进行相反的操作。在 php 也有类似的函数，和。

$r = "update users set ip = inet_aton('{$_server['remote_addr']}') where user_id = $user_id";

15. 固定长度（静态）的表会更快

（译者注：这里提到的表的长度，实际是指表头的长度，即表中每条数据占用的空间大小，而不是指表的数据量）

如果表中所有列都是“固定长度”，那么这个表被认为是“静态”或“固定长度”的。不固定的列类型包括 varchar、text、blob等。即使表中只包含一个这些类型的列，这个表就不再是固定长度的，mysql 引擎会以不同的方式来处理它。

固定长度的表会提高性能，因为 mysql 引擎在记录中检索的时候速度会更快。如果想读取表中的某一地，它可以直接计算出这一行的位置。如果行的大小不固定，那就需要在主键中进行检索。

它们也易于缓存，崩溃后容易重建。不过它们也会占用更多空间。例如，如果你把一个 varchar(20) 的字符改为 char(20) 类型，它会总是占用 20 个字节，不管里面存的是什么内容。

你可以使用“垂直分区”技术，将长度变化的列拆分到另一张表中。来看看：

16. 垂直分区

垂直分区是为了优化表结构而对其进行纵向拆分的行为。

示例 1: 你可能会有一张用户表，包含家庭住址，而这个不是一个常用数据。这时候你可以选择把表拆分开，将住址信息保存到另一个表中。这样你的主用户表就会更小。如你所知，表越小越快。

示例 2: 表中有一个 "last_login" 字段，用户每次登录网站都会更新这个字段，而每次更新都会导致这个表缓存的查询数据被清空。这种情况下你可以将那个字段放到另一张表里，保持用户表更新量最小。

不过你也需要确保不会经常联合查询分开后的两张表，要不然你就得忍受由这带来的性能下降。

17. 拆分大型delete或insert语句

如果你需要在网站上执行大型delete或insert查询，则需要注意不要影响网络流量。当执行大型语句时，它会锁表并使你的web应用程序停止。

apache运行许多并行进程/线程。因此它执行脚本效率很高。所以服务器不期望打开过多的连接和进程，这很消耗资源，特别是内存。

如果你锁表很长时间（如30秒或更长），在一个高流量的网站，会导致进程和查询堆积，处理这些进程和查询可能需要很长时间，最终甚至使你的网站崩溃。

如果你的维护脚本需要删除大量的行，只需使用limit子句，以避免阻塞。

while (1) {
  mysql_query("delete from logs where log_date <= '2009-10-01' limit 10000");
  if (mysql_affected_rows() == 0) {
    // done deleting
    break;
  }
  // you can even pause a bit
  usleep(50000);
}

18. 越小的列越快

对于数据库引擎来说，磁盘空间可能是最需要注意的瓶颈。对性能而言，“小”和“紧缩”有助于减少磁盘传输量。

mysql 文档中有一个列表，列举了各种数据类型。

如果数据表预计只会有少量的行，那就没必要把主键定义为 int 类型，可以用 mediumint、smallint 甚至 tinyint 来代替。（译者注：对于日期数据，）如果不需要时间部分，就应该使用 date 而不是 datetime。

请确保留出合理的数据成长空间，不然就可能造成像slashdot那样的结果（译者注：slashdot 因为数据增长将评论表的主键改为了 int 型，但没有修改其父表中的相应的数据类型，虽然一个 alter 语句就可以解决问题，但是需要至少停止某些业务三个小时）。

19. 选择正确的存储引擎

mysql 有两个主要的存储引擎：myisam 和 innodb，它们各有利弊。

myisam 适用于读请求特别多的应用，但不适用于有大量写请求的情况。甚至你只是要更新一行中的某个字段，都会造成整张表被锁，然后直到这个查询完成，其它进程都不能从这张表读取数据。myisam 在计算 select count(*) 这种类型的查询时速度非常快。

innodb 是一个复杂的存储引擎，在多数小型应用中它比 myisam 慢。但是它支持行级锁，有更好的尺度。它还支持一些高级特性，比如事务。

20. 使用对象关系映射器（orm, object relational mapper）

通过使用orm（对象关系映射器），你可以获得一定的性能提升。orm可以完成的一切事情，手动编码也可完成。但这可能意味着需要太多额外的工作，并且需要高水平的专业知识。

orm以“延迟加载”著称。这意味着它们仅在需要时获取实际值。但是你需要小心处理他们，否则你可能最终创建了许多微型查询，这会降低数据库性能。

orm还可以将多个查询批处理到事务中，其操作速度比向数据库发送单个查询快得多。

目前我最喜欢的php-orm是doctrine。我写了一篇关于如何安装doctrine与codeigniter的文章（install doctrine with codeigniter）。

21. 小心使用持久连接

持久连接意味着减少重建连接到mysql的成本。当持久连接被创建时，它将保持打开状态直到脚本完成运行。因为apache重用它的子进程，下一次进程运行一个新的脚本时，它将重用相同的mysql连接。

php：

理论上看起来不错。但从我个人（和许多其他人）的经验看来，这个功能可能会导致更多麻烦。你可能会出现连接数限制问题、内存问题等等。

apache总是并行运行的，它创建许多子进程。这是持久连接在这种环境中不能很好工作的主要原因。在你考虑使用mysql_pconnect()之前，请咨询你的系统管理员。

原文出处： burak guzel 译文出处：

MySQL 的 20+ 条最佳实践

MySQL 的 20+ 条最佳实践

MySQL数据库21条最佳性能优化经验

MySQL 性能优化的最佳20多条经验分享

mysql自动定时备份数据库的最佳方法(windows服务器)

MYSQL中获取得最后一条记录的语句

利用POI读取word、Excel文件的最佳实践教程

MySQL 的 20+ 条最佳实践

10个微妙的Java编码最佳实践

MySQL 性能优化的最佳20多条经验分享

深入学习TypeScript 、React、 Redux和Ant-Design的最佳实践