0%

InnoDB存储结构理解

InnoDB体系架构

InnoDB是MySQL数据库中最常用的存储引擎,InnoDB的体系架构如下图所示:
InnoDB体系架构

InnoDB体系架构主要包含三部分:后台线程,缓冲池,文件。

(一)后台线程

InnoDB使用多线程模型,后台线程主要分为四个线程:

  • Master Thread: 最核心的一个线程,用于异步刷新缓冲页到磁盘,保证数据一致性;
  • IO Thread: InnoDB中使用了大量异步IO来处理IO请求,该线程主要负责这些IO请求的回调;
  • Purge Thread: 该线程用来回收无用的undo页,InnoDB支持多个Purge线程回收undo页;
  • Page Cleaner Thread: 负责脏页刷新到磁盘的操作,异步刷新;

(二)缓冲池

InnoDB存储引擎是基于磁盘存储的,由于磁盘和CPU之间速度的鸿沟,InnoDB使用缓冲池来提高性能。InnoDB的数据存储都是以页为维度的,缓冲池中主要存放:

  • 数据页
  • 索引页
  • undo页
  • Change Buffer页
  • 自适应哈希索引
  • 锁信息
  • 数据字典信息
  • redo日志

(三)磁盘文件

InnoDB存储引擎是基于磁盘的,所有的数据都存放在磁盘文件中,后续会分析数据如何存储?

InnoDB存储结构

InnoDB中每张表都有主键,如果没有显示的定义主键,会选择一个非空的唯一索引来做为主键;如果没有,则自动创建一个6字节大小的指针做主键。

本篇文章基于的是MySQL5.7版本之后,因此一些弃用的特性就不介绍了,比如frm文件要来保存表结构元数据信息等。

下文通过InnoDB逻辑存储结构和物理存储结构综合来介绍,主要解决下面两个问题:

  • InnoDB逻辑上是怎么组织数据的???
  • InnoDB逻辑上设计的存储结构怎么落地到物理存储上的???

逻辑&物理存储结构

InnoDB中所有数据都被存放在一个空间中,称之为“表空间(tablespace)”;表空间又由段(segment)、区(extent)、页(page)组成。

先上图,InnoDB的逻辑存储结构如下图所示:
逻辑存储结构

从图中可以看出,他们的层级关系是一对多,下面逐步介绍各个层级的逻辑结构!

1. 表空间——Tablespace

表空间可以看做是InnoDB逻辑存储结构的最高层级;所有的数据都是存放在表空间中的。默认情况下,InnoDB的所有数据都存放在共享表空间中ibdata1;当用户设置参数innodb_file_per_table时,InnoDB会为每个表产生一个独立的表空间。

独立的表空间中只存放数据,索引和Change Buffer;而其余的undo信息,事务信息,Double Write等还在共享表空间中。

(一)共享表空间

共享表空间又叫做系统表空间(System Tablespace),默认的文件名为ibdata1。可以通过innochecksum --page-type-summary ibdata1命令查看共享表空间中存放了哪些文件类型。
共享表空间文件类型

innodb_file_per_table参数开启后,共享表空间中的数据页(data page)移到了独立表空间中。ibdata1文件的初始大小为12M,磁盘上的文件都是以二进制的形式存储。在ibdata1文件中顺序的存放着不同种类的page。

由于初始大小为12M,当保存的page信息增多时,共享表空间会继续生成新的文件来增长空间,比如ibdata2,ibdata3等等。当共享表空间暴增的时候会导致InnoDB的性能变差,那么何时会导致共享表空间大小暴增???
共享表空间中主要保存了undo信息和Change Buffer信息;因此大小暴增主要有下面两个原因:

  • 大事务,产生大量的undo页;
  • 索引建立过多,导致Change Buffer暴增;

解决办法
对于大事务的undo页信息,InnoDB提供了解决办法,可以在共享表空间初始化的时候讲undo页分离出去;参数innodb_undo_tablespaces可以设置undo表空间的个数,后续所有的undo信息会保存在单独的undo表空间中。

共享表空间存储结构
共享表空间存储结构
具体的字节的详细含义此处略过,大体的结构如图所示。

优点
表大小可以无限增大,可以跨文件存储,不同的文件可以存储在不同的磁盘上。
缺点
所有表的数据存放在一起,不易区分;当表删除回收后,会产生大量的空间碎片。

(二)独立表空间

基于上述共享表空间的缺点,InnoDB支持为每个表建立一个独立表空间文件,文件名为”表名.ibd”。

独立表空间存储结构
独立表空间存储结构

优点
每个表独立存储自身的数据和索引,方便不同数据库的迁移;表被回收后,不影响其他表;表内的空间碎片相对较少。
缺点
单表的空间增长过大会导致存储空间不足,需要从操作系统层面来解决。

2. 段——Segment

从逻辑结构图中可以看出,表空间包含多个段,其中最主要的是:

  • 数据段: B+树叶子节点;
  • 索引段: B+树非叶子节点;
  • 回滚段: 用来事务回滚;

段存储结构
段在固定位置保存了区的元数据信息,其物理存储结构如下图所示:
独立表空间存储结构

3. 区——Extent

区是由连续页组成的空间,为保证区中页的连续性,InnoDB会一次性的从磁盘申请4~5个区。区根据描述符来管理自身的页数据,其结构如下:

区存储结构
独立表空间存储结构

4. 页——Page

页是InnoDB最基本的结构,也是磁盘管理的最小单位。页主要有以下几种:

  • 数据页
  • 索引页
  • undo页
  • 系统页
  • 事务数据页

这边主要讲解数据页和索引页,不说废话,先上图:
页存储结构
页存储结构
页主要包含页头(38个字节),页尾(8个字节)以及中间的body,这很类似网络中包的结构,页头中包含了页的基本信息,页尾中包含了页数据的一些校验,下面看下页头和页尾的具体结构:

页头页尾存储结构
页头页尾存储结构
从页头中发现,每个页都有一个int类型唯一的id,代表页的偏移量,由于int类型4个字节,这也导致了页最大为64TB($2^{32}$);此外页头中还包含两个重要的指针:Previous Page Number和Next Page Number,分别指向前一页和后一页,这样我们就知道了,在一个B+树的节点里,不同的页是通过链表来顺序遍历的;页尾主要用于数据一致性校验,checksum来检查数据的完整性。

头尾的存储都介绍完毕了,就剩下body存储数据,数据都是以行(Row)记录的形式存储;由于页内部空闲空间是随机分配的,以链表来组织,因此需要界定下记录的开始和结尾,因此body的部分一开始有两个系统定义的头尾记录指针:infimum和supremum,用来保存记录的首尾,其结构如下图所示:

记录首尾存储结构
记录首尾存储结构
infimum记录从094开始,依次到120以supremum结束。那038094之前存储什么信息???

主要存储的是索引头的信息,因为InnoDB中数据以B+树的形式存储。

记录首尾相连的格式如下图:
索引头存储结构

索引头存储结构
索引头存储结构
里面的信息不详细展开了。

5. 行——Row

千呼万唤始出来,绕了半天,终于讲到了行(Row)记录的存储结构;InnoDB支持不同类型的行格式来存储数据,如下图:
行格式
其中Antelope是文件最开始支持的形式,后续增加了Barracuda的格式;其中最常用的是Compact,下面主要介绍Compact格式。
Compact格式
下面分析下各个字段的含义:

  • 变长字段长度列表: 主要用来存放变长字段的长度,逆序排列。

    举例: 字段VARCHAR(16),存储”abc”,则变长长度为03;把所有变长字段的长度逆序排列;

  • NULL标志位: 标志列是否为null;
  • 记录头信息:记录头信息 > record_type记录类型,3bit,000表示普通页;001表示B+树节点;010表示infimum;011表示supremum;1xx保留。
  • 列值: 真实的数据;

    InnoDB会为每行数据添加隐藏的三个列值:

    1. DB_ROW_ID 行ID,唯一标识一条记录;
    2. DB_TRX_ID 事务ID;
    3. DB_ROLL_PTR 回滚指针;

由于页有大小限制,当数据库中存储TEXT,BLOB等大型数据时,上述的列值不能完整的存放下所有的数据,这个时候怎么办???
InnoDB会生成一个BLOB的新页,然后在该列值上存放新页的地址来指向它。Compact格式会存储开头的768bytes。
记录头信息

总结

本文主要介绍了InnoDB存储的逻辑结构和物理结构;说白了就是在文件中用链表实现了B+树;为了让计算机识别二进制数据,在记录的头部和尾部包装了各式各样的元信息;为了便于InnoDB各种关键特性的实现,又将头部尾部的元信息分层:segment,extent,page,row。
逻辑结构和物理结构的映射如下图:
逻辑物理结构映射

参考

[1] MySQL技术内幕:InnoDB存储引擎
[2] MySQL官方文档
[3] 博客