RocksDB有自己的内存分配机制,称为Arena. Arena由固定的inline_block_和动态的blocks_组成。 inline_block_固定为2048bytes, blocks_由一系列的block组成,这些block大小一般为KBlockSize, 但从arena申请较大内存时(> KBlockSize/4)单独分配一个所申请大小的block. KBlockSize由参数arena_block_size指定,arena_block_size 不指定时默认为write_buffer_size的1/8.
这里有两个重要的概念
blocks_memory_
Arena当前已分配的内存alloc_bytes_remaining_
Arena当前block已分配但未使用的内存,注意不是整个Arena已分配而未使用的内存
RocksDB在实际使用内存中用的是ConcurrentArena, 它是在Arena的基础上封装,是线程安全的。 同时ConcurrentArena为了提高并发对内存进行了分片,分片数由cpu个数决定,例如cpu核数为24, 则分片数为32,以下是分片的算法
一个有趣的例子
测试环境:CPU核数64,write_buffer_size=1G, arena_block_size=0 根据前面的算法,CPU核数64, 内存分片数为64, arena_block_size 默认为write_buffer_size的1/8,对齐后是131072000
我们用1200个连接进行并发插入,这样能够充分使用内存分片数 这是测试某个瞬间取得的内存数据
注意AllocatedAndUnused和allocated_memory是如此的接近,也就是说存在巨大的内存浪费。然而这不是最严重的,更严重的是这种情况导致memtable的切换,后面会进行分析。
memtable 发生切换的条件有
- memtable内存超过write_buffer_size会切换
- Buffer满,全局的write buffer超过rocksdb_db_write_buffer_size时,会从所有的colomn family中找出最先创建的memtable进行切换,详见HandleWriteBufferFull
- flush memtable前会切换memtable, 下节会介绍
下面详细介绍memtable满切换
- memtable 满切换
而上一节举出的例子正好符合切换的条件,正如前面所说的,内存都分配好了,还没来得及使用就发生切换了,白忙活了一场。
那么如何避免这种情况呢
- 减少内存分片数,不建议
- 调小arena_block_size, 亲测可用
- memtable 切换实现
- NewWritableFile //创建日志文件
- cfd->imm()->Add(cfd->mem(), &context->memtables_to_free_); //设置immutable
- cfd->SetMemtable(new_mem); //设置新的memtable
immutable memtable会不断flush到level0的SST文件中
触发flush的条件有
- WAL日志满,WAL日志超过rocksdb_max_total_wal_size,会从所有的colomn family中找出含有最老日志(the earliest log containing a prepared section)的column family进行flush,详见HandleWALFull
- Buffer满,全局的write buffer超过rocksdb_db_write_buffer_size时,会从所有的colomn family中找出最先创建的memtable的column family进行flush,详见HandleWriteBufferFull
- 手动设置参数force_flush_memtable_now/rocksdb_force_flush_memtable_and_lzero_now时
- CompactRange时
- 创建checkpoint时