Linux 内核内存管理(1)
Linux内核内存管理1
简介
内存管理是操作系统内核最复杂的部分之一(我认为它是最复杂的) 。在内核入口前最后的准备文中,我们刚好讲到了start_kernel函数调用之前内核发生的行为。 start_kernel函数在内核运行第一个init进程之前会初始化所有的内核(包括架构相关的特征)。你可能还记得在系统启动期间我们构造了early页表 identity页表和fixmap页表此时还没涉及复杂的内存管理。当start_kernel函数被调用时我们将过渡到更复杂的与内存管理有关的数据结构和技巧。为了能够很好的理解l inux内核的初始化过程我们需要清晰地了解这些技术。本章将综述l inux内核内存管理框架的各个不同部分和相应的API,首先介绍memblock。
Memblock
Memblock是在早期引导过程中管理内存的方法之一此时内核内存分配器还没运行。 Memblock以前被定义为Logical Memory Block(逻辑内存块),但根据Yinghai Lu的补丁,它被重命名为memblock。 x86_64架构的l inux内核就采用了这种方法。我们在内核入口前最后的准备文中已经提到了memblock。现在我们将进一步了解memblock是如何实现的。我们首先从数据结构着手来了解memblock。所有有关数据结构的定义都可以
在include/l inux/memblock.h头文件中找到。
第一个数据结构的名字如本节标题如下所示
该结构体包含五个域。如果bottom_up为true,则允许由下而上地分配内存
。 current_l imit指出了内存块的大小限制。接下来的三个域描述了内存块的类型 即预留型 内存型和物理内存型(如果宏
CONFIG_HAVE_MEMBLOCK_PHYS_MAP被定义了)。我们现在又接触到了一个数据结构memblock_type,它的定义如下
该结构体存储的是内存类型信息。它包含的域分别描述了当前内存块含有的内存区域数量所有内存区域的总共大小 已经分配的内存区域大小和一个指向memblock_region结构体的数组指针。memblock_region结构体描述了内存区域它的定义如下memblock_region结构体提供了内存区域的基地址和大小标志可以是
如果宏CONFIG_HAVE_MEMBLOCK_NODE_MAP被定义了memblock_region还提供一个整数域——numa节点选择器。
图示法可以用来展示以上结构体之间的关系
Memblock主要包含三个结构体 memblock,memblock_type和memblock_region。现在我们已了解了Memblock,接下来我们将看到Memblock的初始化过程。
Memblock初始化memblock的所有API描述在include/l inux/memblock.h头文件中所有这些API的实现在mm/memblock.c源文件中。在源文件的开头我们可以看到memblock结构体的初始化结构体memblock的初始化变量名和
结构体名相同——memblock。首先注
意__initdata_memblock宏它的定义如下
如果启用CONFIG_ARCH_DISCARD_MEMBLOCK宏配置选项memblock 代码会被放到. init代码段在内核启动完成后memblock代码会从. init代码段释放。
接下来的是memblock结构体中memblock_type memory,memblock_typereserved和memblock_type physmem的初始化。本文中我们只研
究memblock_type.regions的初始化过程。需要注意的是每一个memblock_type域都是通过memblock_region数组初始化的
每一个数组包含128个内存区域可以查看INIT_MEMBLOCK_REGIONS 的宏定义
需要注意的是所有的数组定义都带有__initdata_memblock宏该宏定义已
在memblock结构体初始化时提到过(如果忘了请回顾上文)memblock结构体中最后两个域 bottom_up内存分配模式被禁用当前Memblock的大小限制是
即0 x ffffffffffffff ff 。
一旦memblock结构体完成初始化我们接下来就研究MemblockAPI 。
MemblockAPI
我们已经完成了memblock结构体的初始化接下来我们将研究MemblockAPI和它的实现。在上文中我提到过所有关于memblock的实现
都在mm/memblock.c源文件中。要理
解memblock是如何工作和实现的我们首先看一下它的用法。在l inux内核中有几处用到了memblock例如arch/x86/kernel/e820.c中的函数memblock_x86_fi l l 。该函数遍历由e820提供的内存映射表并且通过memblock_add函数把内核预留的内存区域添加到memblock。既然我们首先遇到了memblock_add函数那就从它开始吧。memblock_add函数有两个参数物理基址和内存区域大小并且把该内存区域添加
到memblock。 memblock_add函数本身并没有什么它只是调用了
函数。我们传递的参数依次是 内存块类型(memory) 物理基址 内存区域大小最大节点数(0如果CONFIG_NODES_SHIFT没有在配置文件中设置不然就是CONFIG_NODES_SHIFT)和标志。memblock_add_range函数添加新的内存区域到内存块中。首先该函数检查给定的内存区域大小如果是0就返回。在这之后 memblock_add_range用给定
的memblock_type检查memblock结构体中是否存在内存区域。如果没有我们就用给定的值填充新的memory_region然后返回(我们已经在l inux内核内存管理框架的第一次接触一文中看到过实现)。如果memblock_type不为空我们就把新的内存区域添加到memblock_type类型的memblock中。
首先我们用如下代码获得内存区域的结束位置memblock_cap_size函数会设置size大小确保base+size不会溢出。该函数实现相当简单
memblock_cap_size返回size和ULLONG_MAX-base中的最小值。
在那之后我们得到了新的内存区域的结束地址 memblock_add_range 函数检查内存区域是否重叠并和已经添加到memblock中的内存区域合并。把新的内存区域插入到memblock中包含两步
把新的内存区域中非重叠的部分作为独立的区域加入到memblock合并所有相邻的内存区域接下来遍历所有已经存储的内存区域并检查有没有和新的内存区域重叠
如果新内存区域没有和已经存储在memblock的内存区域重叠把该新内存区域插入
到memblock中。这是第一次循环我们需要检查新内存区域是否可以放入内存块中并调用memblock_double_array:memblock_double_array函数加倍给定的内存区域大小然后把insert 设为true再转到repeat标签。第二次循环从repeat标签开始经过同样的循环然后
用memblock_insert_region函数把当前内存区域插入到内存块
由于我们在第一次循环中把insert设为true,现在memblock_insert_region函数将会被调用。 memblock_insert_region函数几乎和把新内存区域插入到空
的memblock_type代码块有同样的实现(见上文) 该函数获得最后一个内存区域
然后调用memmove函数移动该内存区域
紧接着填充新内存区域memblock_region的base域 size域等等 然
后增
大memblock_type的大小。最后memblock_add_range函数调
用memblock_merge_regions合并所有相邻且兼容的内存区域。
在第二种情况下新内存区域可能和已存储的内存区域重叠。例如在memblock中已经有了region
现在我们想把region2加到memblock中 region2含有以下基址和大小
本例中把新内存区域的基址设为重叠内存区域的结束地址
即base为0x1000。和第二次循环做法一样我们用以下代码把它添加到memblock本例中我们先插入overlappingportion(重叠部分)(只插入地址更高的部分 因为低地址部分已经在重叠内存区域) 然后插入剩余部分最后调
用memblock_merge_regions合并这些部分内存区域。memblock_merge_regions函数合并相邻且兼容的内存区域。该函数遍历所有memblock_type类型的内存区域每次取出两个邻近的内存区域——type->regions[i]和type->regions[i+1],然后检查它们是否有相同的标志属于相同的节点第一个内存区域的结束地址不等于第二个内存区域的基地址
如果这些条件一个都不满足更新第一个内存区域的大小
因为我们把第二个内存区域大小加到第一个内存区域大小所以我们要调用memmove函数把当前(this)内存区域后的每一个(靠每次循环)内存区域移动到其前一个内存区域
然后把memblock_type类型的内存区域数量减一
此后我们就会把两个内存区域合并为一个
以上就是memblock_add_range函数的全部工作原理。
还有memblock_reserve函数除了一处不同外其余均与memblock_add 函数一致
。 memblock_reserve函数把memblock_type.reserved类型的内存区域存到memblock中而不是memblck_type.memory。
Memblock不仅提供了添加memory和reserved类型的内存区域的API 还包括memblock_remove——从memblock中移除内存区域memblock_find_in_range——在给定的范围内找到未使用的内存memblock_free——释放memblcok中的内存区
域for_each_mem_range——反复迭代memblock
还有更多。 。 。
获取内存区域信息
Memblock也提供了API来获取memblock中已分配内存区域的信息分为两个部分 get_al located_memblock_memory_regions_info——获取内存区域信
息get_al located_memblock_reserved_regions_info——获取预留内存区域信息
这两个函数的实现很简单。
以get_al located_memblock_reserved_regions_info函数为例
该函数首先检查memblock是否包含预留内存区域。如果memblock 不包含则返回0否则
我们把预留内存区域的物理地址赋给addr然后返回已分配的数组经对齐过后的大小。对齐用的
是PAGE_ALIGN宏它依赖于页的大小
函数get_al located_memblock_memory_regions_info的实现和上面一样唯一不
同的是用到了memblock_type.memory而不是memblock_type.reserved。
Memblock调试
在memblock的实现中多次调用了memblock_dbg函数。如果在内核命令行传
入memblock=debug选项就会调用memblock_dbg函数。其实memblock_dbg仅仅是个宏
定义它的展开包含printk函数
例如 memblock_reserve函数调用了该宏
结果如下图
Memblock还支持debugfs。如果你的内核不是运行在X86架构上你可以访问
/sys/kernel/debug/memblock/memory/sys/kernel/debug/memblock/reserved /sys/kernel/debug/memblock/physmem来获得memblock内容的转储。
总结
关于l inux内核内存管理第一部分到此结束。如果有任何疑问或建议在twitter0xAX上联
系我或给我发邮件或提交一个issue。
超链接e820numadebugfsl inux 内核内存管理框架的第一次接触
修罗云怎么样?修罗云是一家国内老牌商家,修罗云商家以销售NAT机器起家,国内的中转机相当不错,给的带宽都非常高,此前推荐的也都是国内NAT VPS机器。今天,云服务器网(www.yuntue.com)小编主要介绍一下修罗云的香港云服务器,适合建站,香港沙田cn2云服务器,2核2G,5M带宽仅70元/月起,同时香港香港大带宽NAT VPS低至50元/月起,性价比不错,可以尝试一下!点击进入:修罗云官...
物语云计算怎么样?物语云计算(MonogatariCloud)是一家成立于2016年的老牌国人商家,主营国内游戏高防独服业务,拥有多家机房资源,产品质量过硬,颇有一定口碑。本次带来的是特惠活动为美国洛杉矶Cera机房的不限流量大带宽VPS,去程直连回程4837,支持免费安装Windows系统。值得注意的是,物语云采用的虚拟化技术为Hyper-v,因此并不会超售超开。一、物语云官网点击此处进入物语云...
reliablesite怎么样?reliablesite是一家于2006年成立的老牌美国主机商,主要提供独服,数据中心有迈阿密、纽约、洛杉矶等,均免费提供20Gbps DDoS防护,150TB月流量,1Gbps带宽。月付19美金可升级为10Gbps带宽。洛杉矶/纽约/迈阿密等机房,E3-1240V6/64GB内存/1TB SSD硬盘/DDOS/150TB流量/1Gbps带宽/DDOS,$95/月,...