📄 嵌入式bootloader技术内幕arm9ads使用arm应用.htm

📁 嵌入式系统教程
💻 HTM
📖 第 1 页 / 共 5 页
字号:
        <LI>设置好堆栈。 <BR><BR>
        <LI>跳转到 stage2 的 C 入口点。 <BR><BR></LI></UL>
      <P>Boot Loader 的 stage2 通常包括以下步骤(以执行的先后顺序)： </P>
      <UL>
        <LI>初始化本阶段要使用到的硬件设备。 <BR><BR>
        <LI>检测系统内存映射(memory map)。 <BR><BR>
        <LI>将 kernel 映像和根文件系统映像从 flash 上读到 RAM 空间中。 <BR><BR>
        <LI>为内核设置启动参数。 <BR><BR>
        <LI>调用内核。 </LI></UL>
      <P><A name=N10125><SPAN class=smalltitle><STRONG><FONT size=3>3.1 Boot 
      Loader 的 stage1</FONT></STRONG></SPAN></A></P>
      <P><STRONG>3.1.1 基本的硬件初始化</STRONG> </P>
      <P>这是 Boot Loader 一开始就执行的操作，其目的是为 stage2 的执行以及随后的 kernel 
      的执行准备好一些基本的硬件环境。它通常包括以下步骤（以执行的先后顺序）： </P>
      <P>1． <B>屏蔽所有的中断。</B>为中断提供服务通常是 OS 设备驱动程序的责任，因此在 Boot Loader 
      的执行全过程中可以不必响应任何中断。中断屏蔽可以通过写 CPU 的中断屏蔽寄存器或状态寄存器（比如 ARM 的 CPSR 寄存器）来完成。 </P>
      <P>2． <B>设置 CPU 的速度和时钟频率。</B> </P>
      <P>3． <B>RAM 初始化。</B>包括正确地设置系统的内存控制器的功能寄存器以及各内存库控制寄存器等。 </P>
      <P>4． <B>初始化 LED。</B>典型地，通过 GPIO 来驱动 LED，其目的是表明系统的状态是 OK 还是 Error。如果板子上没有 
      LED，那么也可以通过初始化 UART 向串口打印 Boot Loader 的 Logo 字符信息来完成这一点。 </P>
      <P>5． <B>关闭 CPU 内部指令／数据 cache。</B> </P>
      <P><B>3.1.2 为加载 stage2 准备 RAM 空间</B> </P>
      <P>为了获得更快的执行速度，通常把 stage2 加载到 RAM 空间中来执行，因此必须为加载 Boot Loader 的 stage2 
      准备好一段可用的 RAM 空间范围。 </P>
      <P>由于 stage2 通常是 C 语言执行代码，因此在考虑空间大小时，除了 stage2 
      可执行映象的大小外，还必须把堆栈空间也考虑进来。此外，空间大小最好是 memory page 大小(通常是 4KB)的倍数。一般而言，1M 的 
      RAM 空间已经足够了。具体的地址范围可以任意安排，比如 blob 就将它的 stage2 可执行映像安排到从系统 RAM 起始地址 
      0xc0200000 开始的 1M 空间内执行。但是，将 stage2 安排到整个 RAM 空间的最顶 1MB(也即(RamEnd-1MB) - 
      RamEnd)是一种值得推荐的方法。 </P>
      <P>为了后面的叙述方便，这里把所安排的 RAM 
      空间范围的大小记为：stage2_size(字节)，把起始地址和终止地址分别记为：stage2_start 和 stage2_end(这两个地址均以 
      4 字节边界对齐)。因此： </P>
      <P>
      <TABLE cellSpacing=0 cellPadding=5 width="100%" bgColor=#eeeeee 
        border=1><TBODY>
        <TR>
          <TD><PRE><CODE class=section>
<FONT face="Lucida Console">stage2_end＝stage2_start＋stage2_size
</FONT></CODE></PRE></TD></TR></TBODY></TABLE><BR></P>
      <P>另外，还必须确保所安排的地址范围的的确确是可读写的 RAM 空间，因此，必须对你所安排的地址范围进行测试。具体的测试方法可以采用类似于 
      blob 的方法，也即：以 memory page 为被测试单位，测试每个 memory page 
      开始的两个字是否是可读写的。为了后面叙述的方便，我们记这个检测算法为：test_mempage，其具体步骤如下： </P>
      <P>1． 先保存 memory page 一开始两个字的内容。 </P>
      <P>2． 向这两个字中写入任意的数字。比如：向第一个字写入 0x55，第 2 个字写入 0xaa。 </P>
      <P>3． 然后，立即将这两个字的内容读回。显然，我们读到的内容应该分别是 0x55 和 0xaa。如果不是，则说明这个 memory page 
      所占据的地址范围不是一段有效的 RAM 空间。 </P>
      <P>4． 再向这两个字中写入任意的数字。比如：向第一个字写入 0xaa，第 2 个字中写入 0x55。 </P>
      <P>5． 然后，立即将这两个字的内容立即读回。显然，我们读到的内容应该分别是 0xaa 和 0x55。如果不是，则说明这个 memory page 
      所占据的地址范围不是一段有效的 RAM 空间。 </P>
      <P>6． 恢复这两个字的原始内容。测试完毕。 </P>
      <P>为了得到一段干净的 RAM 空间范围，我们也可以将所安排的 RAM 空间范围进行清零操作。 </P>
      <P><B>3.1.3 拷贝 stage2 到 RAM 中</B> </P>
      <P>拷贝时要确定两点：(1) stage2 的可执行映象在固态存储设备的存放起始地址和终止地址；(2) RAM 空间的起始地址。 </P>
      <P><B>3.1.4 设置堆栈指针 sp</B> </P>
      <P>堆栈指针的设置是为了执行 C 语言代码作好准备。通常我们可以把 sp 的值设置为(stage2_end-4)，也即在 3.1.2 
      节所安排的那个 1MB 的 RAM 空间的最顶端(堆栈向下生长)。 </P>
      <P>此外，在设置堆栈指针 sp 之前，也可以关闭 led 灯，以提示用户我们准备跳转到 stage2。 </P>
      <P>经过上述这些执行步骤后，系统的物理内存布局应该如下图2所示。 </P>
      <P><B>3.1.5 跳转到 stage2 的 C 入口点</B> </P>
      <P>在上述一切都就绪后，就可以跳转到 Boot Loader 的 stage2 去执行了。比如，在 ARM 系统中，这可以通过修改 PC 
      寄存器为合适的地址来实现。 </P>
      <P><BR><A name=N101A0><B>图2 bootloader 的 stage2 可执行映象刚被拷贝到 RAM 
      空间时的系统内存布局</B></A><BR><IMG alt="" src=""> <BR></P>
      <P><A name=N101AB><SPAN class=smalltitle><STRONG><FONT size=3>3.2 Boot 
      Loader 的 stage2 </FONT></STRONG></SPAN></A></P>
      <P>正如前面所说，stage2 的代码通常用 C 语言来实现，以便于实现更复杂的功能和取得更好的代码可读性和可移植性。但是与普通 C 
      语言应用程序不同的是，在编译和链接 boot loader 这样的程序时，我们不能使用 glibc 
      库中的任何支持函数。其原因是显而易见的。这就给我们带来一个问题，那就是从那里跳转进 main() 函数呢？直接把 main() 
      函数的起始地址作为整个 stage2 执行映像的入口点或许是最直接的想法。但是这样做有两个缺点：1)无法通过main() 
      函数传递函数参数；2)无法处理 main() 函数返回的情况。一种更为巧妙的方法是利用 
      trampoline(弹簧床)的概念。也即，用汇编语言写一段trampoline 小程序，并将这段 trampoline 小程序来作为 stage2 
      可执行映象的执行入口点。然后我们可以在 trampoline 汇编小程序中用 CPU 跳转指令跳入 main() 函数中去执行；而当 main() 
      函数返回时，CPU 执行路径显然再次回到我们的 trampoline 程序。简而言之，这种方法的思想就是：用这段 trampoline 小程序来作为 
      main() 函数的外部包裹(external wrapper)。 </P>
      <P>下面给出一个简单的 trampoline 程序示例(来自blob)： </P>
      <P>
      <TABLE cellSpacing=0 cellPadding=5 width="100%" bgColor=#eeeeee 
        border=1><TBODY>
        <TR>
          <TD><PRE><CODE class=section>
<FONT face="Lucida Console">.text

.globl _trampoline
_trampoline:
 bl main
 /* if main ever returns we just call it again */
 b _trampoline
</FONT></CODE></PRE></TD></TR></TBODY></TABLE><BR></P>
      <P>可以看出，当 main() 函数返回后，我们又用一条跳转指令重新执行 trampoline 程序――当然也就重新执行 main() 
      函数，这也就是 trampoline(弹簧床)一词的意思所在。 </P>
      <P><B>3.2.1初始化本阶段要使用到的硬件设备</B> </P>
      <P>这通常包括：（1）初始化至少一个串口，以便和终端用户进行 I/O 输出信息；（2）初始化计时器等。 </P>
      <P>在初始化这些设备之前，也可以重新把 LED 灯点亮，以表明我们已经进入 main() 函数执行。 </P>
      <P>设备初始化完成后，可以输出一些打印信息，程序名字字符串、版本号等。 </P>
      <P><B>3.2.2 检测系统的内存映射（memory map）</B> </P>
      <P>所谓内存映射就是指在整个 4GB 物理地址空间中有哪些地址范围被分配用来寻址系统的 RAM 单元。比如，在 SA-1100 CPU 中，从 
      0xC000,0000 开始的 512M 地址空间被用作系统的 RAM 地址空间，而在 Samsung S3C44B0X CPU 中，从 
      0x0c00,0000 到 0x1000,0000 之间的 64M 地址空间被用作系统的 RAM 地址空间。虽然 CPU 
      通常预留出一大段足够的地址空间给系统 RAM，但是在搭建具体的嵌入式系统时却不一定会实现 CPU 预留的全部 RAM 
      地址空间。也就是说，具体的嵌入式系统往往只把 CPU 预留的全部 RAM 地址空间中的一部分映射到 RAM 单元上，而让剩下的那部分预留 RAM 
      地址空间处于未使用状态。 <B>由于上述这个事实，因此 Boot Loader 的 stage2 必须在它想干点什么 (比如，将存储在 flash 
      上的内核映像读到 RAM 空间中) 之前检测整个系统的内存映射情况，也即它必须知道 CPU 预留的全部 RAM 地址空间中的哪些被真正映射到 RAM 
      地址单元，哪些是处于 "unused" 状态的。</B> </P>
      <P><B>(1) 内存映射的描述</B> </P>
      <P>可以用如下数据结构来描述 RAM 地址空间中的一段连续(continuous)的地址范围：</P>
      <P>
      <TABLE cellSpacing=0 cellPadding=5 width="100%" bgColor=#eeeeee 
        border=1><TBODY>
        <TR>
          <TD><PRE><CODE class=section>
<FONT face="Lucida Console">typedef struct memory_area_struct {
 u32 start; /* the base address of the memory region */
 u32 size; /* the byte number of the memory region */
 int used;
} memory_area_t;
</FONT></CODE></PRE></TD></TR></TBODY></TABLE><BR></P>
      <P>这段 RAM 地址空间中的连续地址范围可以处于两种状态之一：(1)used=1，则说明这段连续的地址范围已被实现，也即真正地被映射到 RAM 
      单元上。(2)used=0，则说明这段连续的地址范围并未被系统所实现，而是处于未使用状态。 </P>
      <P>基于上述 memory_area_t 数据结构，整个 CPU 预留的 RAM 地址空间可以用一个 memory_area_t 
      类型的数组来表示，如下所示： </P>
      <P>
      <TABLE cellSpacing=0 cellPadding=5 width="100%" bgColor=#eeeeee 
        border=1><TBODY>
        <TR>
          <TD><PRE><CODE class=section>
<FONT face="Lucida Console">memory_area_t memory_map[NUM_MEM_AREAS] = {
 [0 ... (NUM_MEM_AREAS - 1)] = {
  .start = 0,
  .size = 0,
  .used = 0
 },
};
</FONT></CODE></PRE></TD></TR></TBODY></TABLE><BR></P>
      <P>(2) 内存映射的检测 </P>
      <P>下面我们给出一个可用来检测整个 RAM 地址空间内存映射情况的简单而有效的算法： </P>
      <P>
      <TABLE cellSpacing=0 cellPadding=5 width="100%" bgColor=#eeeeee 
        border=1><TBODY>
        <TR>
          <TD><PRE><CODE class=section>
<FONT face="Lucida Console">/* 数组初始化 */
for(i = 0; i &lt; NUM_MEM_AREAS; i++)
 memory_map[i].used = 0;

/* first write a 0 to all memory locations */
for(addr = MEM_START; addr &lt; MEM_END; addr += PAGE_SIZE)
 * (u32 *)addr = 0;

for(i = 0, addr = MEM_START; addr &lt; MEM_END; addr += PAGE_SIZE) {
     /*
      * 检测从基地址 MEM_START+i*PAGE_SIZE 开始,大小为
* PAGE_SIZE 的地址空间是否是有效的RAM地址空间。
      */
     调用3.1.2节中的算法test_mempage()；
     if ( current memory page isnot a valid ram page) {
  /* no RAM here */
  if(memory_map[i].used )
   i++;
  continue;
 }
 
 /*
  * 当前页已经是一个被映射到 RAM 的有效地址范围
  * 但是还要看看当前页是否只是 4GB 地址空间中某个地址页的别名？
  */
 if(* (u32 *)addr != 0) { /* alias? */
  /* 这个内存页是 4GB 地址空间中某个地址页的别名 */
  if ( memory_map[i].used )
   i++;
  continue;
 }
 
 /*
  * 当前页已经是一个被映射到 RAM 的有效地址范围
  * 而且它也不是 4GB 地址空间中某个地址页的别名。
  */
 if (memory_map[i].used == 0) {
  memory_map[i].start = addr;
  memory_map[i].size = PAGE_SIZE;
  memory_map[i].used = 1;
 } else {
  memory_map[i].size += PAGE_SIZE;
 }
} /* end of for (…) */
</FONT></CODE></PRE></TD></TR></TBODY></TABLE><BR></P>
      <P>在用上述算法检测完系统的内存映射情况后，Boot Loader 也可以将内存映射的详细信息打印到串口。 </P>
      <P><B>3.2.3 加载内核映像和根文件系统映像</B> </P>
      <P><B>(1) 规划内存占用的布局</B> </P>
      <P>这里包括两个方面：(1)内核映像所占用的内存范围；（2）根文件系统所占用的内存范围。在规划内存占用的布局时，主要考虑基地址和映像的大小两个方面。 
      </P>
      <P>对于内核映像，一般将其拷贝到从(MEM_START＋0x8000) 这个基地址开始的大约1MB大小的内存范围内(嵌入式 Linux 
      的内核一般都不操过 1MB)。为什么要把从 MEM_START 到 MEM_START＋0x8000 这段 32KB 大小的内存空出来呢？这是因为 
      Linux 内核要在这段内存中放置一些全局数据结构，如：启动参数和内核页表等信息。 </P>
      <P>而对于根文件系统映像，则一般将其拷贝到 MEM_START+0x0010,0000 开始的地方。如果用 Ramdisk 
      作为根文件系统映像，则其解压后的大小一般是1MB。 </P>
      <P><B>（2）从 Flash 上拷贝</B> </P>
      <P>由于像 ARM 这样的嵌入式 CPU 通常都是在统一的内存地址空间中寻址 Flash 等固态存储设备的，因此从 Flash 上读取数据与从 
      RAM 单元中读取数据并没有什么不同。用一个简单的循环就可以完成从 Flash 设备上拷贝映像的工作： </P>
      <P>
      <TABLE cellSpacing=0 cellPadding=5 width="100%" bgColor=#eeeeee 
        border=1><TBODY>
        <TR>
          <TD><PRE><CODE class=section><FONT face="Lucida Console"> 
while(count) {
 *dest++ = *src++; /* they are all aligned with word boundary */
 count -= 4; /* byte number */
};
</FONT></CODE></PRE></TD></TR></TBODY></TABLE><BR></P>
      <P><B>3.2.4 设置内核的启动参数</B> </P>
      <P>应该说，在将内核映像和根文件系统映像拷贝到 RAM 空间中后，就可以准备启动 Linux 
      内核了。但是在调用内核之前，应该作一步准备工作，即：设置 Linux 内核的启动参数。 </P>
      <P>Linux 2.4.x 以后的内核都期望以标记列表(tagged list)的形式来传递启动参数。启动参数标记列表以标记 ATAG_CORE 
      开始，以标记 ATAG_NONE 结束。每个标记由标识被传递参数的 tag_header 结构以及随后的参数值数据结构来组成。数据结构 tag 和
⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -