把这个程序保存成文件(汇编程序通常以.s
作为文件名后缀),用汇编器(Assembler)as
把汇编程序中的助记符翻译成机器指令,生成目标文件hello.o
:
- $ as hello.s -o hello.o
然后用链接器(Linker,或Link Editor)ld
把目标文件hello.o
链接成可执行文件hello
:
为什么用汇编器翻译成机器指令了还不行,还要有一个链接的步骤呢?链接主要有两个作用,一是修改目标文件中的信息,对地址做重定位,在详细解释,二是把多个目标文件合并成一个可执行文件,在第 2 节 “main
函数和启动例程”详细解释。我们这个例子虽然只有一个目标文件,但也需要经过链接才能成为可执行文件。
现在执行这个程序,它只做了一件事就是退出,退出状态是4,讲过在Shell中可以用特殊变量$?
得到上一条命令的退出状态:
所以这段汇编代码相当于在C程序的main
函数中return 4;
。为什么会相当呢?我们在第 2 节 “main
函数和启动例程”详细解释。
下面逐行分析这个汇编程序。首先,#
号表示单行注释,类似于C语言的//
注释。
- .section .data
- .section .text
.text
段保存代码,是只读和可执行的,后面那些指令都属于.text
段。
_start
是一个符号(Symbol),符号在汇编程序中代表一个地址,可以用在指令中,汇编程序经过汇编器的处理之后,所有的符号都被替换成它所代表的地址值。在C语言中我们通过变量名访问一个变量,其实就是读写某个地址的内存单元,我们通过函数名调用一个函数,其实就是跳转到该函数第一条指令所在的地址,所以变量名和函数名都是符号,本质上是代表内存地址的。
.globl
指示告诉汇编器,_start
这个符号要被链接器用到,所以要在目标文件的符号表中标记它是一个全局符号(在详细解释)。_start
就像C程序的main
函数一样特殊,是整个程序的入口,链接器在链接时会查找目标文件中的_start
符号代表的地址,把它设置为整个程序的入口地址,所以每个汇编程序都要提供一个_start
符号并且用.globl
声明。如果一个符号没有用.globl
声明,就表示这个符号不会被链接器用到。
- _start:
这里定义了_start
符号,汇编器在翻译汇编程序时会计算每个数据对象和每条指令的地址,当看到这样一个符号定义时,就把它后面一条指令的地址作为这个符号所代表的地址。而_start
这个符号又比较特殊,它所代表的地址是整个程序的入口地址,所以下一条指令movl $1, %eax
就成了程序中第一条被执行的指令。
这是一条数据传送指令,这条指令要求CPU内部产生一个数字1并保存到eax
寄存器中。mov
的后缀l表示long,说明是32位的传送指令。这条指令不要求CPU读内存,1这个数是在CPU内部产生的,称为立即数(Immediate)。在汇编程序中,立即数前面要加$,寄存器名前面要加%,以便跟符号名区分开。以后我们会看到指令还有另外几种形式,但数据传送方向都是一样的,第一个操作数总是源操作数,第二个操作数总是目标操作数。
和上一条指令类似,生成一个立即数4并保存到ebx
寄存器中。
- int $0x80
int
指令称为软中断指令,可以用这条指令故意产生一个异常,上一章讲过,异常的处理和中断类似,CPU从用户模式切换到特权模式,然后跳转到内核代码中执行异常处理程序。int
指令中的立即数0x80是一个参数,在异常处理程序中要根据这个参数决定如何处理,在Linux内核中int $0x80
这种异常称为系统调用(System Call)。内核提供了很多系统服务供用户程序使用,但这些系统服务不能像库函数(比如printf
)那样调用,因为在执行用户程序时CPU处于用户模式,不能直接调用内核函数,所以需要通过系统调用切换CPU模式,经由异常处理程序进入内核,用户程序只能通过寄存器传几个参数,之后就要按内核设计好的代码路线走,而不能由用户程序随心所欲,想调哪个内核函数就调哪个内核函数,这样可以保证系统服务被安全地调用。在调用结束之后,CPU再切换回用户模式,继续执行int $0x80
的下一条指令,在用户程序看来就像函数调用和返回一样。
x86汇编一直存在两种不同的语法,在intel的官方文档中使用intel语法,Windows也使用intel语法,而UNIX平台的汇编器一直使用AT&T语法,所以本书使用AT&T语法。movl %edx,%eax
这条指令如果用intel语法来写,就是,寄存器名不加%号,源操作数和目标操作数的位置互换,字长也不是用指令的后缀l表示而是用另外的方式表示。本书不详细讨论这两种语法之间的区别,读者可以参考[AssemblyHOWTO]。
介绍x86汇编的书很多,UNIX平台的书都采用AT&T语法,例如,其它书一般采用intel语法,例如[x86Assembly]。
习题
1、把本节例子中的int $0x80
指令去掉,汇编、链接也能通过,但是执行的时候出现段错误,你能解释其原因吗?