“ 变量,是所有编程语言的基本元素,但变量的物理意义,你有了解过吗?是的,没有物理意义,变量的语法意义将荡然无存!”
变量,几乎是所有编程语言的基本元素,变量读写,更是所有程序员的常规操作。但你知道 CPU 是如何读写变量的吗?今天,让我们用CPU的视角,重新认识一下变量。
01
认识内存
为了说明这个问题,我们首先要看一眼内存条:
一般来说,无论是什么型号的内存,它们的“金手指”连接线都存在两类重要的信号线:数据信号线和地址信号线。顾名思义,数据信号线用来在计算机和内存之间传递数据信息。例如CPU在读、写内存的时候,具体读写的数据内容,就是依靠数据信号线来传递的。
但我们往往会忽视一点:在我们读、写数据之前,都必须明确的告诉内存条,我们要往哪块内存读、写数据。内存那么大,你要写哪里?所以内存地址是一切内存读、写的前提。
而且内存地址,本身也是十分敏感、宝贵的数据信息,我们常用的:指针变量,就专门用来保存内存地址。
所以,未来我们再提到内存的时候,大家脑海的画面可以是这样的:
右边是内存的存储单元,用来存放各种数据;左边则是用来指示其存储单元位置的内存地址。
例如:我们可以把数值4,存储在内存地址:0x1000处,变量x也就是内存地址0x1000的别名,为内存地址起一个名字x,会便于程序员记忆和使用。
当然,我们也可以把变量x的内存地址值0x1000,存储在内存地址:0x1004处,p也就是内存地址0x1004的别名。为了不让我们过早的陷入对“指针”的讨论,我们就此打住。
02
代码分析
好了,让我们再看看CPU层面的证据吧。打开Compiler Explorer,定义一个全局变量a,然后,写一个最简单的写操作函数:
int a;void write(){ a = 1;}
让我们看一下写操作对应的汇编指令:
因为只有一条指令,所以很容易猜出:这是要把1放到变量a所在的内存里面,内存地址,应该就是方括号里面的值:rip + 0x2f18
由于指令集的原因,CPU 不可以直接访问内存地址!只能通过寄存器,配合方括号,间接访问内存。根据CPU指令手册:rip 寄存器,存放着 CPU 下一条指令的地址。
所以,变量a的内存地址就是:0x401114 + 0x2f18 = 0x40402c。其中0x2f18是rip 寄存器相对于变量a所在内存地址的偏移量。
正如,变量的定义所说:变量不过是内存地址的别名!让我们多写几个变量看看:
通过类似的方法,我们可以分析出来:a,b,c的内存地址分别是:0x40402c、0x404030、0x404034。它们两两相隔 4 个字节,说明了 int 类型的变量占据了 4 个字节的内存空间。
如果我们把 int 改成 short,它们就两两相隔 2 个字节,因为 short 类型的变量占据了 2 个字节的内存空间。
同理,你会看到 char 类型的变量,会占据了1个字节的内存空间:
需要注意的是:在代码编译并完成加载后,所有CPU指令的内存地址就是固定的,同时每条写指令中的偏移值也是固定的,所以,这里的全局变量和静态变量:a,b,c的内存地址,在程序的整个运行过程中,都是不变的。而栈变量的内存地址,则会随着程序的运行而变化,详细的原因,我们会在后面的章节中继续讨论。
03
总结
04
热点问题
Q1:在CPU眼里,是不是就没有 “变量” 的说法?
A1:是的,CPU眼里只有内存地址,没有变量的概念;但 “变量名” 可以用来帮助程序员记忆、标识:某段内存地址。就像域名wwww.baidu.com是IP地址 202.108.22.5 的别名一样,域名只是为了方便人记忆;而IP地址才是数据包的导航方式。
Q2:如果用一个指针变量,指向变量a,然后加上偏移量,是不是就可以得到后边的变量b,c的值?
A2:是的!知道了变量的内存地址,也就可以进行变量的读、写操作了。而指针的 * 操作,正好就可以进行内存的读、写操作。
Q3:代码编译成二进制文件后,代码中的变量名:a、b、c 这3个字符,存放在二进制文件的哪个位置?
A3:如你所见,代码对应的CPU指令中,并不需要变量名:a、b、c。所以,编译好的二进制文件,一般也不会有 a、b、c 这3个字符,它们不过是3个内存地址的别名,用来增加代码的可读性。如果不需要调试信息的话,变量名是不会被存储下来的,在编译好的二进制文件里面,变量名已经变成二进制数了。