|
| 1 | +``` |
1 | 2 |
|
2 | | -* IR:中间语言。它独立于机器,复杂性介于源码与机器码之间 |
3 | | -* ILGen:(Intermediate Code/Language Generator)中间代码生成 |
4 | | -* 解释器通常不生成中间码,而是直接计算结果。编译器会生成中间码,例如Java字节码 |
5 | | -* 中间代码的设计要求:与机器无关、利于优化、利于目标代码的生成 |
6 | | -* 中间码的作用: |
7 | | - <br/> |
8 | | - ~  易移植:与机器无关,所以它作为中间语言可以为生成多种不同型号的目标机器码服务 |
9 | | - <br/> |
10 | | - ~  机器无关优化:对中间码进行机器无关优化,利于提高代码质量 |
11 | | - <br/> |
12 | | - ~  层次清晰:将AST映射成中间代码表示,再映射成目标代码的工作分层进行,使编译算法更加清晰 |
13 | | -* 编译器所使用的IR可以有很多种形式。就其"形状"而言,可以分为: |
14 | | - <br/> |
15 | | - ~ 基于图 |
16 | | - <br/> |
17 | | - ~ 基于线性代码 |
18 | | - <br/> |
19 | | - ~ 基于图与线性代码混合 |
20 | | -* 基于图的IR,常见的情况有: |
21 | | - <br/> |
22 | | - ~ 基于树 |
23 | | - <br/> |
24 | | - ~ 基于DAG(有向无环图) |
25 | | - <br/> |
26 | | - ~ 基于一般图 |
27 | | -* 基于线性代码的IR,常见的情况有: |
28 | | - <br/> |
29 | | - ~ 三地址代码(四元组) |
30 | | - <br/> |
31 | | - ~ 二地址代码(三元组) |
32 | | - <br/> |
33 | | - ~ 零地址代码 |
34 | | -* 基于图与线性代码混合的IR: |
35 | | - <br/> |
36 | | - ~ 最常见的情况是控制流图(CFG)用图表示 |
37 | | - <br/> |
38 | | - ~ 而CFG的每个节点是基本块,每个基本块里的代码是线性代码 |
39 | | -* 中间代码生成方法:https://www.bilibili.com/video/BV1cW411B7DW?p=44 |
40 | | - ~ 语法制导翻译 |
41 | | - ~ 属性文法制导翻译 |
42 | | -* 什么是语法制导翻译:语法分析过程中,边分析,边翻译 |
43 | | -* 语法制导翻译具体实现:为每个产生式配置一个语义子程序,当语法分析进行规约或推导时,调用语义子程序完成一部分翻译任务 |
44 | | -* 语义子程序的主要任务:改变某些变量的值、查填各种符号表、发现并报告源程序错误、产生中间代码等 |
45 | | -* 语义:语义跟文法不一样。例如文法E → E + E,表示一个表达式可以推导出另一个表达式加另另一个表达式,如表达式2+3*4可以拆成表达式2加上表达式3*4,虽然表达式都是E表示,但每个E的语义值不同,例如第一个E的语义值为14,第二个E的语义值为2,第三个E的语义值为12。 |
46 | | -* 语义分析常常跟中间代码生成一起实现,所以语法分析、语义分析、中间代码生成经常是在语法分析时候一起进行的 |
47 | | -* 语义属性:为描述语义动作,为每个文法符号赋予不同的语义属性:值、类型、地址等 |
48 | | -* 三地址表达式:表达式中最多只能出现3个地址,因为cpu无法处理4个及其以上地址的操作。可以看成是抽象语法树的一种线性表示。* 三地址代码基于两个基本的概念:地址和指令。简单地说,地址就是运算分量,指令就是运算符,一个地址的表现形式可以是变量名、常量或者编译器生成的临时变量。下面是几种常见的三地址指令形式: |
49 | | -  |
50 | | -* 为什么选择三地址的中间形式: |
51 | | - <br/> |
52 | | - ~ 三地址代码是一种线性IR。由于输入源程序及输出目标程序都是线性的,因此,线性IR有着其他形式无法比拟的优势。 |
53 | | - <br/> |
54 | | - ~ 相对于其他表示形式而言,程序员对于线性表示形式通常会有一种莫名的亲切感,编译器设计者当然也不例外。早期编译器设计者往往都是汇编语言程序设计的高手,可以非常自然、流畅地阅读线性的三地址代码形式。同时,线性表示形式也会降低输入输出的实现难度。 |
55 | | -* 三地址码生成:按深度优先遍历AST,每个节点生成一个临时变量 |
56 | | -* 左值和右值:等号左边和右边的区别。数字1只有右值,变量可以有左值和右值 |
57 | | -* BinaryExpr:op左右都有值的称为BinaryExpr |
58 | | -* UaryExpr:op只有右值,没有左值的称为UnaryExpr。例如一个表达式 |
59 | | -* 任何一个非叶子节点都能生成一个左值和一个右值,右值是一个表达式例如100+200,左值是一个临时变量例如t1,完整:t1=100+200 |
60 | | -* Duck Type:鸭子类型。非鸭子类型语言生成左值时需要判定左值类型是否支持生成左值 |
61 | | -* 三地址代码实例1: |
| 3 | +*中间代码: |
| 4 | +·基本概念: |
| 5 | + -- IR:中间代码。它独立于机器,复杂性介于源码与机器码之间 |
| 6 | + -- ILGen:(Intermediate Code/Language Generator)中间代码生成 |
| 7 | +·解释器通常不生成中间码,而是直接计算结果。编译器会生成中间码,例如Java字节码 |
| 8 | +·中间代码的设计要求: |
| 9 | + -- 与机器无关 |
| 10 | + -- 利于优化 |
| 11 | + -- 利于目标代码的生成 |
| 12 | +·中间码的作用:主要是产生工程上的意义 |
| 13 | + -- 易移植:与机器无关,所以它作为中间语言可以为生成多种不同型号的目标机器码服务 |
| 14 | + -- 机器无关优化:对中间码进行机器无关优化,利于提高代码质量 |
| 15 | + -- 层次清晰:将AST映射成中间代码表示,再映射成目标代码的工作分层进行,使编译算法更加清晰 |
| 16 | +·编译器所使用的IR可以有很多种形式。就其"形状"而言,可以分为: |
| 17 | + -- 基于图 |
| 18 | + -- 基于树 |
| 19 | + -- 基于DAG(有向无环图) |
| 20 | + -- 基于一般图 |
| 21 | + -- 基于线性代码 |
| 22 | + -- 三地址代码(四元组) |
| 23 | + -- 二地址代码(三元组) |
| 24 | + -- 零地址代码 |
| 25 | + -- 基于图与线性代码混合 |
| 26 | + -- 最常见的情况是控制流图(CFG)用图表示 |
| 27 | + -- 而CFG的每个节点是基本块,每个基本块里的代码是线性代码 |
| 28 | +·中间代码生成方法:语法制导翻译 |
| 29 | + |
| 30 | + |
| 31 | +*语法制导翻译: |
| 32 | +·什么是语法制导翻译:语法分析过程中,边分析(语法分析),边翻译(语义分析和中间码生成)。即语法分析、语义分析、中间代码生成经常是在语法分析时候一起进行的 |
| 33 | +·语义分析:是对经语法分析器处理过后的在结构上正确的源程序进行上下文有关性质的审查,是编译程序最实质的过程 |
| 34 | +·语义属性文法:是在上下文无关文法的基础上为每个文法符号(终结符或非终结符)配备若干个相关的"值"(称为语义属性) |
| 35 | + -- 语义属性:代表与文法符号相关的信息,和变量一样,可以进行计算和传递,常用于存储结果和中间值。例:类型、值、代码序列、符号表内容等 |
| 36 | + -- 语义规则:也称语法制导定义(Syntax Directed Definition),对于文法的每一个产生式配备一组属性的计算规则, 属性计算的过程即是语义处理的过程,常用于描述属性如何被计算。例如定义AST如何被翻译:如想将AST翻译为Java,则定义Java语法制导规则;想将AST翻译为三地址码,则定义三地址码语法制导规则。使AST与目标代码解耦。 |
| 37 | +·语义与语法:语义跟文法不一样。例如文法E → E + E,表示一个表达式可以推导出另一个表达式加另另一个表达式,如表达式2+3*4可以拆成表达式2加上表达式3*4,虽然表达式都是E表示,但每个E的语义值不同,例如第一个E的语义值为14,第二个E的语义值为2,第三个E的语义值为12。 |
| 38 | +·语法制导翻译具体实现:为每个产生式配置一个语义子程序(子程序用于实现语法制导规则),当语法分析进行规约或推导时,调用语义子程序完成一部分翻译任务。 |
| 39 | +·语义子程序的主要任务:语义分析(改变某些变量的值、查填各种符号表、发现并报告源程序错误等)和产生中间代码 |
| 40 | +·语义子程序相关属性和规则存储于符号表中 |
| 41 | + |
| 42 | + |
| 43 | +*符号表: |
| 44 | +·语法制导翻译时,为每个产生式配置一个语义子程序,为了获取子程序相关信息,我们通常需要一种中间的记录来描述符号之间的关系,特别是作用域关系(04_运行时刻环境中将会体现),这种记录的容器就是符号表。 |
| 45 | +·编译器各种阶段都可能跟表格产生联系 |
| 46 | +·符号表的作用: |
| 47 | + -- 用于存储符号(变量、常量、标签)在源代码中的位置、数据类型、位置信息决定的词法作用域和运行时的相对内存地址 |
| 48 | + -- 一致性检查:查符号表检查标示符是否为标号(label) |
| 49 | + -- 作用域分析:同一个名字在不同函数嵌套中代表的地址不一样 |
| 50 | + -- 辅助代码生成:为目标代码生成进行优化提供信息 |
| 51 | +·符号表实例: |
| 52 | + NAME INFORMATION |
| 53 | + index 整型,变量 |
| 54 | + socre 实型,变量 |
| 55 | + p 数组,形式参数 |
| 56 | +·常见符号表: |
| 57 | + -- 名字表(nametab) |
| 58 | + -- 程序体表(btab) |
| 59 | + -- 层次显示表(display) |
| 60 | + -- 数组信息表(atab) |
| 61 | + -- 中间代码表(code) |
| 62 | + |
| 63 | + |
| 64 | +*三地址码: |
| 65 | +·三地址码是中间码中常用的一种 |
| 66 | +·三地址表达式:表达式中最多只能出现3个地址,因为cpu无法处理4个及其以上地址的操作。可以看成是抽象语法树的一种线性表示。 |
| 67 | +·三地址代码基于两个基本的概念:地址和指令。简单地说,地址就是运算分量,指令就是运算符,一个地址的表现形式可以是变量名、常量或者编译器生成的临时变量。几种常见的三地址指令形式:《ir指令行事》:./imgs/ir.jpg |
| 68 | +·为什么选择三地址的中间形式: |
| 69 | + -- 三地址代码是一种线性IR。由于输入源程序及输出目标程序都是线性的,因此,线性IR有着其他形式无法比拟的优势。 |
| 70 | + -- 相对于其他表示形式而言,程序员对于线性表示形式通常会有一种莫名的亲切感,编译器设计者当然也不例外。早期编译器设计者往往都是汇编语言程序设计的高手,可以非常自然、流畅地阅读线性的三地址代码形式。同时,线性表示形式也会降低输入输出的实现难度。 |
| 71 | +* 三地址码生成:按深度优先遍历AST,每个节点生成一个临时变量。等价如下递归算法: |
| 72 | + func eval(expr){ |
| 73 | + if(expr is Factor){ |
| 74 | + return expr.value |
| 75 | + } |
| 76 | + return eval(expr.left) expr.op eval(expr.right) |
| 77 | + } |
| 78 | + -- 左值和右值:等号左边和右边的区别。数字1只有右值,变量可以有左值和右值 |
| 79 | + -- BinaryExpr:op左右都有值的称为BinaryExpr |
| 80 | + -- UaryExpr:op只有右值,没有左值的称为UnaryExpr。例如一个表达式 |
| 81 | + -- 任何一个非叶子节点都能生成一个左值和一个右值,右值是一个表达式例如100+200,左值是一个临时变量例如t1,完整:t1=100+200 |
| 82 | +·Duck Type:鸭子类型。非鸭子类型语言生成左值时需要判定左值类型是否支持生成左值 |
| 83 | +·三地址代码实例1: |
62 | 84 | 源码:
|
63 | | - ``` |
64 | | - var a=1 |
65 | | - var b=5 |
66 | | - var c=(a+b)*5 |
67 | | - ``` |
| 85 | + var a=1 |
| 86 | + var b=5 |
| 87 | + var c=(a+b)*5 |
68 | 88 | 转换为三地址码如下:
|
69 | | - ``` |
70 | | - declare a |
71 | | - declare b |
72 | | - declare c |
73 | | - a=1 |
74 | | - b=5 |
75 | | - t1=a+b |
76 | | - t2=t1*5 |
77 | | - c=t2 |
78 | | - ``` |
| 89 | + declare a |
| 90 | + declare b |
| 91 | + declare c |
| 92 | + a=1 |
| 93 | + b=5 |
| 94 | + t1=a+b |
| 95 | + t2=t1*5 |
| 96 | + c=t2 |
79 | 97 | 分析:实例展示了从js源码到三地址码,再到机器码的过程,可以看到三地址码的每行代码永远只存在三个变量。以上只需要按深度优先遍历AST,每个节点生成一个临时变量即可生成。
|
80 | | -*三地址表达式实例2: |
| 98 | +·三地址表达式实例2: |
81 | 99 | 源码:
|
82 | | - ``` |
83 | | - function f(n){ |
84 | | - if(n==1 || n==2){ |
85 | | - return n |
| 100 | + function f(n){ |
| 101 | + if(n==1 || n==2){ |
| 102 | + return n |
| 103 | + } |
| 104 | + return f(n-1)+f(n-2) |
86 | 105 | }
|
87 | | - return f(n-1)+f(n-2) |
88 | | - } |
89 | | - f(5) |
90 | | - ``` |
| 106 | + f(5) |
91 | 107 | 转换为三地址码如下:
|
92 | | - ``` |
93 | | - declare f |
94 | | - declare n |
95 | | - t1=n==1 |
96 | | - t2=n==2 |
97 | | - t3=t1 or t2 |
98 | | - branch t3==true |
99 | | - goto (return n)行 or (return f(n-1)+f(n-2))行 //return怎么处理?? |
100 | | - t4=n-1 |
101 | | - t5=f(t4) //如何递归 |
102 | | - t6=n-2 |
103 | | - t7=f(t6) //如何递归 |
104 | | - t8=t5+t7 |
105 | | - call f //如何调用 |
106 | | -``` |
107 | | -* 文档: |
108 | | - <br/> |
109 | | -  中间码简介:https://www.jianshu.com/p/2862623af39e |
110 | | - <br/> |
111 | | -  中间码的形式:https://www.hashcoding.net/2015/12/10/%E5%85%AD%E3%80%81%E4%B8%AD%E9%97%B4%E4%BB%A3%E7%A0%81-IR/ |
112 | | - <br/> |
113 | | - 中间码的设计:https://book.51cto.com/art/201206/340208.htm |
114 | | - <br/> |
115 | | -  图解各种三地址码的特点1:https://blog.csdn.net/SHU15121856/article/details/104711426/ |
116 | | - <br/> |
117 | | -  图解各种三地址码的特点2:https://blog.csdn.net/raojun/article/details/103605349 |
118 | | -*要使目标代码正确执行,由上面的三地址码直接转为的目标代码还是不够的,例如在不同作用域中存在同样变量名,我们如何在运行时确定变量的存储单元。所以我们还需要知道程序执行时的上下文环境、变量的作用域等信息才能生成准确的机器码。这些知识我们将在[04_运行时刻环境](../04_运行时刻环境/README.md)中学习到,并生成正确的中间代码 |
| 108 | + declare f |
| 109 | + declare n |
| 110 | + t1=n==1 |
| 111 | + t2=n==2 |
| 112 | + t3=t1 or t2 |
| 113 | + branch t3==true |
| 114 | + goto (return n)行 or (return f(n-1)+f(n-2))行 //return怎么处理? |
| 115 | + t4=n-1 |
| 116 | + t5=f(t4) //如何递归调用? |
| 117 | + t6=n-2 |
| 118 | + t7=f(t6) //如何递归调用? |
| 119 | + t8=t5+t7 |
| 120 | + call f //如何调用函数? |
| 121 | + 分析:在三地址代码实例1中,生成的中间码在运行时按顺序之上而下执行就能很好的执行。但该例中会遇到一些问题,例如如何处理return?如何处理递归调用?函数如何调用?要解决这些问题,首先是要了解运行时刻环境 |
| 122 | +·三地址表达式实例2的分析: |
| 123 | + -- 无论return还是递归,解决问题的关键就是要给函数打一个标签,该标签记录着函数的位置,标签可以存放到符号表中,这样return或递归时将指针移动到该函数的位置即可。 |
| 124 | + |
| 125 | + |
| 126 | +*文档: |
| 127 | +·中间码简介:https://www.jianshu.com/p/2862623af39e |
| 128 | +·中间码的形式:https://www.hashcoding.net/2015/12/10/%E5%85%AD%E3%80%81%E4%B8%AD%E9%97%B4%E4%BB%A3%E7%A0%81-IR/ |
| 129 | +·中间码的设计:https://book.51cto.com/art/201206/340208.htm |
| 130 | +·图解各种三地址码的特点1:https://blog.csdn.net/SHU15121856/article/details/104711426/ |
| 131 | +·图解各种三地址码的特点2:https://blog.csdn.net/raojun/article/details/103605349 |
| 132 | + |
| 133 | + |
| 134 | +*要使目标代码正确执行,由上面的三地址码直接转为的目标代码还是不够的,例如在三地址代码实例2提到的一些问题,另外还有不同作用域中存在同样变量名,我们如何在运行时确定变量的存储单元。所以我们还需要知道程序在内存中的位置、程序执行时的上下文环境、变量的作用域等信息才能生成准确的中间码。这些知识我们将在《04_运行时刻环境》:../04_运行时刻环境/README.md中学习到 |
0 commit comments