18-base64-encoding

18. 计算机编码规则之:Base64编码

简介

我们知道计算机中的文件可以分为两种，一种是人肉眼可读的文本类文件，一种是肉眼不可读的二进制文件。一般来说二进制文件如果用文本编辑器打开的话会显示乱码，并且二进制文件和文本文件的存储和传输方式是不一样的，那么有没有什么办法将二进制文件转换成为文本文件进行传输或者存储呢？答案是肯定的。

这种编码方式就是我们今天要讲到的Base64编码。

Base64和它的编码原理

Base64是一种将二进制编码格式转换为text编码的一种形式。我们知道二进制编码是0和1的形式，它的单位通常是一个字节，也就是8bits，每个bit表示的是0或者1。

而文本编码的格式有很多种，最早也就是最简单的编码格式就是ASCII编码，ASCII编码的全称是American Standard Code for Information Interchange,也就是美国信息交换标准代码,它主要表示的是常用的一些西欧字符。

ASCII的编码范围是0x00-0x7F,用十进制来表示就是0-127，总共128个字符，刚好是7bits表示的范围。

ASCII编码中包含了33个控制字符和95个可打印的字符,如下所示：

ASCII码

含义

ASCII码

含义

16进制

10进制

2进制

16进制

10进制

2进制

0x00

NUL 空

0x40

1000000

0x01

SOH 标题开始

0x41

1000001

0x02

STX 正文开始

0x42

1000010

0x03

ETX 正文结束

0x43

1000011

0x04

100

EOT 传输结束

0x44

1000100

0x05

101

ENQ 询问字符

0x45

1000101

0x06

110

ACK 承认

0x46

1000110

0x07

111

BEL 报警

0x47

1000111

0x08

1000

BS 退一格

0x48

1001000

0x09

1001

HT 横向制表

0x49

1001001

0x0A

1010

LF 换行

0x4A

1001010

0x0B

1011

VT 垂直制表

0x4B

1001011

0x0C

1100

FF 走纸控制

0x4C

1001100

0x0D

1101

CR 回车

0x4D

1001101

0x0E

1110

SO 移位输出

0x4E

1001110

0x0F

1111

SI 移位输入

0x4F

1001111

0x10

10000

DLE 数据链路转义

0x50

1010000

0x11

10001

DC1 设备控制1

0x51

1010001

0x12

10010

DC2 设备控制2

0x52

1010010

0x13

10011

DC3 设备控制3

0x53

1010011

0x14

10100

DC4 设备控制4

0x54

1010100

0x15

10101

NAK 否定

0x55

1010101

0x16

10110

SYN 空转同步

0x56

1010110

0x17

10111

ETB 信息组传送结束

0x57

1010111

0x18

11000

CAN 作废

0x58

1011000

0x19

11001

EM 纸尽

0x59

1011001

0x1A

11010

SUB 换置

0x5A

1011010

0x1B

11011

ESC 换码

0x5B

1011011

[

0x1C

11100

FS 文字分隔符

0x5C

1011100

0x1D

11101

GS 组分隔符

0x5D

1011101

]

0x1E

11110

RS 记录分隔符

0x5E

1011110

0x1F

11111

US 单元分隔符

0x5F

1011111

0x20

100000

(space)

0x60

1100000

0x21

100001

！

0x61

1100001

0x22

100010

”

0x62

1100010

0x23

100011

0x63

1100011

0x24

100100

0x64

100

1100100

0x25

100101

0x65

101

1100101

0x26

100110

0x66

102

1100110

0x27

100111

0x67

103

1100111

0x28

101000

(

0x68

104

1101000

0x29

101001

)

0x69

105

1101001

0x2A

101010

0x6A

106

1101010

0x2B

101011

0x6B

107

1101011

0x2C

101100

0x6C

108

1101100

0x2D

101101

0x6D

109

1101101

0x2E

101110

0x6E

110

1101110

0x2F

101111

0x6F

111

1101111

0x30

110000

0x70

112

1110000

0x31

110001

0x71

113

1110001

0x32

110010

0x72

114

1110010

0x33

110011

0x73

115

1110011

0x34

110100

0x74

116

1110100

0x35

110101

0x75

117

1110101

110110

0x76

118

1110110

0x37

110111

0x77

119

1110111

0x38

111000

0x78

120

1111000

0x39

111001

0x79

121

1111001

0x3A

111010

0x7A

122

1111010

0x3B

111011

;

0x7B

123

1111011

{

0x3C

111100

0x7C

124

1111100

0x3D

111101

0x7D

125

1111101

}

0x3E

111110

0x7E

126

1111110

0x3F

111111

0x7F

127

1111111

DEL 删除

Base64就是从ASCII编码中挑选出64个字符和二进制一个字节8bits进行映射,这也就是Base64中64的含义。为什么要选择ASCII编码呢？这是因为ASCII编码是最早出现的编码形式，几乎所有的计算机应用都对其完全支持，不会出现数据传输过程中的内容转换，非常的安全。

当然Base64编码也有多种编码形式，比如在MIME中，Base64选择的是A-Z, a-z, 和 0-9 总共62个字符，再加上其他自选的两个字符组成了64个编码字符。

64个字符用二进制表示是6bits,而常用的二进制使用一个字节来表示，也就是8bits，那么问题来了，怎么将8bits的二进制用6bits的Base64字符来表示呢？

很简单，我们只需要将3个8bits连接起来，变成24bits，这样就可以用4个Base64来表示了。

为什么必须对二进制进行转换呢？这是因为互联网中的某些传输协议只支持某些特定的字符集，如果是其他的字符集是不支持的。比如说常用的发送电子邮件的附件。因为SMTP协议最开始设计的时候是支持7 位 ASCII 字符,所以如果要传输文件的话，我们需要对文件进行编码之后再进行传输。

另外Base64的一种用法就是在HTML中将图片嵌入到网页中，从而实现图片的展示。

虽然Base64很好用，但是因为其只能使用6bits的字符映射集，所以会造成数据映射的损失，从而导致二进制文件编码过后文件体积变大的缺点。

Base64的变体

Base64简单点说就是bit到bit之间的映射，那么肯定不止一种映射方式，我们来看下Base64编码方式的各种变体，通常来说前62位基本上是一样的，不同之处在后面两个字符，以及用于填充的字符（这在某些协议中可能是强制性的，或者在其他协议中可能被删除）。

下表是常见的Base64编码的变体：

编码名称

编码字符

第62位

第63位

补全符

RFC 1421: Base64 for Privacy-Enhanced Mail (deprecated)

+

/

= mandatory

RFC 2045: Base64 transfer encoding for MIME

+

/

= mandatory

RFC 2152: Base64 for UTF-7

+

/

RFC 3501: Base64 encoding for IMAP mailbox names

+

,

RFC 4648: base64 (standard)

+

/

= optional

RFC 4648: base64url (URL- and filename-safe standard)

-

_

= optional

RFC 4880: Radix-64 for OpenPGP

+

/

= mandatory

Base64的编码细节

上一节我们讲到了Base64编码的基本原则和一些常见的变体，那么到底是如何进行映射的呢？

本节我们会以Base64的标准形式RFC 4648为例来进行详细的讲解。

RFC 4648选择+和/这两个字符作为编码中的第62位和63位，并且选择=作为补全字符。

首先来观察一下RFC 4648的映射表:

索引

二进制

字符

索引

二进制

Char

索引

二进制

Char

索引

二进制

Char

000000

A

010000

Q

100000

g

110000

w

000001

B

010001

R

100001

h

110001

x

000010

C

010010

S

100010

i

110010

y

000011

D

010011

T

100011

j

110011

z

000100

E

010100

U

100100

k

110100

0

000101

F

010101

V

100101

l

110101

1

000110

G

010110

W

100110

m

110110

2

000111

H

010111

X

100111

n

110111

3

001000

I

011000

Y

101000

o

111000

4

001001

J

011001

Z

101001

p

111001

5

001010

K

011010

a

101010

q

111010

6

001011

L

011011

b

101011

r

111011

7

001100

M

011100

c

101100

s

111100

8

001101

N

011101

d

101101

t

111101

9

001110

O

011110

e

101110

u

111110

+

001111

P

011111

f

101111

v

111111

/

补全符

我们来以单词man为例，来观察一下Base64的编码流程。

man这个单词在ASCII中分别用77, 97和110表示，转换成为二进制就是01001101, 01100001 和 01101110。

将上面的三个二进制合并在一起就成了：010011010110000101101110, 总共24-bit，从上面的表中选择出对应的字符,所以我们可以得到man经过base64编码之后得到：TWFu。

上面的例子中，man刚好是3个字符，也就是24个bits，可以用base64完整的表示。如果我们只有ma这两个字符，应该怎么进行编码呢？

和上面一样，ma的二进制分别是01001101, 01100001，合并起来就是0100110101100001。

但是上面的bits只有16位，因为一个base64是6bits，所以可以用3个base64来表示，因为原始的bits少了两位，所以用0来补全：

0100110101100001+00 = 010011010110000100。

010011010110000100转换成为base64就是TWE，因为base64编码需要4个字符，所以最后的字符用=来补全，也就是说me经过base64之后变成TWE=。

总结

以上就是Base64的基本含义和转换规则，其实协议很简单，将要转换的数据变成二进制，然后对照转换表格进行转换和补全即可。

上一页17-unix-domain-socket 下一页19-domain-name-service

最后更新于 1年前

这有帮助吗？

hashtag18. 计算机编码规则之:Base64编码

hashtag简介

hashtagBase64和它的编码原理

hashtagBase64的变体

hashtagBase64的编码细节

hashtag总结

18. 计算机编码规则之:Base64编码

简介

Base64和它的编码原理

Base64的变体

Base64的编码细节

总结