心得技巧

html5 HTML/Xhtml CSS XML/XSLT Dreamweaver教程 Frontpage教程心得技巧

上一篇: Rust学习之旅（读书笔记）：枚举... 下一篇:open ssl 1.1.1m 编译

Day04 进制和编码

发布时间：2022-06-27 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了Day04 进制和编码，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

Day04 进制和编码

课程目标：讲解计算机中一些必备的常识知识，让学员了解一些常见名词背后的含义（重在理解）。

课程概要：

python代码的运行方式
进制
计算机中的单位
编码

1.Python代码运行方式

脚本式

python3 ~/PycharmPRojects/day03/6.作业题讲解.py

交互式
```
python3
```

Day04 进制和编码

2.进制

计算机中底层所有的数据都是以 010101的形式存在（图片、文本、视频等）。

二进制
```
0
1
10
```

Day04 进制和编码

八进制
十进制
十六进制

Day04 进制和编码

2.1 进制转换

Day04 进制和编码

25
vl = bin(25)  # 十进制装换为二进制
v2 = oct(25)  # 十进制装换为八进制
v3 = hex(25)  # 十进制转换为16进制

i1 = int("0b11001", base=2)   # 二进制转换成十进制
i1 = int("0b11001", base=8)   # 二进制转换成十进制
i1 = int("0b11001", base=16)  # 二进制装换成16进制

3. 计算机中的单位

由于计算机中本质上所有的东西以为二进制存储和操作的，为了方便对于二进制大小的表示，所以就搞了一些单位

b（bIT），位
```
1 # 一位
10 # 二位
110 # 三位
```

B（byte）,字节

8 位是一个字节

10010110  # 1个字节
10010110  10010110  # 2个字节

KB，（kilobyte），千字节

1024个字节就是1个千字节
1KB = 1024B
10101010 10101010 .....   1KB
1KB = 1024B= 1024 * 8 b

M（Megabyte），兆

1MB = 1024KB
1M = 1024KB = 1024*1024B = 1024*1024*8b

G（Gigabyte），千兆
```
1024M = 1GB
```
T（Terabyte），万亿字节
```
1024GB = 1TB
```
...其他更大单位 PB/EB/ZB/YB/BB/NB/DB 不再赘述。

4.编码

编码，文字和二进制之间的一个对应表。

4.1 ASCII编码

ascii规定使用1个字节来表示字母与二进制的对应关系。

0000000
00000001    w
00000010    B
00000011    a
...
11111111

2**8 = 256

Day04 进制和编码

4.2 gb-2312编码

gb-2312编码，由国家信息标准委员会制作（1980年）。

gbk编码，对gb2312进行扩展，包含了中日韩等文字（1995年）。

在与二进制做对应关系时，由如下逻辑：

单字节表示，用一个字节表示对应关系。2**8 = 256种可能性
双字节表示，用两个字节表示对应关系。2**16 = 65536种可能性。

4.3 unicode

unicode也被称为万国码@H_304_194@，为全球的每个文字都分配了一个码位（二进制表示）。

ucs2

用固定的2个字节去表示一个文字。 00000000 00000000 悟 ... 2**16 = 65535

ucs4

用固定的4个字节去表示一个文字。 00000000 00000000 00000000 00000000 无 ... 2**32 = 4294967296

文字十六进制二进制 ȧ 0227 1000100111 ȧ 0227 00000010 00100111 ucs2 ȧ 0227 00000000 00000000 00000010 00100111 ucs4 乔 4E54 100111001010100 乔 4E54 01001110 01010100 ucs2 乔 4E54 00000000 00000000 01001110 01010100 ucs4 😆 1F606 11111011000000110 😆 1F606 00000000 00000001 11110110 00000110 ucs4

无论是ucs2和ucs4都有缺点：浪费空间？

文字十六进制二进制 A 0041 01000001 A 0041 00000000 01000001 A 0041 00000000 00000000 00000000 01000001

unicode的应用：在文件存储和网络传输时，不会直接使用unicode，而在内存中会unicode。

4.4 utf-8编码

包含所有文字和二进制的对应关系，全球应用最为广泛的一种编码（站在巨人的肩膀上功成名就）。

本质上：utf-8是对unicode的压缩，用尽量少的二进制去与文字进行对应。存储数据时，将Unicode转换成utf-8进行存储，进行优化

unicode码位范围 utf-8 0000 ~ 007F 用1个字节表示 0080 ~ 07FF 用2个字节表示 0800 ~ FFFF 用3个字节表示 10000 ~ 10FFFF 用4个字节表示

具体压缩的流程：

第一步：选择转换模板

码位范围（十六进制）转换模板 0000 ~ 007F 0XXXXXXX 0080 ~ 07FF 110XXXXX 10XXXXXX 0800 ~ FFFF 1110XXXX 10XXXXXX 10XXXXXX 10000 ~ 10FFFF 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX 例如： "B" 对应的unicode码位为 0042，那么他应该选择的一个模板。 "ǣ" 对应的unicode码位为 01E3，则应该选择第二个模板。 "武" 对应的unicode码位为 6B66，则应该选择第三个模板。 😆 对应的unicode码位为 1F606，则应该选择第四个模板。注意：一般中文都使用第三个模板（3个字节），这也就是平时大家说中文在utf-8中会占3个字节的原因了。

第二步：在模板中填入数据

- "武" -> 6B66 -> 110 101101 100110 - 根据模板去套入数据 1110XXXX 10XXXXXX 10XXXXXX 1110XXXX 10XXXXXX 10100110 1110XXXX 10101101 10100110 11100110 10101101 10100110 在UTF-8编码中 ”武“ 11100110 10101101 10100110 - 😆 -> 1F606 -> 11111 011000 000110 - 根据模板去套入数据 11110000 10011111 10011000 10000110

4.5 Python相关的编码

字符串（str） "铁锤" unicode处理一般在内存字节（byte） b"alexfdsfdsDFskdfsd" utf-8编码 or gbk编码一般用于文件或网络处理

v1 = "武" # 将Unicode处理的编码转化成utf-8的编码 v2 = "武".encode("utf-8") # 将Unicode处理的编码转换成gbk的编码 v2 = "武".encode("gbk")

将一个字符串写入到一个文件中。

name = "铁锤" # 使用utf-8的格式进行存储 data = name.encode("utf-8") # 打开一个文件 file_object = oPEn("LOG.txt",mode="wb") # 在文件中写内容 file_object.write(data) # 关闭文件 file_object.close()

总结

本章的知识点属于理解为主，了解这些基础之后有利于后面知识点的学习，接下来对本节所有的知识点进行归纳总结：

计算机上所有的东西最终都会转换成为二进制再去运行。

ascii编码、unicode字符集、utf-8编码本质上都是字符与二进制的关系。

ascii，字符和二进制的对照表。

unicode，字符和二进制（码位）的对照表。

utf-8，对unicode字符集的码位进行压缩处理，间接也维护了字符和二进制的对照表。

ucs2和ucs4指的是使用多少个字节来表示unicode字符集的码位。

目前最广泛的编码为：utf-8，他可以表示所有的字符且存储或网络传输也不会浪费资源（对码位进行压缩了）。

二进制、八进制、十进制、十六进制其实就是进位的时机不同。

基于Python实现二进制、八进制、十进制、十六进制之间的转换。

一个字节8位

计算机中常见单位b/B/KB/M/G的关系。

汉字，用gbk编码需要用2个字节；用utf-8编码需要用3个字节。

基于Python实现将字符串转换为字节（utf-8编码）

# 字符串类型 name = "铁锤" print(name) # 铁锤 # 字符串转换为字节类型 data = name.encode("utf-8") print(data) # b'xe9x93x81xe9x94xa4' # 把字节转换为字符串 old = data.decode("utf-8") print(old)

基于Python实现将字符串转换为字节（gbk编码）

# 字符串类型 name = "铁锤" print(name) # 铁锤 # 字符串转换为字节类型 data = name.encode("gbk") # print(data) # b'xe9x93x81xe9x94xa4' utf8，中文3个字节 print(data) #b'xccxfaxb4xb8' gbk，中文2个字节 # 把字节转换为字符串 old = data.decode("gbk") print(old)

脚本宝典总结

以上是脚本宝典为你收集整理的Day04 进制和编码全部内容，希望文章能够帮你解决Day04 进制和编码所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：GBK GBK java load load php python 优化优化程序员程序员资源资源

上一篇: Rust学习之旅（读书笔记）：枚举... 下一篇:open ssl 1.1.1m 编译

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15

其他相关热搜词更多

php java python 程序员 load post-format-gallery div String 参数开发 List cap Map Class 工具安装 SQL 数据库资源 this

全站导航更多

html5 HTML/Xhtml CSS XML/XSLT Dreamweaver教程 Frontpage教程心得技巧 JavaScript ASP.NET PHP编程正则表达式 AJAX相关 ASP编程 JSP编程编程10000问 CSS/HTML Flex vbs DOS/BAT hta htc python perl 游戏相关 VBA 远程脚本 ColdFusion MsSql Mysql mariadb oracle DB2 mssql2008 mssql2005 SQLite PostgreSQL MongoDB 星外虚拟主机华众虚拟主机 Linux win服务器 FTP服务器 DNS服务器 Tomcat nginx zabbix 云和虚拟化 bios系统安装系统系统进程 Windows系列 LINUX RedHat/Centos Ubuntu/Debian Fedora Solaris 红旗Linux 建站经验微信营销网站优化网站策划网络赚钱网络创业站长故事 alexa域名 photoshop教程摄影教程 Fireworks教程 CorelDraw教程 Illustrator教程 Painter教程 Freehand教程 Indesign Sketch 笔记本主板内存 CPU 存储显卡显示器光存储鼠标键盘平板电脑安全教程杀毒防毒安全设置病毒查杀脚本攻防入侵防御工具使用业界动态 Exploit 漏洞分析

最新心得技巧教程

rootfs -根文件系统制作
一文了解Promise使用与实现
clion结合vcpkg以及GTest的使用
如何将 Ubuntu 版本升级到新版本
网络游戏逆向分析-6-使用背包物品call
TIOBE 9 月编程语言排行榜：Python 直逼第一，仅差 0.16%！
leetcode 合并K个升序链表困难
通用Mapper（九）通用 Mapper 接口扩展
158
javaDoc

热门心得技巧教程

rootfs -根文件系统制作
一文了解Promise使用与实现
clion结合vcpkg以及GTest的使用
如何将 Ubuntu 版本升级到新版本
网络游戏逆向分析-6-使用背包物品call
TIOBE 9 月编程语言排行榜：Python 直逼第一，仅差 0.16%！
leetcode 合并K个升序链表困难
通用Mapper（九）通用 Mapper 接口扩展
158
javaDoc