Python基础10——字符编码、文件处理

程序员文章站 2022-05-21 12:19:06

Python基础——字符编码、文件处理文章目录字符编码一：储备知识二：什么是字符编码文件处理字符编码一：储备知识1、程序运行与三大核心硬件的关系【1】软件运行前，软件的代码及其相关数据都是存放于硬盘中的【2】任何软件的启动都是将数据从硬盘中读入内存，然后cpu从内存中取出指令并执行【3】软件运行过程中产生的数据最先都是存放于内存中的，若想永久保存软件产生的数据，则需要将数据由内存写入硬盘2、程序运行过程中产生的数据最先放在内存中3、python程序运行的三个步骤python3 D:\...

文章目录

字符编码

一：储备知识
二：什么是字符编码

文件处理

字符编码

一：储备知识

1、程序运行与三大核心硬件的关系

【1】软件运行前，软件的代码及其相关数据都是存放于硬盘中的
【2】任何软件的启动都是将数据从硬盘中读入内存，然后cpu从内存中取出指令并执行
【3】软件运行过程中产生的数据最先都是存放于内存中的，若想永久保存软件产生的数据，则需要将数据由内存写入硬盘

2、程序运行过程中产生的数据最先放在内存中
3、python程序运行的三个步骤
python3 D:\a.py
1、先启动python解释器
2、解释器会将a.py的内容当成普通内存从硬盘读入内存，此时没有语法意义
3、解释器会解释执行刚刚读入内存的内存，开始识别python语法

二：什么是字符编码

              字符---------（标准）---------------数字

字符编码表：存放的是字符与数字的对应关系

1、ASCII：只能识别英文字符
    特点：采用8bit对应一个英文字符
            8bit=》1Byte


2、GBK：可以识别中文字符串与英文字符
    特点：采用16bit对应字符，该字符可以是英文字符、也可以是中文字符

3、shift-JIS


4、unicode：可以识别万国字符
    特点：2Bytes对应一个字符




字符-----》unicode格式的数字
                |
             GBK   shiftJIS


中文字符、英文字符------------》unicode二进制数-----------》gbk二进制数
日文字符、英文字符------------》unicode二进制数-----------》shiftJIS二进制数
韩文字符、英文字符------------》unicode二进制数-----------》Euc-kr二进制数
万国字符------------》unicode二进制数-----------》utf-8二进制数


5、utf-8
    1Byte对应英文字符
    3Byte对应一个中文字符

1、群雄割据：

英文字符--------------内存：ASCII二进制数--------------->硬盘：ASCII二进制数
中文英文字符--------------内存：GBK二进制数--------------->硬盘：GBK二进制数
日文英文字符--------------内存：shiftJIS二进制数--------------->硬盘：shiftJIS二进制数
韩文英文字符--------------内存：Euc-Kr二进制数--------------->硬盘：Euc-Kr二进制数

2、过渡阶段：

中文英文字符------------内存：unicode=========gbk============>硬盘：GBK二进制数
日文英文字符------------内存：unicode=========shifJIS========>硬盘：shiftJIS二进制数
韩文英文字符------------内存：unicode=========Euc-Kr=========>硬盘：Euc-Kr二进制数
万国字符----------------内存：unicode=========utf-8==========>硬盘：utf-8二进制数

内存固定使用：unicode
我们可以改变的是从内存写入硬盘采用的编码格式

3、分久必合：

万国字符----------------内存：unicode=========utf-8==========>硬盘：utf-8二进制数
万国字符----------------内存：utf-8==========================>硬盘：utf-8二进制数

乱码问题：

1、存的时候乱了：采用的字符编码表无法识别输入的字符
    存的时候就已经乱了，是无法补救的，取的时候一定也乱了

    解决方法：存入硬盘的编码格式应该用utf-8格式


2、存的时候没有乱码：采用的字符编码表可以识别输入的字符
    但是取的时候乱码了：采用的字符编码表与当初存的时候用的不是同一张表

    解决方法：存的时候用什么编码，取的时候一定要用同样的编码格式

与运行python程序有关的乱码问题：

1、保证运行python程序的前两个阶段不乱码
    在python文件的开头加一行：
        #coding:文件存的时候用的编码格式

2、保证第三个阶段不乱码
    使用python3
    如果使用的是python2，应该在符串前加前缀u

编码：

字符-----编码--------》unicode格式的数字------编码-----》gbk格式的数字
字符-----解码--------》unicode格式的数字《------解码-----gbk格式的数字

在python3中字符串类型的值在内存中都是unicode格式的数字

x="上"
print(x)

在python2中字符串类型的值在内存中都是文件头指定编码格式的数字

x=u"上"	 # 如果在字符串前加前缀u就把字符串强制存成unicode格式，推荐使用
print([x,])
print(x)

bytes类型可以理解为一种硬盘的原生格式
str类型

x = "上"
# unicode格式的数字==编码===>其他编码格式的数字
res1=x.encode("gbk")
# print(res1,type(res1))
res2=x.encode("utf-8")
# print(res2,type(res2))

# 其他编码格式的数字==解码==>unicode格式数字
x=res1.decode("gbk")
# print(x)
y=res2.decode("utf-8")
print(y,type(y))

文件处理

1、什么是文件

文件是操作系统提供给用户/应用程序操作硬盘的一个虚拟单位

2、为何要用文件

存取硬盘必须使用文件

3、如何用文件

f = open(文件路径,打开模式)
f.write(数据)
f.close()

应用程序/用户       文件对象/文件句柄=================》遥控器
操作系统            打开文件a.txt============》空调
硬件                硬盘

绝对路径:（就是文件的完整路径）

优点：路径完整，易于寻找
缺点：路径名可能过长，前路径修改后，文件就找不到

windows系统

D:\python38\Doc\python383
C:\a\b\c\new.txt

linux系统

/a/b/c/d.txt

file_path=r'C:\a\b\c\new.txt'
file_path=r'/a/b/c/d.txt'

相对路径:（当前文件夹所在的路径）

优点：路径相对剪短
缺点：文件换个文件夹就不以寻找

c\d.txt
d.txt

示范：
操作文件（读/写）

r"D:\python全栈15期\day10\a.txt"
f = open(r"aaa\a.txt", mode='rt',encoding='utf-8')
res=f.read()
print(res)
f.close()



f = open(r"aaa\a.txt", mode='rb')
res=f.read()
# print(res,type(res))
x=res.decode('utf-8')
print(x)
f.close()

本文地址：https://blog.csdn.net/chongaiyatou/article/details/107366364

上一篇：荀彧贾诩的功劳比司马懿还要打最后夺权的人为何会是司马懿

下一篇： postgres表空间和os的文件的对应关系

Python基础10——字符编码、文件处理

文章目录

字符编码

一：储备知识

二：什么是字符编码

文件处理

Python 2/3下处理cjk编码的zip文件的方法

python基础(10):文件操作

python基础-文件处理

在Python中使用base64模块处理字符编码的教程

Python判断文件和字符串编码类型的实例

day10-11-python基础之字符串

Python基础（集合用法、文件操作、字符编码转换、函数）

python源文件的字符编码知识点详解

Python入门基础学习(文件与异常处理)

Python 2/3下处理cjk编码的zip文件的方法