Python里struct模块 字节流打包解包struct的二进制处理

Struct模块是python中用于处理二进制数据的工具,主要功能是将基本数据类型打包为字节流或从字节流中解析出原始数据。1. 它的核心功能包括pack和unpack函数,分别用于打包和解包数据;2. 支持指定大小端格式(如>表示大端,

python 中处理二进制数据时,struct 模块是一个非常实用的工具。它主要用于将 Python 的基本数据类型(如整数、浮点数等)转换为对应的字节流(bytes),或者反过来,从字节流中解析出原始数据。

这在网络通信、文件格式解析、协议开发等场景中特别有用。


struct 是什么?为什么用它?

struct 模块的核心功能是 打包(pack)和解包(unpack) 数据。比如,你有一个整数 12345,想把它转成 4 字节的二进制形式发送出去,或者接收到一段字节流,需要从中提取出多个不同类型的数据,这时候 struct 就派上用场了。

它的优势在于:

立即学习Python免费学习笔记(深入)”;

  • 精确控制数据的大小端(endianness)
  • 明确指定每个字段的类型和长度
  • 避免手动计算偏移量和位操作

常见用法:pack 和 unpack

这两个函数是最常用的。

pack:把数据打包成 bytes

import struct  # 打包一个整数(i 表示 int,通常是 4 字节) data = struct.pack('i', 12345) print(data)  # 输出类似 b'x39x30x00x00'

格式字符串 ‘i’ 表示使用默认的字节序(一般是小端)。如果你要指定大端或小端,可以加前缀:

  • >:大端(Big-endian)

例如:

struct.pack('>i', 12345)  # 大端 struct.pack('<i', 12345)  # 小端

unpack:把 bytes 解包回原始值

value = struct.unpack('i', data) print(value)  # 输出 (12345,)

注意返回的是一个元组,即使只有一个值。

如果打包时用了特定字节序,解包时也要对应:

struct.unpack('>i', b'x00x00x30x39')  # 正确解析为 12345

常用格式字符说明

格式字符串决定了如何解释数据。以下是一些常用格式字符:

格式符 类型 字节数
b 有符号字节(int8) 1
B 无符号字节(uint8) 1
h 有符号短整型 2
H 无符号短整型 2
i 有符号整型 4
I 无符号整型 4
f 单精度浮点型 4
d 双精度浮点型 8

你还可以组合使用:

struct.pack('<if', 1, 2.0)  # 打包一个 int + float,共 8 字节

实际应用:解析固定结构的二进制数据

假设你要解析一个自定义的二进制协议头,结构如下:

  • 2 字节命令码(unsigned short)
  • 4 字节长度(unsigned int)
  • 8 字节时间戳(unsigned long long)

你可以这样写:

header_format = '<HIL'  # H=2字节无符号短整型,I=4字节无符号整型,L=8字节无符号长整型 header_data = b'x01x00x0ax00x00x00x01x00x00x00x00x00x00x00'  cmd, length, timestamp = struct.unpack(header_format, header_data) print(cmd, length, timestamp)  # 输出 1 10 1

这种结构化的处理方式,在解析网络协议、图像/音频文件头等场景下非常常见。


注意事项和常见问题

  • 对齐问题:struct 默认会考虑 C 结构体的对齐规则。如果你希望紧凑排列,可以在格式字符串前加 = 或者用 !(网络顺序)。
  • 字节序选择:网络传输一般用大端(>),而 x86 架构的机器本地存储多用小端(
  • 错误处理:输入的 bytes 长度必须严格匹配格式字符串所需的长度,否则会报错。
  • 变长字段处理:struct 不适合直接处理变长字段,通常先用 struct 提取头部信息,再根据长度读取后续内容。

基本上就这些。struct 虽然看起来简单,但在实际处理二进制数据时非常关键,理解好格式字符串和字节序,能让你在很多底层操作中游刃有余。

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享