RLE压缩通过记录连续相同字节的重复次数实现数据压缩。程序先读取输入文件并统计相邻相同字节的数量,当字节变化或计数达255时,将计数值和对应字节写入输出文件;解压时读取每对计数与字节,重复写入相应次数。该方法适用于重复数据多的场景,但对随机数据可能增加体积,且需以二进制模式操作文件以避免格式转换。
实现一个基础的c++文件压缩工具,可以帮助理解压缩算法的核心思想。虽然现代压缩工具(如gzip、zip)使用复杂算法达到高压缩率,但我们可以从简单的压缩方法入手,比如基于字节频率的RLE(Run-Length Encoding,游程编码)或LZ77的简化版本。本文以RLE为例,展示如何用C++编写一个可运行的文件压缩与解压程序。
什么是RLE压缩算法?
RLE是一种非常基础的无损压缩算法,适用于连续重复数据较多的场景,比如纯色图像或日志文件中的重复字符。其核心思想是:将连续出现的相同字节替换为“字节 + 重复次数”的形式。
例如:
原始数据:A A A B B C C C C
RLE压缩后:3A 2B 4C
在二进制文件中,我们可用两个字节表示一个“块”:第一个字节是重复次数(最多255),第二个字节是实际值。
立即学习“C++免费学习笔记(深入)”;
文件压缩实现步骤
以下是在C++中实现RLE压缩的基本流程:
- 打开输入文件(二进制模式)
- 逐字节读取,统计连续相同字节的长度
- 每当遇到不同字节或达到最大重复数(255),将计数和字节写入输出文件
- 输出文件格式为:[count][value] 的字节对序列
示例代码片段:
#include <fstream> #include <iostream> #include <string> bool compressFile(const std::string& inputFile, const std::string& outputFile) { std::ifstream fin(inputFile, std::ios::binary); std::ofstream fout(outputFile, std::ios::binary); if (!fin || !fout) return false; char current, prev; uint8_t count = 0; if (!fin.get(current)) return true; // 空文件 prev = current; count = 1; while (fin.get(current)) { if (current == prev && count < 255) { count++; } else { fout.put(count); fout.put(prev); prev = current; count = 1; } } // 写入最后一组 fout.put(count); fout.put(prev); fin.close(); fout.close(); return true; }
文件解压实现
解压过程是压缩的逆操作:读取每对 [count][value],然后将 value 重复 count 次写入输出文件。
bool decompressFile(const std::string& inputFile, const std::string& outputFile) { std::ifstream fin(inputFile, std::ios::binary); std::ofstream fout(outputFile, std::ios::binary); if (!fin || !fout) return false; uint8_t count; char value; while (fin.get(value)) { count = static_cast<uint8_t>(fin.get()); if (fin.eof()) break; for (int i = 0; i < count; ++i) { fout.put(value); } } fin.close(); fout.close(); return true; }
使用示例与注意事项
你可以这样调用:
int main() { compressFile("test.txt", "test.bin"); decompressFile("test.bin", "recovered.txt"); return 0; }
注意事项:
- RLE只对重复数据有效,随机数据可能反而变大(因每个字符都需额外计数字节)
- 文件必须以二进制模式打开,避免换行符被转换
- 本实现未加文件头,实际应用中可加入魔数、版本、原始大小等元信息
- 可扩展为支持多字节模式或混合编码策略
基本上就这些。这个RLE压缩工具虽然简单,但完整展示了文件读写、二进制处理和基础压缩逻辑,是学习更复杂算法(如Huffman、LZW)的良好起点。