超级简单的数据压缩算法—LZW算法 - MichaelCen

mcomco 2021-11-12 原文

  在字符串算法—数据压缩中,我们介绍了哈夫曼压缩算法(Huffman compression),本文将介绍LZW算法

  

  这个算法很简单,为了方便讲述,我们将采用16进制,写代码的时候在把它转回2进制就是了。

  在16进制下:A:41; B:42; C:43; D:44;……

  从例子入手:

  

  压缩表是边读数据边建立起来的,一开始,压缩表里的数据为各个字符对应的十六进制值,这里不一一列出,具体可百度26个字母的十六进制。

  首先从第一个数据开始读:

  第一个字符为A, A在压缩表里已存在,值是41;

  

  下一个字符为B,B在压缩表里已存在,值是42;

  前一个字符A与这个字符B结合成AB,给它一个值:81;(为什么是81?因为41~79都被字母用了)

  把AB加到压缩表里:

  

  下一个字符为R,R在压缩表里已存在,值是52;

  前一个字符B与这个字符R结合成BR,给它一个值:82,加到压缩表中:

  

  下一个字符为A,A在压缩表里已存在,值是41;

  前一个字符R与这个字符A结合成RA,给它一个值:83,加到压缩表中:

  如此类推,一直到D那里:

  

  下一个字符为A, A在压缩表里已存在,但下下一个字符为B,它们两组合而成的AB也在压缩表里,我们取含字符最多的AB:

  前一个字符D与这个字符串的首字符A结合成DA,给它一个值:87,加到压缩表中:

  

  下一个字符为R, R在压缩表里已存在,但下下一个字符为A,它们两组合而成的RA也在压缩表里,我们取含字符最多的RA;

  前一个字符串AB与这个字符串的首字符R结合成ABR,给它一个值:88,加到压缩表中:

  

  下一个字符为B, B在压缩表里已存在,但下下一个字符为R,它们两组合而成的BR也在压缩表里,我们取含字符最多的BR;

  前一个字符串RA与这个字符串的首字符B结合成RAB,给它一个值:89,加到压缩表中:

  

  下一个字符为A, A在压缩表里已存在,但下下一个字符为B,它们两组合而成的BR也在压缩表里; 但下下下一个字符为R,它们三组合而成的ABR也在压缩表里,我们取含字符最多的ABR;

  前一个字符串BR与这个字符串的首字符A结合成BRA,给它一个值:8A,加到压缩表中:

  

  下一个字符为A, A在压缩表里已存在,值为41;

  前一个字符串BRA与这个字符A结合成ABRA,给它一个值:8B,加到压缩表中:

  

  下一个字符为空,说明数据已经压缩完了,给个值80作为终止标记:

  

  压缩后的数据就是上述的值的组合,压缩表直接删除。

  压缩后的数据S:41425241434144818382884180。

  压缩的方法讲完了,那么如何解压呢?

  我们也是边解压边建表:

  现有压缩数据S:41425241434144818382884180。

  

 

  同样的,一开始,压缩表里的数据为各个字符对应的十六进制值,这里不一一列出,具体可百度26个字母的十六进制。

  首先从第一个数据开始读:

  第一个值为41,对应字符A:

  

  下一个数据为42,对应字符B;

  前一个字符A与这个字符B结合成AB,给它一个值:81,加到压缩表中:

  

  下一个数据为52,对应字符R;

  前一个字符B与这个字符R结合成BR,给它一个值:82,加到压缩表中:

  

  如此类推,一直读到81:

  

  下一个数据为81,对应字符串AB;

  前一个字符D与这个字符串的首字符A结合成DA,给它一个值:87,加到压缩表中:

  

  下一个数据为83,对应字符串RA;

  前一个字符串AB与这个字符串的首字符R结合成ABR,给它一个值:88,加到压缩表中:

  

  如此类推,一直读到80:

  

  下一个数据为80,这是压缩的终止值,说明解压完成了,此时,把压缩表丢掉。

  解压后得到原数据S:ABRACADABRABRABRA;

  由于我们的压缩表都是动态生成的,我们省了保存它的时间和空间。

  解压和压缩都介绍完了,这个算法也就结束了,超级简单!

  有时候解压时,会遇到些有趣的情形,如下图:

  原数据压缩:

  

  解压时:

  

  下一个数据为81,对应字符串AB;

  前一个字符B与这个字符串的首字符A结合成BA,给它一个值:82,加到压缩表中:

  

  下一个数据为83,嗯?83?83不在压缩表里啊,去哪找83?

  容我们冷静分析一波:

  首先,压缩表去到了82,下一个数据就是83。因为是83,所以肯定是个字符串。(81以上都是我们自己加的字符串!)

  假设83对应的字符串为X:

  

  前一个字符串AB与这个字符串的首字符X1(假设X是由X1X2X3…XN组成)结合成ABX1,给它一个值:83,加到压缩表中:

  

  即X=ABX1, X1是X的首字符(ABX1的首字符),即X1=A;

  故得知X=ABA:

  

  下一个数据是80,解压完成。解压后的原数据为ABABABA;

  至此,LZW算法介绍完毕。

实现代码:

  

 

发表于
2019-03-07 09:34 
MichaelCen 
阅读(27223
评论(0
编辑 
收藏 
举报

 

版权声明:本文为mcomco原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/mcomco/p/10475329.html

超级简单的数据压缩算法—LZW算法 - MichaelCen的更多相关文章

  1. [源码解析] 深度学习分布式训练框架 horovod (9) — 启动 on spark

    Horovod 是Uber于2017年发布的一个易于使用的高性能的分布式训练框架,在业界得到了广泛应用。本文是 […]...

  2. Jetpack系列:LiveData入门级使用方法 – Danvie

    Android APP开发中,开发者们都想有一个公共的组件,可以实现后台数据的监听,同时实时更新到UI进行显示 […]...

  3. 虚幻4蓝图快速入门(三) – 风恋残雪

    虚幻4蓝图快速入门(三) 2016-09-30 21:32  风恋残雪  阅读(7810)  评论(0)  编 […]...

  4. 前端数据采集 埋点 追踪用户系列行为 – you1you

    前端数据采集 埋点 追踪用户系列行为 什么是埋点?   综合    vue埋点 埋点分析,是网站分析的一种常用 […]...

  5. maven官网下载安装步骤 – 释迦&牟尼

    maven官网下载安装步骤 第一大步:下载。 a.俗话说:“巧妇难为无米之炊”嘛!我这里用的是 ZIP Arc […]...

  6. Apache 虚拟主机的配置. – 『小小菜鸟』

    Apache 虚拟主机的配置. 最近好象有不少 Ubuntu 的兄弟在 Gaim 中询问关于 Apache2 […]...

  7. [Android Pro] Android P版本 新功能介绍和兼容性处理(三)Android Studio 3.0 ~ 3.2 其他特性

    cp : https://blog.csdn.net/yi_master/article/details/80 […]...

  8. 项目经理 – HackerVirus

    项目经理 本文主要谈一下刚刚升任项目经理时的角色转变问题       开始之前有两点先说明一下:        […]...

随机推荐

  1. 损失函数是学习的指挥棒——记一次工作实践

    目录 写在前面 PCA投影 基于偏度与峰度 构建损失函数 小结 参考 博客:博客园 | CSDN | blog […]...

  2. 第五章 信息显示与搜索文件命令

    5.1 uname 显示系统信息 uname -a  可以看到更多的信息,显示所有 Linux oldbody […]...

  3. 【项目实践】手把手教你自建高性能对象存储服务器

    又快、又好、又免费! 以项目驱动学习,以实践检验真知 对象存储的应用范围非常广泛,小至图床、文件服务,大至大数 […]...

  4. 改造 layui 表格组件实现多重排序

      layui 的表格组件目前只支持单列排序,在实际应用中并不能很好的支撑我们的业务需求。今天一时手痒,决定改 […]...

  5. 用代码说话:synchronized关键字和多线程访问同步方法的7种情况

    synchronized关键字在多线程并发编程中一直是元老级角色的存在,是学习并发编程中必须面对的坎,也是走向 […]...

  6. 【阿里云产品公测】阿里云ECS服务器,PTS网站性能

    作者:阿里云用户321房产网 系统环境:CentOS 6.3 运行组件:Nginx + php + mysql […]...

  7. Go gRPC进阶-超时设置(六)

    前言 gRPC默认的请求的超时时间是很长的,当你没有设置请求超时时间时,所有在运行的请求都占用大量资源且可能运 […]...

  8. Android 这 13 道 ContentProvider 面试题,你都会了吗?

    前言 作为 Android 的四大组件之一,ContentProvider 可以说是无处不在了。 但是对于我而 […]...