常用的数据压缩算法有哪些( 二 )
Atitt jpeg的压缩原理.docx.txt
paip.压缩access db.txt
PAIP压缩格式ZIP AND RAR.txt
视频压缩转码流程.txt
速压-压缩和解压缩利器.URL
数据压缩_百度百科.html
行程长度编码_百度百科.html
几种压缩算法实现原理详解 - CSDN博客.html
几种压缩算法原理介绍 - CSDN博客.html
文本 压缩算法的对比和选择.html
■网友
基本的分为两大类:有损和无损。有损压缩:主要是一些量化算法,比如a率,u率,lloyds最优量化。无损压缩:主要是一些编码算法,比如子带编码,差分编码,哈夫曼编码等。另外时频变换虽然没压缩效果,但是是很好的压缩工具,比如fft,dct等。最后就是压缩感知稀疏重建等。
■网友
作为一家从事汽车AI应用的大数据公司,在过去的三年,我们积累了300万台车、10亿段行程、150亿公里、320亿分钟的超大数据规模,基于对这些海量数据的建模分析,我们服务于汽车生产研发,性能测试、智能调度、营销、车险等应用场景。
在数据压缩方面,由于数据量庞大,我们不得不尝试更有效的压缩方案以缓解压力,最终我们的方案做到了100行GPS数据大小为%20CSV,50%Protobuf。整个数据压缩方法包括列式压缩、数据Int化、前缀提取、混合编码和边界值处理方案。具体来说:
一、列式
列式压缩可以把具有相同特征的数据聚在一起,选择最优的数据压缩和处理方式。
二、数据Int化
数据使用Int类型的格式,可以最大化压缩数据的字节数。
三、前缀提取
将gps数据和传感器数据中有大量相同数据前缀,比如gps经纬度数据前4位基本不变,可以大幅度压缩数据大小。
四、混合编码
根据数据不同的特性,如波动性变化小,采用差值编码;大量数据连续,采用RLE编码;大量数据重复,采用字典编码;数据的最大值不大,采用BitPacked编码。
五、边界值处理
对gps和sensor数据,数字都是在一定范围内波动,在采用差值编码后,存在极值像0转变,需要特殊处理。
■网友
有损压缩:JPEG联合图像专家组MPEG视频专家组MP3第三代音频协议(图像,视频,音频)无损压缩:游程长度编码哈夫曼编码lempel ziv编码(数据,文本,程序)建立在计网表示层基础上。
■网友
数据压缩分为有损压缩和无损压缩,其中有损压缩方法有两种。 一种是行程编码,即将原数据中连续出现的信源符号(行程)用一个计数值(行程长度)和该信源符号来代替。举个例子,数据段aaaaabbbbbccccdddd,经行程编码压缩后的结果为5a5b4c4d,压缩比约为2:1。 另一种是哈夫曼编码,根据信源符号出现的比率的分布特征而进行压缩编码,在信源符号和编码之间建立明确的一一对应的关系。哈夫曼编码采用变长二进制编码,将出现比率高的信源符号用较短的编码,而出现比率低的用较长编码,从而实现数据压缩。
■网友
补个个人最近经常用的
lz4,snappy
【常用的数据压缩算法有哪些】 Hadoop生态圈的好伙伴
推荐阅读
- “一部手机读云南”上线力争建成国家方志大数据中心西南中心
- 联合国大数据全球平台中国区域中心在杭州成立
- 银行的数据中心可以跳槽去互联网公司吗
- |大数据赋力 半个多月前拉客的“黑车”精准落网
- 数据采集终端|
- 关于用phpfsocket 写Post, 模拟http 报文怎样写入要传输的处理数据
- 假如把中国电信监测到的3亿人一个月每天上网的所有行为打个包,哪些数据应该被提出从这些数据能得到啥
- 咋自己发布网站
- 游戏公司一般咋识别游戏脚本
- 城市数据团是怎么样一个团队