音视频基础

音视频基础
Breezli音视频基础
录制原理
播放原理
位深和帧率
1.5 码率
视频文件在单位时间内使用的数据流量。比如1Mbps。
大多数情况下码率越高 分辨率越高,也就越清晰。但模糊的视频文件大小(码率)也
可以很大,分辨率小的视频文件可能也比分辨率大的视频文件清晰。
对于同一个原始图像源的时候,同样的编码算法,则码率越高,图像的失真就会越小
视频画面就会越清晰
视频基础
RGB & BGR
YUV
444
422
420(最常见)
420 NV12
420 数据格式参考
RGB / YUV转换
帧
I帧(Intra coded frames)
I帧不需要参考其他画面而生成,解码时仅靠自己就重构完整图像
I帧图像采用帧内编码方式;
I帧所占数据的信息量比较大:
I帧图像是周期性出现在图像序列中的,出现频率可由编码器选择:
I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各的质量)
I帧是帧组GOP的基础帧(第一帧),在一组中只有一个|帧;
I帧不需要考虑运动矢量;
类似截图,独立解码
P帧
类似视频,依靠上一帧的数据,连续解码
B帧
依据前后帧解码
解码顺序
先解出I帧,再解出P帧,进而解出B帧
音频基础
声音的频率是周期的倒数,它表示的是声音在1秒钟内的周期数,单位是赫兹(Hz)。干赫(kHz),即1000Hz,表示每秒振动1000次。声音按频率可作如下划分:
次声 020Hz20KHz
人耳 20Hz
超声 20KHz1GHz10THZ
特超声 1GHz
数字音频
根据Nyguist采样定律,要从采样中完全恢复原始信号波形采样频率必须至少是信号中最高频率的两倍。
前面提到人耳能听到的频率范围是[20H~20kHz,所以采样频率一般为44.1Khz,这样就能保证声音到达20Khz也能被数字化,从而使得经过数字化处理之后,人耳听到的声音质量不会被降低。
采样频率:
每秒钟采样的点的个数。常用的采样频率有,
22000(22kHz) 无线广播。
44100(44.1kHz) CD音质。
48000(48kHz) 数字电视,DVD。
96000(96kHz) 蓝光,高清DVD.
192000(192kHz) 蓝光,高清DVD。
采样精度(采样深度):每个“样本点”的大小 常用的大小为8bit,16bit,24bit。
通道数:单声道,双声道,四声道,5.1声道。
比特率:每秒传输的bit数,单位为:bps(Bit PerSecond) 间接衡量声音质量的一个标准。
没有压缩的音频数据的比特率 =采样频率采样精度通道数
码率:
压缩后的音频数据的比特率。常见的码率
96kbps: FM质量
128-160kbps: 一般质量音频。
192kbps: CD质量。
256-320Kbps: 高质量音频
码率越大,压缩效率越低,青音质越好,压缩后数据越大。
码率 = 音频文件大小 / 时长。
帧:每次编码的采样单元数,比如MP3通常是1152个采样点作为一个编码单元,AAC通常是1024个采样点作为一个编码单元。
帧长:
可以指每帧播放持续的时间:每帧持续时间(秒)=每帧采样点数/采样频率(HZ)
比如:MP3 48k,1152个采样点,每帧则为 24毫秒
1152/48000=0.024秒=24毫秒:
也可以指压缩后每帧的数据长度。
数字音频信号如果不加压缩地直接进行传送,将会占用极大的带宽,
例如,一套双声道数字音频若取样频率为44.1KHz,每样值按16bit量化,则其码率为:
244.1kHz16bit=1.411Mbit/s
如此大的带宽将给信号的传输和处理都带来许多困难和成本(阿里云服务
器带宽大于5M后,每M价格是100元/月)
因此必须采取音频压缩技术对音频数据进行处理,才能有效地传输音频数据。
数字音频压缩编码在保证信号在听觉方面不产生失真的前提下,对音频数据信号进行尽可能大的压缩,降低数据量。数字音频压缩编码采取去除声音信号中兄余成分的方法来实现。所谓兄余成分指的是音频中不能被人耳感知到的信号,它们对确定声音的音色,音调等信息没有任何的帮助。
冗余信号包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。例如,人耳所能察觉的声音信号的频率范围为20Hz~20KHZ,除此之外的其它频率人耳无法察觉,都可视为冗余信号。
此外,根据人耳听觉的生理和心理声学现象,当一个强音信号与个弱音信号同时存在时,弱音信号将被强音信号所掩蔽而听不见这样弱音信号就可以视为冗余信号而不用传送。这就是人耳听觉的掩蔽效应,主要表现在频谱掩蔽效应和时域掩蔽效应。
常见视频封装格式
音视频同步