Um vídeo é uma sucessão de imagens a um certo ritmo. O olho humano tem como característica ser capaz de distinguir cerca de 20 imagens por segundo. Assim, afixando mais de 20 imagens por segundo, é possível enganar o olho e fazê-lo pensar que está a ver uma imagem animada. Caracteriza-se a fluidez de um vídeo pelo número de imagens por segundo (em inglês frame rate), exprimido em FPS (Frames per seconde, em português tramas por segundo).
Por outro lado, o vídeo no sentido multimédia do termo é geralmente acompanhado de som, ou seja, de dados áudio.
Distinguem-se geralmente várias grandes famílias de “imagens animadas”
O formato PAL/SECAM (Phase Alternating Line/Séquentiel Couleur avec Mémoire), utilizado na Europa para a televisão hertziana, permite codificar os vídeos de 625 linhas (576 apenas são mostradas, porque 8% das linhas servem para a sincronização). Á razão de 25 imagens por segundo num formato 4:3 (ou seja, a relação largura sobre altura vale 4/3).
Ora, a 25 imagens por segundo, numerosas pessoas apercebem-se de um batimento na imagem. Assim, já que não é possível enviar mais informações devido à limitação de banda concorrida, decidiu-se entrelaçar as imagens, ou seja, enviar em primeiro lugar as linhas iguais, seguidamente as linhas ímpares. O termo “campo” designa assim “a meia-imagem” formada quer pelas linhas iguais, quer pelas linhas ímpares. O conjunto constituído por dois campos chama-se trama entrelaçada. Quando não há entrelaçamento, o termo trama progressiva é utilizado.

Graças a este método chamado “entrelaçamento”, a televisão PAL/SECAM afixa 50 campos por segundo (a uma frequência de 50 Hz), ou seja, 2x25 imagens em dois segundos.
A norma NTSC (National Television Standards Committee), utilizada nos Estados Unidos e no Japão, utiliza um sistema de 525 linhas entrelaçadas a 30 imagens/seg (por conseguinte, a uma frequência de 60Hz). Como no caso do PAL/SECAM, 8% das linhas servem para sincronizar o receptor. Assim, visto que o NTSC afixa um formato de imagem 4:3, a resolução realmente afixada é de 640x480.
O vídeo digital consiste em afixar uma sucessão de imagens digitais. Dado que se trata de imagens digitais afixadas a um certo ritmo, é possível conhecer o débito necessário para a afixação de um vídeo, ou seja, o número de bytes afixados (ou transferidos) por unidade de tempo.
Assim, o débito necessário para afixar um vídeo (em bytes por segundo) é igual à dimensão de uma imagem que multiplica o número de imagens por segundo.
Ou seja, tomemos uma imagem true color (24 bits) que tem uma definição de 640 pixéis por 480. Para afixar correctamente um vídeo que possua esta definição, é necessário afixar pelo menos 30 imagens por segundo, ou seja um débito igual:
900 Ko * 30 = 27 Mo/s
Dado que o olho é pouco sensível às variações de crominância, a técnica de sub-amostragem em crominância (em inglês chroma subsampling), chamada igualmente dizimação, consiste em suprimir informações de crominância num grupo de 4x4 pixéis.