MPEG-2

MPEG-2 – grupa standardów stratnej kompresji ruchomych obrazów i dźwięku zatwierdzona przez MPEG (ang. Moving Picture Experts Group) w 1994 roku. Od roku 1995 jest zatwierdzonym standardem ISO/IEC nr 13818.

Patenty na MPEG-2 zasadniczo wygasły w 2018 roku, a standardy przeszły do domeny publicznej^[1].

Charakterystyka

MPEG-2 jest standardem ogólnego kodowania ruchomych obrazów i związanych z nimi informacji audio. Format ten opisuje połączenie metod stratnej kompresji wideo i stratnej kompresji danych audio, które umożliwiają przesyłanie sygnału audio-wideo w telewizji cyfrowej oraz zapis na nośnikach danych (w szczególności optycznych jak DVD i Blu-ray, czy taśmowych jak DV). MPEG-2 jest szeroko stosowany jako format cyfrowych sygnałów telewizyjnych, które są transmitowane przez TV satelitarną, naziemną oraz kablową. Określa on także format filmów i innych programów, które są dystrybuowane na DVD i podobnych nośnikach danych. MPEG-2 powstał z powodu braków i niedociągnięć standardu MPEG-1.

Specyfikacja MPEG-2 opisuje:

dwa kontenery multimedialne – MPEG-2 TS (ang. Transport Stream) dla transmisji i MPEG-2 PS (ang. Program Stream) dla zapisu na nośnikach
metody cyfrowego zapisu obrazu ruchomego, przy czym standard zawiera ogólną listę algorytmów kompresji o różnym stopniu złożoności obliczeniowej
metody cyfrowego zapisu dźwięku jedno-, dwu- lub wielokanałowego (5.1)

Wszystkie dekodery MPEG-2 są kompatybilne ze starszym standardem MPEG-1.

Historia

Prace nad MPEG-2 rozpoczęły się w roku 1990. Członkowie grupy MPEG uznali, że potrzebny jest standard pozwalający na uzyskanie wyraźnie wyższej jakości obrazu niż ta, którą oferował dostępny wtedy MPEG-1. Stary standard pozwalał na zapis z maksymalną przepływnością 1,5 Mbit/s dającą w efekcie jakość zbliżoną do systemu VHS i nie oferował metod zapisu obrazu z przeplotem. Dodatkowym ograniczeniem MPEG-1 było wsparcie dla maksymalnie dwukanałowego dźwięku. Wprowadzenie MPEG-2 pozwoliło na zaoferowanie dużo wyższej jakości obrazu dzięki wyższym przepływnościom oraz usprawnieniom w dziedzinie kompresji, takim jak zastosowanie DCT i mechanizmów kompensacji ruchu^[2]^[3].

Podział na części

Część 1. – System – opisuje synchronizację i zwielokrotnienia obrazu i dźwięku.
Część 2. – Film – kodek kompresji dla sygnałów video (również jako ITU-T Rec. H.262).
Część 3. – Audio – kodek kompresji dla kodowania sygnałów audio.
Część 4. – Opisuje procedury testowania zgodności.
Część 5. – Opisuje systemy do symulacji oprogramowania.
Część 6. – Opisuje rozszerzenia dla DSM-CC (Digital Storage Media Command and Control).
Część 7. – Advanced Audio Coding (AAC).
Część 8. – Przedłużenie czasu rzeczywistego interfejsów.
Część 9. – Zgodność rozszerzeń dla DSM-CC.
Część 10. – Zarządzanie Własności Intelektualnej (IPMP)

Kompresja wideo

Kamera HDTV generuje surowy strumień video z 149.299.200 bajtów na sekundę dla 24 fps wideo. Ten strumień musi być skompresowany, aby zmieścić obraz audio i wideo na nośnikach DVD. Kompresja wideo jest praktyczna, ponieważ dane na zdjęciach często są redukowane w czasie i przestrzeni. Na przykład w tle obrazu może być niebieskie niebo i to tło obrazu może się utrzymywać w wielu klatkach. Ponadto można usunąć niektóre dane z klatki wideo bez zauważalnego pogorszenia jakości obrazu, mieszcząc się w dość wąskim zakresie czułości ludzkiego oka.

Kamery używane w transmisji telewizyjnej generują 25 zdjęć na sekundę (w Europie) lub 29,97 zdjęcia na sekundę (w Ameryce Północnej). Telewizja cyfrowa wymaga, aby obrazy audio i wideo mogły być przetwarzane przez sprzęt komputerowy. Każdy element obrazu (blok) jest reprezentowany przez jedną liczbę jasności i dwie liczby określające barwę. Tak więc każde cyfrowe zdjęcie jest początkowo reprezentowane przez trzy prostokątne tablice liczb.

Często stosowaną metodą zmniejszenia ilości danych jest rozdzielenie obrazu na dwa pola: górne pole z informacją o liniach nieparzystych i dolne pole z informacją o liniach parzystych. Po zdekodowaniu dwa pola wyświetlane są na przemian: jedno pole (nieparzyste) jest przekładane między wierszami drugiego pola (parzystego). Format ten nazywa się przeplatanym. Ludzkie oko nie rozpoznaje niektórych szczegółów barw, dlatego często część z nich się usuwa. Format barw 04:02:02 wskazuje, że połowa wartości barw została usunięta; format 04:02:00 wskazuje, że usunięto ich trzy czwarte. Format barw 04:04:04 wskazuje na to, że żadne z barw nie zostały usunięte. MPEG-2 pozwala na zastosowanie każdej z trzech opcji.

MPEG-2 określa, że klatki mogą być skompresowane w trzy rodzaje: klatki intra-frames (I-frame), klatki inter-frames (P-frame), oraz klatki bidirection (B-frame).

Klatki typu I są skompresowaną wersją jednej nieskompresowanej klatki (RAW). Korzystają z niezdolności oka do wykrycia określonych zmian w obrazie. W przeciwieństwie do klatek typu P i B, zawartość klatki typu I nie zależy od danych z poprzedzającej lub następującej klatki. Mówiąc w skrócie, surowe klatki dzieli się na bloki 8 × 8 pikseli. Dane z każdego bloku są przetwarzane przez transformację kosinusową. Wynikiem jest macierz o współczynniku 8 × 8. Transformacja przekształca obraz bez zmieniania informacji w bloku, a oryginalny blok może być dokładnie odtworzony przy zastosowaniu odwrotnej transformacji kosinusowej. Zaletą tego rozwiązania jest to, że obraz może zostać uproszczony przez próbkowanie współczynników.

Zazwyczaj w standardzie MPEG-4 co 15 klatka to klatka typu I. Klatki P i B układają się w sposób IBBPBBPBBPBB (I) w celu utworzenia grupy obrazów (GOP), jednak standard układania się klatek jest elastyczny i może wyglądać inaczej.

Makrobloki

Klatki typu P stanowią lepszy sposób kompresji niż klatki typu I, ponieważ korzystają z danych z poprzednich klatek typu I lub P. Do generowania klatki P zrekonstruowany jest poprzedni punkt odniesienia. Obraz jest skompresowany w ten sposób, że jest dzielony na części: 16 × 16 pikseli, nazywanych makroblokami. Następnie dla każdego z tych makrobloków, konstruowany jest punkt odniesienia, tzn. poszukiwany jest makroblok, który jest najlepiej skompresowany. Offset jest zakodowany jako wektor ruchu. Przeważnie przesunięcie wynosi zero. Ale jeśli obraz jest w ruchu, offset może wynosić ok. 23 pikseli w prawo i 4 piksele w górę. Przyrównanie ze sobą dwóch makrobloków często nie jest idealne. Do skorygowania tego kodowanie pobiera różnicę między dwoma sąsiadującymi blokami makrobloków i następnie oblicza wartość współczynnika, który opisuje tę różnicę.

Przetwarzanie klatek typu B jest podobne do przetwarzania klatek typu P. Klatka typu B zazwyczaj bardziej kompresuje obraz niż klatka typu P. Klatki B nigdy nie są klatkami odniesienia.

Telewizja cyfrowa

MPEG-2 jest jednym z dwóch, oprócz MPEG-4, w praktyce używanych formatów telewizji cyfrowej w krajach, gdzie stosowany jest standard DVB. W krajach Ameryce Północnej stosowany z kolei jest standard ATSC A/53, w którym MPEG-2 w wariancie MP@ML używany jest do kodowania obrazu wideo^[4].

HDV

Ścieżka wideo oraz opcjonalnie ścieżka dźwięku w zapisie standardu HDV (DV dla wysokiej rozdzielczości) jest kodowana w MPEG-2. Całość jest z kolei umieszczana w kontenerze MPEG-2 TS^[5].

XDCAM

Urządzenia firmy Sony z rodziny XDCAM SD^[6], XDCAM HD^[7], XDCAM EX^[8] oraz XDCAM HD422^[9] zapisują ścieżki wideo zakodowane w MPEG-2.

Profile i poziomy

System MPEG-2 został zaprojektowany dla szerokiego spektrum zastosowań, od urządzeń mobilnych do telewizji HDTV i profesjonalnej obróbki materiałów wysokiej jakości. Dla wielu spośród tych zastosowań, obsługa pełnego standardu z jego wieloma mechanizmami kompresji byłaby niepotrzebna, lub wręcz niemożliwa. Jako rozwiązanie tego problemu, standard definiuje różne profile i poziomy, które oznaczają konkretne podzbiory metod kompresji oraz określone zakresy rozdzielczości i przepływności.

Konkretne urządzenia obsługujące standard MPEG-2 określają swoją zgodność ze standardem z dokładnością do profilu i poziomu. Przykładowo odtwarzacz HD-DVD może obsługiwać profil główny (ang. main profile) i poziom wysoki (ang. high level), co oznaczane jest zwyczajowo MP@HL. Najczęściej spotykanym zestawieniem jest MP@ML (profil główny, poziom główny).

Poniższe tabele przedstawiają główne cechy każdego z profili i poziomów.

Profile MPEG-2
Skrót	Nazwa	Typy klatek obrazu	Kolorymetria	Format obrazu
SP	Simple profile	I, P	4:2:0	4:3 lub 16:9
MP	Main profile	I, P, B	4:2:0	4:3 lub 16:9
SNR	SNR Scalable profile	I, P, B	4:2:0	4:3 lub 16:9
Spatial	Spatially Scalable profile	I, P, B	4:2:0	4:3 lub 16:9
HP	High profile	I, P, B	4:2:2 lub 4:2:0	4:3 lub 16:9

Poziomy MPEG-2
Skrót	Nazwa	Klatkaż (FPS)	Maksymalna rozdzielczość pozioma	Maksymalna rozdzielczość pionowa	Maksymalna przepływność dla Main profile (Mbit/s)
LL	Low Level	23.976, 24, 25, 29.97, 30	352	288	4
ML	Main Level	23.976, 24, 25, 29.97, 30	720	576	15
H-14	High 1440	23.976, 24, 25, 29.97, 30, 50, 59.94, 60	1440	1152	60
HL	High Level	23.976, 24, 25, 29.97, 30, 50, 59.94, 60	1920	1152	80

Zobacz też

Przypisy

↑ OSNews.com [online], mobile.osnews.com [dostęp 2018-01-24] [zarchiwizowane z adresu 2017-12-26] .
↑ Standard przetwarzania danych cyfrowych MPEG-2. [dostęp 2009-12-16]. [zarchiwizowane z tego adresu (2009-07-07)].
↑ P.N. Tudor: MPEG-2 VIDEO COMPRESSION. [dostęp 2009-12-16]. [zarchiwizowane z tego adresu (2006-09-02)]. (ang.).
↑ ATSC Published Standards. [dostęp 2010-05-26]. [zarchiwizowane z tego adresu (2010-05-27)]. (ang.).
↑ HDV Format Main Specification. [dostęp 2009-12-17]. [zarchiwizowane z tego adresu (2012-06-03)]. (ang.).
↑ Sony XDCAM SD family. [dostęp 2009-12-17]. (ang.).
↑ Sony XDCAM HD and HD422 family. [dostęp 2009-12-17]. (ang.).
↑ Sony XDCAM EX family. [dostęp 2009-12-17]. (ang.).
↑ Sony XDCAM HD422 family. [dostęp 2009-12-17]. (ang.).

Linki zewnętrzne

[1] OSNews.com [online], mobile.osnews.com [dostęp 2018-01-24] [zarchiwizowane z adresu 2017-12-26] .

[2] Standard przetwarzania danych cyfrowych MPEG-2. [dostęp 2009-12-16]. [zarchiwizowane z tego adresu (2009-07-07)].

[3] P.N. Tudor: MPEG-2 VIDEO COMPRESSION. [dostęp 2009-12-16]. [zarchiwizowane z tego adresu (2006-09-02)]. (ang.).

[4] ATSC Published Standards. [dostęp 2010-05-26]. [zarchiwizowane z tego adresu (2010-05-27)]. (ang.).

[5] HDV Format Main Specification. [dostęp 2009-12-17]. [zarchiwizowane z tego adresu (2012-06-03)]. (ang.).

[6] Sony XDCAM SD family. [dostęp 2009-12-17]. (ang.).

[7] Sony XDCAM HD and HD422 family. [dostęp 2009-12-17]. (ang.).

[8] Sony XDCAM EX family. [dostęp 2009-12-17]. (ang.).

[9] Sony XDCAM HD422 family. [dostęp 2009-12-17]. (ang.).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

525 linii	NTSC NTSC-J PAL-M
625 linii	PAL PALplus SECAM
Systemy historyczne	Przed-1940 405 linii 819 linii Baird-Nipkow MAC MUSE
Dźwięk wielokanałowy	BTSC (MTS) NICAM-728 Zweiton (A2, IGR) EIAJ
Sygnały dodatkowe	Teletekst CGMS-A GCR PDC VBI VEIL VITC WSS XDS

Z przeplotem (Interlaced)	SDTV (480i, 576i) HDTV (1080i)
Ze stałym skanowaniem (Progressive)	LDTV (240p, 288p, 1seg) EDTV (480p, 576p) HDTV (720p, 1080p, 2K) UHDTV (4K, 8K)
Standardy TV cyfrowej (MPEG-2)	ATSC DVB (DVB-C, DVB-C2, DVB-H, DVB-SH, DVB-T, DVB-T2, DVB-S, DVB-S2) ISDB DMB-T/H
Standardy TV cyfrowej (MPEG-4 AVC)	DMB-T/H DVB (DVB-C, DVB-C2, DVB-H, DVB-SH, DVB-T, DVB-T2, DVB-S, DVB-S2) SBTVD ISDB (1seg)
Dźwięk wielokanałowy	22.2 AC-3 (5.1) E-AC-3 (6.1, 7.1) Musicam PCM LPCM AAC AAC+
Sygnały dodatkowe	Captioning Teletekst (CPCM / Broadcast flag) AFD EPG