Audiodeskrypcja i transkrypcja w WCAG – wymagania dla instytucji publicznych

Podczas przeglądania oficjalnych stron urzędów lub nowoczesnych przedsiębiorstw często można napotkać materiały wideo oraz podcasty. Rzadko jednak pojawia się refleksja nad tym, jak wiele pracy wymaga zapewnienie, aby każdy użytkownik – bez względu na stan zdrowia czy sprawność – mógł z tych treści swobodnie skorzystać. W dziedzinie dostępności cyfrowej (czyli standardu WCAG) multimedia stanowią jeden z najbardziej wymagających obszarów. Wytyczne o numerach od 1.2.1 do 1.2.5 brzmią tak podobnie, że poprawne ich rozróżnienie bywa wyzwaniem. Poniżej znajduje się proste i klarowne wyjaśnienie tych różnic.

Szybka ściągawka: Co jest czym w multimediach?

Poniższa tabela w przejrzysty sposób porządkuje oficjalne wymagania standardu WCAG w zależności od rodzaju publikowanego materiału.

Kryterium	Oficjalna nazwa kryterium sukcesu	Rodzaj materiału	Wymagany element (Wymóg)
1.2.1 (Poziom A)	Tylko audio lub tylko wideo - nagranie	Sam dźwięk (np. podcast) LUB sam obraz (np. niemy film z monitoringu).	Pełny tekst z przepisaną rozmową LUB tekstowy opis tego, co dzieje się na ekranie.
1.2.2 (Poziom A)	Napisy rozszerzone - nagranie	Klasyczny film z nagrania (obraz + dźwięk, np. YouTube).	Napisy dla niesłyszących (muszą zawierać także opisy ważnych dźwięków, np. [huk uderzenia]).
1.2.3 (Poziom A)	Audiodeskrypcja lub alternatywa tekstowa dla mediów - nagranie	Klasyczny film z nagrania (gdzie z samych dialogów nie widać akcji).	Szczegółowy scenariusz tekstowy pod filmem LUB głos lektora opisujący akcję.
1.2.4 (Poziom AA)	Napisy rozszerzone - na żywo	Transmisja NA ŻYWO (np. sesja rady gminy live).	Napisy generowane na żywo w trakcie trwania transmisji.
1.2.5 (Poziom AA)	Audiodeskrypcja - nagranie	Klasyczny film z nagrania (dokładnie jak w 1.2.3).	Tylko i wyłącznie dodatkowy głos lektora (audiodeskrypcja). Tekst pod filmem nie jest wystarczający.

Rozbicie na czynniki pierwsze – o co dokładnie chodzi?

1.2.1 – Tylko audio lub tylko wideo - nagranie

Sytuacja dotyczy publikacji materiałów odbieranych tylko jednym zmysłem. Przykładem może być wywiad audio. Osoba niesłysząca nie ma możliwości zapoznania się z nagraniem. Aby spełnić to kryterium, pod plikiem audio należy umieścić transkrypcję tekstową, czyli zapis rozmowy z podziałem na role. Podobnie należy postąpić w przypadku niemego filmu (np. instruktażu bez lektora i dźwięku) – dla osób niewidomych niezbędne jest przygotowanie tekstowego opisu tego, co dzieje się na ekranie.

1.2.2 – Napisy rozszerzone - nagranie

Kryterium to obejmuje każdy tradycyjny film zawierający zarówno obraz, jak i dźwięk, który został wcześniej nagrany i opublikowany. Wymagane jest zapewnienie napisów rozszerzonych (Closed Captions). Istotna uwaga: automatyczne napisy (np. generowane przez algorytmy YouTube) bardzo często zawierają błędy w nazwiskach czy nazwach własnych. Prawidłowe wdrożenie wymaga ręcznej korekty oraz dopisania istotnych dźwięków otoczenia (np. [śmiech publiczności] czy [muzyka w tle]).

Porównanie kryteriów: 1.2.3 (Audiodeskrypcja lub alternatywa tekstowa) a 1.2.5 (Audiodeskrypcja - nagranie)

Te dwa punkty wywołują najwięcej wątpliwości, ponieważ oba odnoszą się do zapewnienia dostępności obrazu dla osób niewidomych za pomocą opisu synchronicznego (audiodeskrypcji). Jest to dodatkowa ścieżka dźwiękowa, na której lektor w przerwach między dialogami opisuje akcję (np.: "Urzędnik wstaje zza biurka, podchodzi do szafy i wyciąga czerwoną teczkę").

Różnica między poziomem A (kryterium 1.2.3) a poziomem AA (kryterium 1.2.5) polega na sposobie wdrożenia:

Kryterium 1.2.3 (Poziom A): Daje wybór formy podania treści. Dozwolone jest przygotowanie pełnego dokumentu tekstowego (szczegółowego scenariusza opisującego akcję i dialogi równolegle) ALBO wgranie ścieżki z audiodeskrypcją. Wybór formy tekstowej pozwala na pełne zaliczenie poziomu A.
Kryterium 1.2.5 (Poziom AA): Podnosi poprzeczkę i likwiduje możliwość wyboru. Wycofana zostaje opcja zastąpienia filmu samym tekstem. Aby spełnić to kryterium (obowiązkowe m.in. dla sektora publicznego w Polsce), film musi posiadać ścieżkę dźwiękową z lektorem. Sam tekst pod odtwarzaczem nie jest uznawany za wystarczający.

Praktyczne rozwiązanie: Jeżeli podczas produkcji materiału wideo narrator od początku precyzyjnie opisuje wykonywane czynności (np. „Teraz klikam duży zielony przycisk logowania w prawym górnym rogu”), wideo nie wymaga tworzenia dodatkowej audiodeskrypcji. Warstwa dźwiękowa samodzielnie i w pełni odzwierciedla zawartość obrazu.

1.2.4 – Napisy rozszerzone - na żywo

Kryterium dotyczy sytuacji, w których sygnał jest nadawany w czasie rzeczywistym (np. transmisja z sesji rady gminy). WCAG wymaga stosowania napisów na żywo. Warto pamiętać, że polskie przepisy krajowe dopuszczają pewne odstępstwa w przypadku braku możliwości technicznych lub finansowych podczas samej transmisji live, jednak wersja archiwalna filmu umieszczana w serwisie musi już takie napisy posiadać.

Dostępność multimediów opiera się na jasnych zasadach. Kluczem jest zrozumienie potrzeb odbiorców: osoby niesłyszące wymagają przekazu wizualnego (napisy), natomiast osoby niewidome potrzebują przekazu dźwiękowego (głos lektora opisujący obraz). Ponieważ jednak realizacja tych wytycznych bywa wysoce czasochłonna i pracochłonna, wiele podmiotów publicznych powołuje się na mechanizm wykazania nadmiernych kosztów (przewidziany przepisami jako nadmierne obciążenie), przenosząc stosowną informację i uzasadnienie do odpowiedniej sekcji w deklaracji dostępności. Dbałość o te aspekty – lub rzetelne wskazywanie alternatywnych dróg dostępu – pozwala na konsekwentne dążenie do tworzenia serwisów internetowych wolnych od barier.