Dostępny.net

PDF – używać, czy nie?

PDF, to format zapisu dokumentów opracowany i wprowadzony przez Adobe. U podstaw formatu leżało zapewnienie jednakowego wyglądu publikacji elektronicznej niezależnie od platformy, konfiguracji itd. Dzięki temu odpowiednio przygotowany materiał jest uniezależniony m.in. od obecności konkretnego kroju czcionki w systemie. PDF pozwala również na zabezpieczenie pliku przed odczytem, modyfikacjami, czy wręcz drukowaniem.

Te właściwości w połączeniu z ogólnie dostępnymi, darmowymi i niewielkimi programami do odczytu plików w formacie PDF stała sie przyczyną jego popularności.

Ogólnodostępny to nie znaczy jeszcze dostępny.

Mimo niewątpliwej wygody (głównie dla twórcy) używania format ten niesie ze sobą kilka pułapek ponieważ ze względu na sposób zapisu danych pociąga za sobą znacznie większą odpowiedzialność autora.

Dostępność formatu PDF

Począwszy od wersji 5 Adobe zaczęło zauważać i wspierać aspekty dostępności podczas tworzenia plików PDF. Pierwszym i chyba najistotniejszym elementem jest możliwość tagowania (oznaczania) fragmentów treści tak by nawigacja po dokumencie i jego odczytywanie przy użyciu screenreaderów było łatwiejsze. Różnicę w dokumentach tak przygotowanych możemy przez analogię widzieć jak różnicę między jednolitym plikiem tekstowym a tym samym tekstem poprawnie sformatowanym przy użyciu znaczników HTML.

Wprawdzie tagowanie w PDF nie zapewnia takiej elastyczności jak HTML, ale zdecydowanie był to krok w dobrą stronę.

Kolejnym elementem pokazującym nowy trend w produkcie Adobe był wprowadzony w wersji 6 Acrobat Reader’a wbudowany syntezator text-to-speech. Już wówczas potrafił sobie radzić z “tekstowymi” dokumentami PDF nawet jeśli były stworzone we wcześniejszych wersjach Acrobata lub po prostu bez zwracania uwagi na kwestie dostępności.

Następne wersje rozwijały paletę możliwość, tak by dostarczyć twórcom jak najszerszej gamy możliwości uczynienia dokumentu dostępnym jednak PDF wciąż nastręcza znacznie więcej problemów niż stary dobry HTML. Przede wszystkim ze względu na niską świadomość osób tworzących dokument.

Tworzenie przez skanowanie

Jednym z popularnych (niestety) sposobów przygotowania PDF jest zapisywanie skanowanego dokumentu wprost do pliku PDF bez przetworzenia treści na tekst (OCR). Czym to skutkuje? Ano otrzymujemy ni mniej ni więcej jak obraz opakowany jedynie w ładne ramy “oficjalnego formatu”. Takiej postaci nie odczyta w sposób łatwy żaden czytnik. Nie ma możliwości skopiowania fragmentu tekstu czy aktywacji linków. Jednym słowem podobnie jak w przypadku typowych skanów konieczne jest rozpoznanie tekstu, ale konieczność transformacji przerzucana jest na odbiorcę.

Niestety taki sposób prezentacji treści jest nagminny. Nie dalej jak dziś zupełnym przypadkiem trafiłem na dokument na stronach Ministerstwa Zdrowia, który jest rażącym przykładem opisanej wyżej sytuacji.

Stosowanie zaawansowanych opcji…

… bez uproszczonej alternatywy.

Drugi przykład utrudniania życia odbiorcom przytoczył mi dziś kolega z pracy. Swego czasu chciał pobrać i wydrukować oficjalny druk PIT-3 pobrany ze strony Urzędu Skarbowego. Okazało się, że pobranego pliku nie jest w stanie nawet obejrzeć, ponieważ autor przygotował go w formie “interaktywnej” (do wypełnienia w formie elektronicznej), która współpracowała jedynie z oficjalnym programem do odczytu firmy Adobe w systemie MS Windows. Posiadacz innych programów/wtyczek otrzymywali jedynie komunikat informujący o konieczności zainstalowania “oryginalnego oprogramowania”. Wersji “zwykłej” – do wypełniania ręcznie wówczas nie było.

W tej chwili nieaktywny PIT-3 jest dostępny w wielu serwisach, w tym na stronach Ministerstwa Finansów.

Broń Boże nie zniechęcam do używania interaktywnych formularzy PDF, wszak jest to jeden z podstawowych przypadków, w których użycie formatu jest usprawiedliwione.

Konieczność ewentualnego dublowania dokumentów w formie pozbawionej dodatkowych funkcjonalności (a może nawet jako HTML) ale nie niosących z sobą ograniczeń wynika z 6 wytycznej WCAG: “Upewnij się, że treść jest dostępna nawet gdy nowe technologie nie są wspierane lub są wyłączone“. Utrzymywanie dodatkowej wersji zmienianego dokumentu wiążę się z ryzykiem rozsynchronizowania, więc jeśli nie ma innych przesłanek lepiej skupić się na dopracowaniu jednej wersji niż rozwijaniu kolejnych?

Blokowanie użytecznych opcji

Brak możliwości zaznaczenia i skopiowania istotnego fragmentu tekstu (pomijam w tym miejscu opisany wyżej skan jako niezaznaczalny z natury), czy zablokowana opcja wydruku to częste bolączki. W teorii ma to zabezpieczyć autora przed nie autoryzowanym kopiowaniem publikacji. W praktyce utrudnia życie zwykłym odbiorcom, bo amatorzy plagiatu w mig znajdą w sieci programy pozwalające na przełamanie lub obejście zabezpieczeń.

Zaznaczanie tekstu to nie tylko możliwość skopiowania sobie na później. Zwłaszcza w obliczu braku możliwości tworzenia zakładek w większości darmowych czytników formatu PDF. To również znaczne utrudnienie dla osób nie rozumiejących jakiegoś pojęcia (głównie w języku obcym, ale z doświadczenia wiem, że nie tylko). Nie rozumiem – kopiuję wklejam w wyszukiwarkę /wikipedię / słownik języka i po chwili wiem co autor miał na myśli.

Blokada drukowania dotyka osób, które choćby w trosce o wzrok nie chcą spędzać czasu na wpatrywaniu się w monitor, albo mają sporadyczny dostęp do komputera i chętnie zapoznałyby się z materiałem off-line. Wydrukowany materiał to również możliwość zaznaczenia, robienia notatek, zakładek – jednym słowem wygoda nie tylko dla osób z problemami poznawczymi ale i dla zwykłego Kowalskiego.

Szukanie zagubionego dokumentu

Dokumenty PDF, w odróżnieniu od plików tekstowych w tym HTML, nie poddaje się znacznej większości programów przeszukujących w tym tych wbudowanych w system operacyjny. Więc czy to szukam pliku w sieci, czy gdzieś zapodział mi się potrzebny na już dokument na dysku jestem właściwie skazany na google’a. O ile przy szukaniu w internecie jestem w stanie jakoś przełknąć (choć już wiem, że pan gugiel nie wie wszystkiego) o tyle do instalowania aplikacji google desktop podchodzę mocno sceptycznie. Pozostaje mi poświęcenie uwagi przy nazywaniu pliku.To co napisałem nie wyczerpuje potencjalnych problemów z dostępnością formatu.

Używać, czy nie?

Używać a i owszem ale jak wszystkiego – z głową. PDF jest najczęściej nieodzowny w przypadku publikacji:

  • które z różnych względów muszą mieć zachowaną typografię, w tym materiały przygotowywane do druku
  • zawierających elementy grafiki wektorowej (wykres, rysunki)
  • zawierających formuły matematyczne, czy wzory (MathML nie jest wciąż poprawnie interpretowany przez niektóre przeglądarki bez dodatkowych wtyczek, poza tym sama specyfikacja wciąż nie zawiera wszystkich elementów)
  • przeznaczonych do ściśle określonej grupy odbiorców

W powyższych i z pewnością w kilku innych przypadkach PDF jest dobrym wyborem. Nieodzowne jednak za każdym razem jest postawienie sobie pytania: “Czy najlepszym?”

Warto przeczytać

Kilka linków poszerzających temat:

  • Facts and Opinions About PDF Accessibility
  • Nie zawsze potrzebujesz PDF
  • WebAIM Defining Acrobat PDF Accessibility
  • PDF: Unfit for Human Consumption
  • Avoid PDF for On-Screen Reading

Na dwa ostatnie linki natrafiłem na blogu Roberta Drozda