POSTULATY DOTYCZĄCE PUBLIKOWANIA W SIECI
DOKUMENTÓW POLSKIEGO PIŚMIENNICZEGO DZIEDZICTWA
Polskim piśmienniczym dziedzictwem nazywamy tu dzieła dokumentujące rozmaite wątki naszej intelektualnej tradycji, których doniosłość jest potwierdzona w opracowaniach historycznych i przedmiotowych bibliografiach – dzieła naukowe i popularne, oryginalne i tłumaczenia, wydane osobno lub zamieszczone w czasopismach, drukowane lub zachowane w rękopisie.
Coraz większa część tego dziedzictwa jest dziś już dostępna w postaci cyfrowej w sieci (World Wide Web), potocznie zwanej internetem. Można byłoby się tym cieszyć, gdyby nie problemy, na jakie natrafiamy chcąc do tych publikacji sięgnąć. Świadczą o tym choćby instrukcje zamieszczone na stronach polskich bibliotek – nigdzie indziej na świecie niespotykane – które pouczają użytkowników, jak mają radzić sobie z dostępem.
Digitalizacja piśmienniczego dziedzictwa pojmowana jest nader wąsko, jako wykonanie skanów utrwalających obraz dokumentów w postaci cyfrowej. Nic nie wskazuje, aby sprawujący z urzędu pieczę nad polskim piśmienniczym dziedzictwem troszczyli się, jak te zeskanowane materiały są udostępniane w sieci i jaka jest ich użyteczność. W każdym razie nie udało się nigdzie znaleźć żadnych oficjalnie ustalonych norm dotyczących publikowania w sieci zasobów cyfrowych, których tworzenie finansowane jest ze środków publicznych. O sposobie udostępnienia decydują, dostawcy oprogramowania dla bibliotek forsujący własne rozwiązania firmowe, lokalni webmasterzy mający własne "patenty" i anonimowe urzędnicze siły, które nie muszą wcale przejmować się potrzebami użytkowników i rozumieć znaczenia, jakie ma udostępnianie w sieci polskiego piśmienniczego dziedzictwa.
Dla użytkownika, który chce korzystać z tych zasobów w swoich studiach czy pracy, liczy się przede wszystkim pewność, że w bibliotece cyfrowej znajdzie poszukiwaną publikację, że będzie mógł ją otworzyć w internetowej przeglądarce, że przeczyta bez nadwyrężania wzroku, że tekst będzie mógł przeszukać i skopiować jego fragmenty, aby je zacytować, że adres tej publikacji może podać w bibliografii bez obawy, że ulegnie on niespodziewanie deaktualizacji. Nie są to wymagania wygórowane, ale zgoła elementarne. Powinny być kryteriami oceny rozmaitych przedsięwzięć digitalizacyjnych. Poniżej spróbujemy je bliżej sprecyzować z nadzieją, że wzbudzimy publiczną dyskusję o publikowaniu w sieci piśmienniczego dziedzictwa.
1.Źródła historyczne powinny być udostępniane na podstawie stabilnych standardów sieciowych. Do ich odczytania powinna wystarczać internetowa przeglądarka (niekoniecznie najnowsza). Udostępnienie dokumentów w formatach wymagających wyspecjalizowanego czytnika powinno być traktowane tylko jako dodatkowa opcja.
Większość polskich bibliotek cyfrowych korzysta z systemu dLibra, który nie został wyposażony w mechanizm udostępniania publikacji (obrazu i tekstu), ale wymaga użycia wyspecjalizowanych czytników. Wiele bibliotek, zwłaszcza uczelnianych, udostępniania swoje zasoby w formacie DjVu, który nie jest standardem internetowym i wymaga zainstalowania czytnika stanowiącego tzw. firmware. Przyjęcie (i to bez alternatywy) tego specyficznego formatu do publikacji polskiego piśmienniczego dziedzictwa jest świadectwem nieodpowiedzialności.
Niektóre biblioteki, aby uniknąć kłopotów z formatem DjVu, udostępniają swoje zasoby w formacie PDF, często w olbrzymich plikach, liczących nawet kilkaset MB. Takie publikacje należy uznać za pozorne, gdyż są po prostu nieużyteczne.
2.Każda publikacja musi mieć trwały adres sieciowy, kanoniczny URL. Adres ten powinien być jawnie podany, aby można było użyć go w odsyłaczu kierującym bezpośrednio do publikacji lub wybranego w niej miejsca (dowolnej strony). Powinien być poręczny, zwięzły, aby można było go podać także w tekście drukowanym, np. w bibliografii.
W systemie dLibra oficjalny URL kieruje jedynie do noty katalogowej. Bezpośrednie wskazanie publikacji nie jest zalecane (sic!). W konsekwencji nie można podać w sposób pewny bezpośredniego odsyłacza do artykułu zamieszczonego w czasopiśmie i trzeba żmudnie wertować całe roczniki.
Adresowanie często jest nieprzemyślane, czasem wręcz bezmyślne, jak np. w archiwum czasopism naukowych Muzeum Historii Polski, na co zwracaliśmy uwagę.
3.Dokumenty powinny być zeskanowane starannie i udostępniane z rozdzielczością i kontrastowością zoptymalizowaną do odczytu zarówno na ekranie stacjonarnego komputera lub urządzenia mobilnego.
Normy ustalone w tym zakresie nie są przestrzegane. Jakość graficzna wielu publikacji oferowanych przez polskie biblioteki cyfrowe jest często mizerna. Nie da się tego wytłumaczyć jedynie brakiem odpowiedniego sprzętu. Nie trudno dostrzec, że materiały skanowane są po prostu niedbale i nie są poddawane jakiejkolwiek korekcie graficznej.
4.Dokumenty powinny być udostępniane wraz z tekstem czyli z możliwością jego przeszukiwania i skopiowania wybranych fragmentów. Procesowi OCR powinny zostać poddane wszystkie dokumenty o dostatecznie znormalizowanej typografii.
Tekst uzyskany przez OCR publikowany jest w formie surowej, bez jakiejkolwiek korekty, często jest bezużyteczny.
5.Każda strona publikacji powinna być prezentowana na ekranie osobno. Układ dwustronicowy może być tylko opcją pozostawioną do wyboru użytkowników.
Żadna polska biblioteka cyfrowa nie oferuje czytelnikom wyboru w tym zakresie. Wiele publikacji zeskanowano w postaci "rozkładówki" (dwie strony), które mieszczą się na standardowym ekranie monitora zwłaszcza wtedy, gdy odczytania tekstu konieczne jest powiększenie.
6.Informacje o publikacjach powinny być rzetelne i pomocne w pracy nad tekstem. Nie mogą ograniczać się tylko do standardowych danych bibliograficznych. Powinny zawierać spisy treści lub skorowidze umożliwiające np. sięgnięcie do hasła w encyklopedii czy w słowniku bez konieczności ich wertowania metodą prób i błędów. Najbardziej doniosłe dokumenty polskiego piśmienniczego dziedzictwa powinny być zaopatrzone w odsyłacze kierujące do komentarzy i innych publikacji, które sytuują je w historycznym kontekście.
Opracowanie edytorskie nie mieści się w przyjętym modelu digitalizacji polskiego piśmienniczego dziedzictwa, rozliczanej jedynie na podstawie liczby wykonanych skanów. Digitalizacja powinna być rozumiana jako pierwszy etap cyfrowej reedycji, która ma przenieść w nowe medium całość naszego piśmienniczego dziedzictwa, aby pozostało czytelne i utrzymywało poczytalność współczesnych i przyszłych pokoleń.
W rosnących zasobach bibliotek cyfrowych staramy się wyśledzić polską klasykę naukowo-techniczną -- dokumenty naszej intelektualnej tradycji. Będziemy wdzięczni za wskazanie nam tych publikacji, które przeoczyliśmy.
Fundacja HINT  •  hint.org.pl  •  2024.12.13
Nie korzystamy z cookies i podobnych wynalazków.