Tekstowe digitalizacje słowników tradycyjnych

Przez digitalizacje tekstowe rozumiemy tutaj wersje elektroniczne słowników tradycyjnych, które nie ograniczają się do do graficznej reprezentacji stron oryginału. Nie jestem zadowolony z tego terminu, ale nie widzę dobrej alternatywy — digitalizacje znakowe? kodowe (od kodu znaków)?

Za przykład takiej digitalizacji posłuży nam TLFi Le Trésor de la Langue Française Informatisé. Pierwsza próba digitalizacji tego słownika była podjęta w latach 1993-1994, w latach 2001-2002 została ona dokończona przez ośrodek badawczy ATILF (Analyse et Traitement Informatique de la Langue Française — Analiza i Przetwarzanie Informatyczne Języka Francuskiego).

1 Wierność

Pierwsze pytanie, które się nasuwa, dotyczy tego, czy wersja elektroniczna jest wiernym odpowiednikiem wersji drukowanej:

  1. Czy dostępne są informacje o twórcach słownika (redaktorzy itp.)?
  2. Czy dostępne są informacje o wydaniu lub wydaniach, na których opiera się wersja elektroniczna?
  3. Czy dostępne są wstępy, wprowadzenia itp.?
  4. Czy dostępne są inne materiały uzupełniające?
  5. Czy dostępne są wszystkie artykuły hasłowe?
  6. Czy artykuły hasłowe dostępne są w całości?

W przypadku TLFi odpowiedzi na najważniejsze pytania 56 są pozytywne. Na pozostałe pytania odpowiedzi jednak są negatywne, co jest zaskakujące. Ciekawe, że Google nie odnajduje żadnej informacji o pierwodruku - tylko z notatki prasowej anonsującej wersję elektroniczną (http://www.cnrs.fr/cw/en/pres/compress/tresor.htm) można dowiedzieć się, że 16 tomów słownika zostało opublikowanych przez wydawnictwo Gallimar w latach 1971–1994.

Drugie nasuwające się pytanie dotyczy tego, czy zawartość wersji elektronicznej została rozszerzona o jakieś dodatkowe elementy. W przypadku TLFi dodatkowym elementem jest wymowa w postaci mowy syntetycznej generowanej z zapisu literowego (klawisz Prononcer na stronie artykułu hasłowego).

2 Forma i zasady udostępniania

Wersja elektroniczna jest dostępna w dwóch postaciach:

Płyty mają charakter komercyjny, natomiast witryna jest dostępna bezpłatnie, co zasługuje na uznanie.

Swoją drogą bezpłatne udostępnianie wyników wieloletnich prac finansowanych z budżetu państwa powinno być raczej regułą niż wyjątkiem.

Ze względu na komercyjny charakter płyt ich kopiowanie jest niewątpliwie nielegalne. Nie jest natomiast jasne, jaki jest dokładnie status wersji internetowej — czy np. stworzenie pełnej lub częściowej repliki (ang. mirror) byłoby legalne?

3 Nawigacja

W tej części będziemy zajmować się przede wszyskim witryną słownikową TLFi. Po odwiedzeniu strony http://atilf.atilf.fr/ należy wybrać między wolnym połaczeniem internetowym przez modem telefoniczny — Connexion lente (modem) — a połączeniem szybkim — Connexion rapide (ADSL/Réseau rapide). Kliknięcie na przycisk Entrez dans la TLF powoduje przejście na stronę o skomplikowanym i zmieniającym się adresie typu http://atilf.atilf.fr/dendien/scripts/tlfiv4/showps.exe?p=combi.htm;java=no;, którą dalej będziemy nazywać stroną główną TLFi. Strona ta nosi tytuł Recherche d’un mot i stanowi jedną z 7 stron dostępnych za pomocą „wypustek” (fr. ongles, ang. tabs, po polsku w zasadzie konik, ale słowo to praktycznie wyszło z użycia)

3.1 Lista haseł

W tradycyjnym słowniku możemy czytać artykuły hasłowe po kolei, możemy też czytać artykuły hasłowe poprzedzające wybrany artykuł. Możliwość ta nie występuje we wszystkich słownikach elektronicznych. Czasami wynika to z ograniczeń technicznych, a czasami jest celowe.

TLFi pozwala przeglądać swoją listę haseł. W tym celu na stronie głównej należy wybrać panel nr 2 Utilisez les listes défilantes, zaznaczyć w okienku jakiś przedział alfabetyczny (np. ACARÊMER (S’) à ACCOUVER) i kliknąć na przycisk Valider 3 (zatwierdź), co powoduje przejście do odpowiedniej strony (np. Recherche d’un mot dans la tranche "ACARÊMER (S’) à ACCOUVER".). Na stronie tej możemy wybrać już konkretny artykuł hasłowy (np. ACARIDE, ACARIEN, IENNE, adj. et subst. masc.).

Istnieją wygodniejsze sposoby przeglądania takich list, przede wszystkim znane m.in. z Emacsa wyszukiwanie przyrostowe (zapewne trudne do zrealizowania na witrynie, ale stosowane w słownikach stanowiących samodzielne programy). Można wyobrazić też sobie inne sposoby prezentowania listy haseł, np. a tergo czyli według zakończeń. Zwykły porządek alfabetyczny nosi nazwę a fronte i może występować w różnych wariantach, czym zajmiemy się kiedy indziej.

Z listą haseł wiąże się też pytanie, czy jest znana i łatwo dostępna ich liczba, a także inne dane statystyczne dotyczące zawartości słownika. TLFi nie podaje tych danych bezpośrednio, ale np. na stronie http://www.tlfi.fr/caractere.htm reklamującej wersję na CD można znaleźć informację, że słownik zawiera 100 000 słów wraz z ich historią, 270 000 definicji i 430 000 przykładów.

3.2 Wprowadzanie kwerend

Aby wyszukać interesującą nas informację w słowniku elektronicznym — bez posługiwania się listą haseł — należy przekazać do słownika pewien ciąg znaków reprezentujący naszą kwerendą, w najprostszym przypadku jakieś słowo.

Jeśli słowo to pochodzi z jakiegoś tekstu elektronicznego znajdującego się na naszym komputerze (może to być np. właśnie odwiedzana strona WWW), w niektórych przypadkach możemy ten fakt wykorzystać.

Ze skrajnym przypadkiem tej sytuacji mamy do czynienia wtedy, kiedy dla konkretnego słownika w trakcie czytania artykułu hasłowego chcemy w tym samym słowniku znaleźć informację o słowie występującym w artykule hasłowym. W TFLi możliwość ta jest zrealizowana w sposób nazwany przeze mnie roboczo „kwerendą niejawną” i opisany niżej.

Z jednej strony niektóre słowniki elektroniczne akceptują przekazywanie kwerend przez schowek będący standardowym elementem współczesnych interfejsów. Niektóre słowniki akceptują również kwerendy przekazywane metodą „przeciągnij i upuść”. Z drugiej strony dla niektórych przeglądarek i edytorów dostępne są narzędzia integracyjne, które rozszerzają ich możliwości o kwerendy słownikowe.

Możliwości te są szczególnie istotne dla języków ideograficznych i innych języków używających skomplikowanych systemów pisma, dla których wprowadzenie nieznanego słowa do komputera może być bardzo kłopotliwe — sprawie tej poświęcimy trochę czasu w dalszej części kursu. Teraz ograniczymy się do odnotowania, że wersja TLFi na CD ma pewne możliwości integracyjne, opisane na stronie http://www.tlfi.fr/integration.htm.

Jednak najbardziej podstawową formą wprowadzania tekstu do programu komputerowego jest wprowadzanie go z klawiatury. Może to czasami stwarzać problemy, zwłaszcza w przypadku witryn słownikowych, kiedy liczba reprezentująca znak z różnych powodów jest interpretowana inaczej, niż chce tego użytkownik. Problem dotyczy przede wszystkim liter nietypowych lub z diakrytami. W związku z tym istnieje czasami potrzeba korzystania z klawiatury wirtualnej, na której znaki wybiera się myszą lub klawiszami nawigacyjnymi. Klawiatura taka może stanowić element słownika, stanowić osobny program lub być elementem systemu operacyjnego.

W TLFi ewentualne problemy z wprowadzeniem tekstu można rozwiązać za pomocą innych funkcji słownika — patrz punkt 2 w sekcji 3.3. Mimo to jest on wyposażony w wirtualną klawiaturę symboli fonetycznych.

Samo wprowadzenie tekstu nie przesądza jeszcze o jego interpretacji. Najczęściej tekst ten stanowi dokładny lub przybliżony zapis literowy danego słowa, czasami może jednak oznaczać zapis jego wymowy. Jak zobaczymy dalej, TLFi dopuszcza taką możliwość.

3.3 Interpretacja kwerend

W TLFi napis wprowadzony w panelu Tapez le mot może być interpretowany na kilka sposobów:

  1. jako dokładny zapis literowy słowa lub wyrażenia, np. éléphant,
  2. jako uproszczony lub przybliżony zapis literowy słowa lub wyrażenia, np. elephant zamiast éléphant i porte monnaie oraz portemonnaie zamiast porte-monnaie,
  3. jako dokładny zapis fonetyczny w specyficznej dla TLFi transkrypcji, np. éléfan zamiast éléphant,
  4. jako przybliżony zapis fonetyczny, np. elefan zamiast dokładnego zapisu fonetycznego éléfan lub dokładnego zapisu literowego éléphant,
  5. jako formę fleksyjną wyrazu hasłowego, np. éléphants prowadzi do hasła ÉLÉPHANT, écriron do ÉCRIRE, généraux do GÉNÉRAL, végétales do VÉGÉTAL; co więcej, np. irions prowadzi do ALLER, którego zapis literowy nie wykazuje żadnego podobieństwa,
  6. jako słowo zapisane błędnie, np. ornitorinque zamiast ornithorynque, cuisso zamiast cuisseau lub cuissot.

Oczywiście podział ten nie jest ostry. O ile jeden użytkownik może ze względów technicznych pisać elephant wiedząc dobrze, że poprawny zapis ma formę éléphant, inny może tak pisać w przekonaniu, że to jest właściwa pisownia.

Innymi słowy, w słowniku wyszukiwane jest nie tylko jedno wpisane słowo, ale cały zbiór „słów pokrewnych” (mots apparentés). Jest za to odpowiedzialny „korektor błędów” (Correcteur d’erreurs); nazwa ta budzi lekkie zdziwienie, ponieważ utożsamia świadome podanie formy fleksyjnej z rzeczywistym błędem czy pomyłką użytkownika.

Normalnie korektor pracuje w trybie nazywanym automatycznym (automatique), ale w panelu Tapez le mot można zmienić tryb na wymuszony (forcé). W trybie automatycznym korektor interweniuje wtedy, kiedy wpisane słowo nie zostanie odnalezione w słowniku. W trybie wymuszonym korektor powinien zawsze znajdować słowa „spokrewnione” z wpisanym słowem, ale eksperymenty pokazują, że odbywa się to według jakichś nieoczywistych reguł.

Jest rzeczą ciekawą, że korektora nie można w żaden sposób obejść lub całkowicie wyłączyć. Jest tylko jeden wyjątek, mianowicie do wprowadzania dokładnej wymowy dostępny jest osobny panel nr 3 Faites une saisie phonétique z własną klawiaturą fonetyczną obsługiwaną za pomocą myszy. Zaletą tego panelu jest objaśnianie symboli fonetycznych za pomocą przykładowych słów wyświetlanych w oknie Explication. Wadą jest konieczność precyzjnego podawania wymowy — słabo znająca język osoba, która nie słyszy różnicy między e i é i wprowadzi elefan zamiast éléfan, otrzyma w wyniku informację Aucun mot trouvé ! (Nie znaleziono żadnego słowa!).

W przypadku braku wyniku wyszukiwania w słowniku słowa wpisanego w panelu nr 2 (Tapez le mot) otrzymuje się obszerny komunikat wyjaśniający 3 możliwe powody porażki:

Jeżeli chcemy poszukać słowa występującego w treści artykułu hasłowego, możemy w tym celu posłużyć się wspomnianą wcześniej kwerendą niejawną. Wystarczy mianowicie zaznaczyć myszą interesujące słowo, aby ukazało się okno, pozwalające wyszukać je w jednym z 7 źródeł:

Co ciekawe, pośrednictwo TLFi wydaje się jedynym sposobem dostępu do bazy wiedzy leksykalnej i bezpłatnej części korpusu Frantext (jeśli ktoś zna lub znajdzie inne sposoby, bardzo proszę o wiadomość).

3.4 Podstawowy zakres kwerend

W poprzednim punkcie mówiliśmy o różnych sposobach interpretacji kwerend w TLFi. Tutaj zajmiemy się jeszcze jednym aspektem. Mianowicie czasami słowo użyte w kwerendzie jest szukane tylko na liście haseł i podhaseł, a czasami w całym tekście słownika. jak się wydaje, użytkownik nie ma wpływu na sposób szukania, co jest dość zaskakujące.

Słowo występujące w kwerendzie jest szukane najpierw na liście haseł oraz na liście podhaseł (warto zwrócić uwagę, że lista podhaseł nie jest bezpośrednio dostępna, w szczególności nie jest wyświetlana za pomocą panelu nr 2 — por. punkt 3.1). Jeśli słowo jest hasłem, podhasłem lub fragmentem hasła lub podhasła, to wyszukiwanie zostaje uznane za zakończone.

Dla przykładu, dla słowa monnaie znajdujemy 7 trafień:

  1. Grippe-billet, grippe-monnaie, subst. masc., (dans l’article GRIPPE-SOU, subst.) — fragment podhasła w haśle GRIPPE-SOU,
  2. MONNAIE, subst. fém. — hasło właściwe,
  3. MONNAIE-DU-PAPE, subst. fém. — fragment hasła właściwego,
  4. PAPIER-MONNAIE, subst. masc. — fragment hasła właściwego,
  5. PORTE-MONNAIE, subst. masc. inv. — fragment hasła właściwego,
  6. quasi-monnaie, subst. fém. (dans l’article QUASI-, élém. de compos.) — fragment podhasła w haśle QUASI-,
  7. RAMASSE-MONNAIE, subst. masc. inv. — fragment hasła właściwego.

Jeśli natomiast w kwerendzie użyjemy słowa monnaies, to najpierw otrzymamy tabelkę:

Mot Dans une entréeDans une expression



monnayer 1 0
monnaies 0 14
monnaie 7 64

Klikając na słowa w pierwszej kolumnie otrzymamy odpowiednio wyjaśnienia:

Słowo monnaies jest więc formę fleksyjną dwóch wyrazów hasłowych: monnaie (rzeczownik) i monnayer (czasownik), a oprócz tego występuje w słowniku 14 razy.

Co ważniejsze jednak, odnośniki w 3 kolumnie prowadzą nas do wystąpień odpowiednich słów w treści artykułów hasłowych. Wygląda więc na to, że aby znaleźć w słowniku wystąpienia słowa monnaie, trzeba paradoksalnie napisać je w liczbie mnogiej, czyli monnaies. Jeśli ktoś zna prostszy sposób, to bardzo proszę o wiadomość.

4 Uwagi końcowe

TLFi sprawia wrażenie, jakby w pewnym momencie autorowi wersji elektronicznej zabrakło funduszy i motywacji. Pomimo tego pod wieloma względami może on stanowić przykład dla innych słowników elektronicznych.


Niniejszy tekst przygotował Janusz S. Bień na potrzeby kursu internetowego Słowniki i encyklopedie w Internecie – budowa i użytkowanie i udostępnił na zasadach GNU Free Documentation License.

2008/03/26 (09:18:44) strad.tex wersja 1.3