Weryfikacja korpusu wypowiedników polskich (z wykorzystaniem gramatyki formalnej Świdzińskiego)

Ogrodniczuk, Maciej (2006) Weryfikacja korpusu wypowiedników polskich (z wykorzystaniem gramatyki formalnej Świdzińskiego). ["eprint_fieldopt_thesis_type_phd" not defined] thesis, Uniwersytet Warszawski.

[img]
Preview
PDF (tekst pracy)
MO06-dr.pdf - Accepted Version
Available under License GNU Verbatim Copying and Distribution.

Download (1MB) | Preview
[img]
Preview
PDF (autoreferat)
MO-a-dr.pdf - Supplemental Material
Available under License GNU Verbatim Copying and Distribution.

Download (166kB) | Preview
[img] Other (załącznik do pracy - płyta CD "Świgra Live" dla MS Windows)
SwigraLive.iso - Accepted Version
Available under License GNU Verbatim Copying and Distribution.

Download (48MB)
[img] Plain Text (wykaz zawartości płyty "Świgra Live")
SwiGraLive-ls-lR.txt - Supplemental Material
Available under License GNU Verbatim Copying and Distribution.

Download (470kB)
Official URL: http://nauka-polska.pl/dhtml/raporty/praceBadawcze...

Abstract

W pracy dokonana została wieloaspektowa weryfikacja korpusu wypowiedników polskich Marka Świdzińskiego - bazy zdań i oznajmień z naniesioną charakterystyką i strukturą składnikową jednostek elementarnych. Inicjalna czynność procesu weryfikacji reprezentowanych danych, weryfikacja grafemiczna, pozwoliła na wyeliminowanie wiekszości błędów zapisu oraz przygotowała materiał do dalszej pracy. Ważny etap weryfikacji stanowiło też porównanie dostępnej wersji korpusu z materiałem źródłowym oraz innymi zbiorami danych tworzonych na jego bazie, a przez to niezależnie przejrzanymi i poprawionymi. Weryfikacja morfologiczna korpusu pozwoliła z jednej strony na dokonanie dodatkowego sprawdzenia warstwy typologicznej, z drugiej - na rozbudowę i korektę zasobów źródłowych użytego analizatora morfologicznego. Główną część pracy wypełniły wnioski z procesu weryfikacji składniowej korpusu wykorzystującego gramatykę formalną języka polskiego Świdzińskiego oraz analizator składniowy Świgra Marcina Wolińskiego. Korzystając z dostępnych wyróżnień jednostek składniowych poziomu frazowego oprócz analizy składniowej pełnych tekstów wypowiedników dokonano osobnej weryfikacji składni fraz. Etap weryfikacji składniowej wymagał rozszerzenia gramatyki Świdzińskiego o konstrukcje językowe używane w korpusie wypowiedników, a nie reprezentowane do tej pory w gramatyce, takie jak konstrukcja liczebnikowa czy grupy składniowe. Dokonano także wielu niezbędnych usprawnień w zakresie akceptowanych konstrukcji językowych oraz zweryfikowano hipotezy o domniemanej kolejności drzew analizy oraz o równoważności dystrybucyjnej jednostek zdaniowych. Proces weryfikacji składni dostarczył także danych do porównania gramatyki Świdzińskiego z jej wariantem użytym do reprezentacji struktur składniowych w korpusie oraz do analizy aspektu wieloznaczności danych korpusowych. Osobny etap stanowił analiza pochodnych danych lingwistyczych pozyskanych na bazie próbek korpusu, mianowicie rozkładu schematów zdaniowych, realizacji fraz poszczególnych typów porządku składników zdania elementarnego czy typologii oznajmień. Nawiązując do wcześniejszego opartego na słownikowej kwerendzie projektu składniowego słownika czasowników Świdzińskiego w oparciu o dane korpusu powstał słownik czasowników z informacją składniową w identycznym formacie, wykorzystany także do uzupełnienia słownika wymagań czasownikowych analizatora składniowego. W ramach pracy dane bazy wypowiedników zostały zapisane w postaci korpusu rozbiorów gramatycznych w formacie XML-owym. Próbkę korpusu stanowi jednostka poziomu wypowiedzenia zawierająca komplet informacji składniwoej, oryginalnie dostępnej wyłącznie dla jednostek elementarnych. Ważny aspekt pracy stanowi także udostępnienie analizatora składniowego Świgra Marcina Wolińskiego w środowisku Windows oraz stworzenie na jego bazie zestawu narzędzi do przetwarzania korpusu wypowiedników, które mogą okazać się przydatne do analizy morfologicznej i składniowej dowolnych korpusów tekstów.

Item Type: Thesis (["eprint_fieldopt_thesis_type_phd" not defined])
Additional Information: Promotor: Janusz S. Bień
Subjects: P Language and Literature > PG Slavic, Baltic, Albanian languages and literature
P Language and Literature > P Philology. Linguistics
Q Science > QA Mathematics > QA76 Computer software
Depositing User: Janusz S. Bień
Date Deposited: 10 Nov 2008 20:53
Last Modified: 05 Aug 2012 10:25
URI: http://bc.klf.uw.edu.pl/id/eprint/30

Actions (login required)

View Item View Item