Program Kolokacje

Aleksander Buczyński, Tomasz Okniński, 2006.07.24

Po polsku / English

O programie

Program Kolokacje łączy w sobie robota internetowego i wyszukiwarkę kolokacji. Jego autorem jest Aleksander Buczyński. Program został poprawiony i zmodyfikowany przez Tomasza Oknińskiego, a następnie przez Piotra Miłkowskiego.

Najnowsza wersja nosi numer 1.21 i pochodzi z lipca 2006 r.

Program powstał w Instytucie Informatyki UW [Uniwersytetu Warszawskiego], w ramach seminarium magisterskiego "Narzędzia i metody przetwarzania tekstów", kierowanego przez dr. hab. Janusza S. Bienia (Katedra Lingwistyki Formalnej UW) oraz dr. Krzysztofa Szafrana (Instytut Informatyki UW).

Program Kolokacje rozpowszechniany jest bezpłatnie na licencji GNU General Public License: www.gnu.org/copyleft/gpl.html

Program może być wykorzystywany do:

- budowy korpusu tekstów z wybranych witryn internetowych, z możliwością automatycznego odfiltrowania większości typowego dla HTML "szumu" (powtarzające się strony, menu itp.);

- monitorowania zmian na wybranych witrynach WWW;

- znajdowania silnych i / lub częstych kolokacji;

- znajdowania słów kluczowych dla zbioru dokumentów;

- pobierania próbek kontekstów (konkordancji) dla danych słów lub kolokacji;

- porównywania 14 testów statystycznych służących do wykrywania kolokacji.

Z funkcji dostarczanych przed program można korzystać na kilka sposobów:

- poprzez prosty interfejs graficzny - moduł kolokacje.standaloneNew.SAMain (dawniej kolokacje.standalone.SAMain) - to najprostszy sposób by zapoznać się z podstawowymi funkcjami programu;

- wywołując wybrane moduły z linii komend (patrz składnia wywołania);

- wywołując wybrane metody ze swoich własnych programów w Javie (patrz specyfikacja API).

- wykorzystując moduły kolokacje.server.PrettyPrinter i kolokacje.server.QueryServer, by zbudować interfejs sieciowy - zobacz przykład dla dokumentacji emacsa.

- wykorzystując kolokacje.server.PrettyPrinter, by zadać zapytania z konsoli, a następnie przeglądarkę HTML, by obejrzeć wyniki.

Wymagania

FunkcjonalnośćWymagania
Przeglądanie plików wygenerowanych przez PrettyPrinter, korzystanie z archiwów udostępnianych przez interfejs WWWdowolna przeglądarka HTML (zalecane wsparcie dla CSS i UTF-8)
Uruchamianie modułów Crawler, IndexBuilder, PrettyPrinterJRE
Uruchamianie modułu QueryServerJRE + łącze internetowe
Uruchamianie własnego interfejsu WWWJRE + łącze internetowe + miejsce na serwerze WWW z PHP
Uruchamianie modułu SAMainJRE + środowisko graficzne (np. X Window System, MS Windows)
Modyfikowanie / tworzenie nowych testów kolokacjiJDK

JRE / JDK oznacza odpowiednio maszynę wirtualną / kompilator javy zgodne ze specyfikacją Sun Java 2 Standard Edition 1.4.2. Zarówno jedno jak i drugie można pobrać ze strony: java.sun.com

Program Kolokacje był testowany pod Linuksem (dystrybucje PLD, Debian i Knoppix; okienka KDE, FVWM i IceWM), Windows 98 i Windows XP. Pod FVWM wykryto problem z rozmieszczaniem okienek, w dokumentacji opisano sposób jego obejścia.

Pobierz program

Kolokacje 1.21, kod źródłowy + binaria (najnowsza wersja programu - ZIP, ok. 400 kB)

Kolokacje 1.21, kod źródłowy + binaria + pełna dokumentacja (ZIP, ok. 2 MB)

Kolokacje 1.0df, kod źródłowy + binaria (odgałęzienie od 1.0, wersja licząca DF i RIDF także dla pojedynczych słów - ZIP, 218 KB)

Collocatrix - obraz płyty bootowalnej (LiveCD), zawierającej Knoppix z Kolokacjami 1.10b, OmegaT (pamięć tłumaczeniowa) itp. (ISO, ok. 700 MB)

Instalacja i uruchamianie

1. Pobierz binaria;

2. Rozpakuj ściągnięty plik ZIP;

3. Sprawdź, czy masz ustawioną ścieżkę dostępu do plików wykonywalnych javy - to bardzo ułatwia korzystanie z programu.

Pliki wsadowe:

start.bat - uruchamia kolokacje.standaloneNew.SAMain, nowy (A.D. 2005) interfejs graficzny programu.

Składnia wywołania pojedynczych modułów:

java kolokacje.standalone.SAMain [dir]
java kolokacje.crawler.Crawler dir [var1=value1 var2=value2...]
java kolokacje.index.IndexBuilder dir [var1=value1 var2=value2...]
java kolokacje.server.PrettyPrinter dir [var1=value1 var2=value2...]
java kolokacje.server.QueryServer dir [var1=value1 var2=value2...]
java kolokacje.standalone.SAManager dir [var1=value1 var2=value2...]

Dokumentacja

Kolokacje 1.2 API (HTML, po angielsku)

Instrukcja użytkownika do wersji 1.0 (po polsku, PDF, 123 kB)

Uzupełnienie instrukcji do wersji 1.1 (po polsku, PDF, 64 kB)

Pozyskiwanie z Internetu tekstów do badań lingwistycznych (praca magisterska Aleksandra Buczyńskiego, po polsku, PDF, 316 kB)

Narzędzia przetwarzania tekstów w języku Java (praca magisterska Tomasza Oknińskiego, po polsku, PDF, 385 kB)

Plik changes.txt (zmiany od wersji 1.0 do 1.21)

Plik changes-1.txt (starsze zmiany)

Kontakt

Informacje o błędach, pytania i komentarze prosimy przesyłać na adres nmpt-l(na)mimuw.edu.pl