Na ovoj stranici možete naći tehnički opis resursa ParCoLab.
Tehnologije koje koristimo
ParCoLab je zasnovan na upotrebi najnovijih tehnologija za upravljanje elektronskim bazama podataka i za internetske aplikacije. Oslanja se na Apache CouchDB, NoSQL sistem za upravljanje bazama podataka. Naročito pogodna za upravljanje velikim količinama podataka, podaci se skladište u obliku JSON dokumenata organizovanih u kolekcije. Kako ovaj tip baze ne zahteva da podaci budu organizovani u strogo definisane, međusobno povezane tabele, korpusu se ostavlja mogućnost da evoluira i da se u njega ugrade novi slojevi anotacije u skladu s naknadnim potrebama. CouchDB poštuje principe i protokole internet tehnologije (što značajno olakšava izvršavanje pretraga) i dobra je osnova za razvoj kolaborativnih aplikacija. Dobre performanse korpusa proizlaze i iz činjenice da je u njega uključen Nood.js, programska platforma napisana u JavaScript-u, namenjena onlajn aplikacijama koje u slučaju velikog broja istovremenih upita moraju biti u stanju da se prilagode i održe isti nivo efikasnosti.
Podaci uključeni u korpus pohranjeni su u formatu XML, a XML struktura koja se koristi poštuje preporuke inicijative TEI. Metapodaci su standardizovani, te svaki dokument sadrži sledeće informacije: naslov, podnaslov, autor, prevodilac, izdavač, mesto izdanja, datum izdanja, datum nastanka, izvor, jezik teksta, jezik originala, domen, žanr, broj reči, način nastanka (original ili prevod). Korpus zasad ne sadrži informacije lingvističke prirode, ali su u toku radovi koji će u bliskoj budućnosti obogatiti korpus morfosintaksičkom i sintaksičkom anotacijom.
Originalni se tekstvoi s prevodima uparuju pomoću algoritma ugrađenog u resurs. Ne koriste se dakle nikakvi eksterni alati. Pomenuti algoritam uparuje tekstove od početka ka kraju (i uspostavlja veze 1:1) prvo na nivou poglavlja (<div>), potom na nivou pasusa (<p>), te konačno na nivou rečenica (<s>). Algoritam ukazuje na greške u uparivanju, koje se zatim ručno otklanjaju, što garantuje kvalitet uparivanja.
Pretrage se vrše pomoću pretraživača Elasticsearch, veoma dobro prilagođenog pravljenju upita u bazama NoSQL. Čak i s minimalnim formularom za upite, mogućnosti su pretrage velike. Moguće je formulisati upite koji se odnose na jednu reč, na izraz od više reči, na izraze s jednim ili više džokera, na reči koje počinju ili se završavaju određenim nizom karaktera itd. Moguće je koristiti i regularne izraze i Bulove operatore (više podataka možete naći na odgovarajućim stranicama za pomoć). Naš pretraživač se oslanja i na strukturu XML dokumenata, pa se u pretragama mogu koristiti i različiti metapodaci.
Što se tiče internet tehnologija, sajt za pristup ParCoLabu u formatu je HTML5 i oslanja se na prilagodljivi web dizajn (responsive web design). Zahvaljujući ovim tehnologijama, sajt je dinamičan i u realnom se vremenu prilagođava aparatu s kojega ga mu se pristupa. Sajt se dakle može koristiti na računarima, tabletima i smartfonima, uz isti nivo komfora i bez potrebe za korisničkim intervencijama. Aplikacija je kompatibilna sa sledećim internet pretraživačima: Google Chrome – verzija 35 i novije, Mozilla Firefox – verzija 32 i novije, Apple Safari – verzija 7.0 i novije, Microsoft Internet Explorer – verzija 10 i novije. Sajt je dostupan na tri jezika: srpskom, francuskom i engleskom.
Korpus se obogaćuje ručno i uglavnom se sastoji od književnih tekstova napisanih na jednom od tri zastupljena jezika (srpski, francuski i engleski) i njihove prevode na ostala dva jezika. Diversifikacija žanrova je u toku. Više podataka o tekstovima uključenim u ParCoLab možete naći na stranici Sadržaj.
Radovi obljavljeni u okviru projekta navedeni su na stranici Objavljeni radovi.