Šta je ParCoLab?

ParCoLab je paralelni korpus od 47.000.000 reči koji sadrži izvorne tekstove i njihove prevode na devet evropskih jezika: srpski, francuski, engleski, španski, italijanski, oksitanski, korzikanski, alzaški i poatvenski. Svaki od ovih jezika je istovremeno izvorni i prevodni jezik. Projekat izrade paralelnog korpusa ParCoLab vodi Dejan Stošić, redovni profesor i istraživač Univerziteta Tuluz Žan Žores (Francuska), član istraživačke ekipe CLLE iz Tuluza. ParCoLab je rezultat višegodišnje saradnje između lingvista i informatičara, stručnjaka za računarsku obradu jezika, iz Francuske i Srbije.

Prikupljeni tekstovi upareni su na nivou pasusa i rečenica, što znači da su svaki pasus i svaka rečenica određenog izvornog teksta poravnati s odgovarajućim prevodom na drugim jezicima. Pouzdanost uparivanja, koja je postigunta ručnom proverom, jedna je od najbitnijih prednosti našeg korpusa. ParCoLab trenutno sadrži uglavnom književne tekstove, ali se aktivno radi na diversifikaciji žanrova, tako da se u korpusu već može naći i građa s interneta, titlovi, tehnička dokumentacija, štampa, itd.

Osim kvalitetnog i bogatog sadržaja, jedna od važnih prednosti i osobenosti korpusa jeste korišćenje i poštovanje važećih, međunarodno prihvaćenih standarda za formatiranje tekstualnih podataka u elektronskom obliku, neophodnih za izradu i distribuciju korpusa. U pitanju je standardni skup pravila XML koji poštuje normu TEI.

ParCoLab je besplatno dostupan preko interneta, tako da možete bez da pretražujete paralelni korpus bez ikakvih formalnosti. Neke funkcije su dostupne samo korisnicima s nalogom. Za to je dovoljno da otvorite nalog (ovde) ili, ako već posedujete nalog, da se ulogujete (ovde). Zahvaljujući pretraživaču koji je ugrađen u aplikaciju, moći ćete da izvršite raznovrsne upite i dobijete jezičku građu za izraze koje želite da proučavate, kao i odgovarajuće prevode na druga dva jezika.

ParCoLab je namenjen prvenstveno naučnim i pedagoškim svrhama. Korpus omogućava da se lako i brzo dođe do građe za proučavanje jezika prisutnih u teksuelnoj bazi, kao i za njihovo poređenje. ParCoLab je takođe moguće koristiti u okviru nastave i učenja bilo kojeg od prisutnih jezika kao stranog jezika, kao i u školovanju prevodilaca i traduktologa. Predviđene su takođe i brojne primene u domenu leksikografije, automatskog ili poluautomatskog prevođenja, te u izradi nastavnog materijala. ParCoLab je omogućio i izradu raznih resursa i alata za automatsku obradu srpskog jezika.

Paralelni korpus je u stalnom razvoju jer se svakodnevno dorađuje i obogaćuje kako s tehničke strane, tako i po pitanju kvaliteta sadržaja i obima podataka.

[Ekipa]    [Tehnologije]   [Sadržaj]    [Objavljeni radovi]    [Resursi]    [Zahvaljujemo]