Šta je ParCoLab?

ParCoLab je paralelni korpus od 8.758.818 reči koji sadrži izvorne tekstove i njihove prevode na tri evropska jezika: srpski, francuski i engleski. Svaki od ovih jezika je istovremeno izvorni i prevodni jezik. Projekat izrade paralelnog korpusa ParCoLab vodi Dejan Stošić, docent i istraživač Univerziteta Tuluz Žan Žores (Francuska), član istraživačke ekipe CLLE-ERSS iz Tuluza. ParCoLab je rezultat višegodišnje saradnje između lingvista i informatičara, stručnjaka za računarsku obradu jezika, iz Francuske i Srbije.

Prikupljeni tekstovi upareni su na nivou pasusa i rečenica, što znači da su svaki pasus i svaka rečenica određenog izvornog teksta poravnati s odgovarajućim prevodom na druga dva jezika. Pouzdanost uparivanja, koja je postigunta ručnom proverom, jedna je od najbitnijih prednosti našeg korpusa. ParCoLab trenutno sadrži uglavnom književne tekstove, ali se aktivno radi na diversifikaciji žanrova, tako da će se u korpusu uskoro naći i građa s interneta, titlovi, tehnička dokumentacija, itd.

Osim kvalitetnog i bogatog sadržaja, jedna od važnih prednosti i osobenosti korpusa jeste korišćenje i poštovanje važećih, međunarodno prihvaćenih standarda za formatiranje tekstualnih podataka u elektronskom obliku, neophodnih za izradu i distribuciju korpusa. U pitanju je standardni skup pravila XML koji poštuje normu TEI.

ParCoLab je besplatno dostupan preko interneta. Da biste mogli da pretražujete paralelni korpus, dovoljno je da otvorite nalog (ovde) ili, ako već posedujete nalog, da se ulogujete (ovde). Zahvaljujući pretraživaču koji je ugrađen u aplikaciju, moći ćete da izvršite raznovrsne upite i dobijete jezičku građu za izraze koje želite da proučavate, kao i odgovarajuće prevode na druga dva jezika.

ParCoLab je namenjen prvenstveno naučnim i pedagoškim svrhama. Korpus omogućava da se lako i brzo dođe do građe za proučavanje srpskog, francuskog ili engleskog jezika, kao i za njihovo poređenje. ParCoLab je takođe moguće koristiti u okviru nastave i učenja francuskog, engleskog ili srpskog kao stranog jezika, kao i u školovanju prevodilaca i traduktologa. Predviđene su takođe i brojne primene u domenu leksikografije, automatskog ili poluautomatskog prevođenja, te u izradi nastavnog materijala. U toku je i priprema raznih resursa i alata za automatsku obradu srpskog jezika.

Paralelni korpus je u stalnom razvoju jer se svakodnevno dorađuje i obogaćuje kako s tehničke strane, tako i po pitanju kvaliteta sadržaja i obima podataka.

 

 

[Ekipa]    [Tehnologije]   [Sadržaj]    [Objavljeni radovi]    [Resursi]    [Zahvaljujemo]