Projekt LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat

Poskytovatel: Ministerstvo školství, mládeže a tělovýchovy

Program: LM – projekty velkých infrastruktur pro VaVaI (2010–2015)

Kategorie VaV: IF – Infrastruktura výzkumu a vývoje

 

Reg. číslo: LM2010013

Řešitel: prof. RNDr. Jan Hajič, Dr., Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Spoluřešitel: doc. RNDr. Karel Oliva, Dr.

Doba řešení: 2010–2015 

 

Anotace

Projekt LINDAT-CLARIN je koncipován jako český uzel mezinárodní sítě Clarin (Common Language Resources and Technology Infrastructure, FP7-RI-2122230) a projektu META-NET (Technologies for the Multilingual European Information Society, NoE, 2011-2014, FP7-ICT-4-249119) pro volné sdílení jazykových dat a pokročilých technologií mezi institucemi a jednotlivci ve vědě a výzkumu. Tyto evropské projekty mají za cíl překážky volného přístupu k jazykovým datům postupně odstranit a umožnit národně distribuované, ale technologicky jednotné poskytování jazykových dat a souvisejících technologií všem zájemcům. V oblasti anotace dat je cílem projektu pořídit tato data v dostatečném rozsahu pro praktickou aplikaci statistického modelování jazyka jako nutnou podmínku pro aplikaci těchto modelů v praxi (korektory textu, automatický překlad, extrakce informací z textu, porozumění textu, dialogové systémy apod.). V oblasti distribuce dat je cílem poskytovat službu repozitáře pro úschovu, licencování a poskytování dat v rámci celoevropské sítě Clarin a META-SHARE (součást projektu META-NET). V oblasti technologické i v oblasti lidských zdrojů je cílem vybudování know-how v oblasti sběru, úschovy, tvorby a distribuce dat, které bude možno poskytovat i externím subjektům. Přitom je třeba vyškolit jazykové odborníky i odborníky z oblasti technologií (informatika, statistika, matematické modelování) tak, aby byli schopni v tomto výrazné mezioborovém projektu efektivně pracovat. Nezanedbatelným cílem projektu je vychovat další vědeckou generaci, která bude umět s jazykovými daty pracovat, správně je analyzovat a používat v národním i mezinárodním kontextu, a spolupracovat v rámci EU i mimo ni na budoucích projektech využívajících moderní jazykové technologie.

Dne 15. března 2010 vláda schválila text Cestovní mapy ČR velkých infrastruktur pro výzkum, vývoj a inovace. Tento strategický dokument vznikl v reakci na evropskou cestovní mapu (tzv. ESFRI Roadmap) a odráží v sobě zapojení českých velkých infrastruktur do Evropského výzkumného prostoru.  

Centrum lingvistických dat LINDAT-CLARIN je projekt Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty UK a partnerských institucí (MU Brno, ZČU Plzeň a ÚJČ AV ČR, v.v.i.), který je nyní v přípravné fázi a kombinuje cíle propojování a zpřístupnění jazykových zdrojů a vývoj jazykových technologií a má sloužit jako servisní středisko pro tvorbu, zpracování a distribuci jazykových dat integrované do celoevropské sítě CLARIN (Common Language Resources and Technology Infrastructure).

 

Projekt LINDAT-Clarin bude napojen na projekt Clarin, ESFRI projekt (FP7-RI-2122230) pro jazykovou infrastrukturu v humanitních vědách. Uzel Clarin bude realizován čtyřmi partnery projektu. Toto ZSPO bude realizovat organizačně i technologicky veškeré funkce uzlu (Centrum "A" v terminologii Clarin) pro budoucí asociaci Clarin-ERIC, a bude pověřeno výkonem funkcí MŠMT v Clarin-ERIC (kromě pravomocí rozhodovacích). Navrhovaným sídlem této ZSPO je budova sekce informatiky MFF UK na Malostranském náměstí 25, 11800 Praha 1. Národní úkoly při tvorbě a dodávání jazykových dat, úkoly vzdělávací a výzkumné budou plnit jednotlivé zakladatelské organizace v jejich stávající struktuře. Organizačně budou jednotlivá pracoviště podporovaná z prostředků LINDAT-Clarin oddělena v rámci těchto organizací.

Centrum je koncipováno jako český „uzel“ mezinárodní sítě pro sdílení jazykových dat a technologií CLARIN, která je v přípravné fázi realizace v rámci ESFRI a v současnosti sdružuje instituce z 32 zemí. Projekt má výrazný přesah do oblastí informatiky a matematického a elektrotechnického výzkumu a podílí se na přípravě "Network of Excelence" v oblasti lingvistických technologií (projekt 7RP). LINDAT-CLARIN vytvoří národní referenční zdroj jazykových dat a umožní široký přístup k datům včetně napojení na zahraniční databáze, technologickým nástrojům a službám a ověřené expertíze. Tento záměr má široké potenciální využití v lingvistice a v dalších oborech SHV, při správě a vytváření informačních systémů (knihovny, dokumentační střediska), v lingvistických softwarových aplikacích a při modernizaci pedagogického procesu (výuka jazyků, jazykové technologie, zpracování dat). Na projektu spolupracují partneři z MU v Brně (člen sítě CLARIN), ZČÚ v Plzni a Ústavu pro jazyk český AV ČR, v. v. i., v Praze.