Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století

AV0Z90610521

2005–2011

 

S rozvojem informačních technologií vstoupila lingvistika – a s ní i slovníkářství – do nové vývojové fáze. Do nedávné doby byla materiálovou základnou pro tvorbu slovníků především data uložená na excerpčních lístcích (např. kartotéka novočeského lexikálního archivu, NLA). Tento materiál sloužil lexikografům pro vytvoření řady velkých slovníkových děl, např. Příručního slovníku jazyka českého (19351957), Slovníku spisovného jazyka českého (1960–1971) a Slovníku spisovné češtiny pro školu a veřejnost (1. vydání 1978). Tento historicky unikátní lístkový lexikální materiál byl digitalizován díky péči Úseku digitalizace materiálu v rámci řady projektů; je tak umožněn snadnější přístup k excerptům, a tím i jejich efektivnější využití (viz http://bara.ujc.cas.cz/psjc/).

Vedle lístkového archivu ÚJČ AV ČR, v. v. i., jsou dnes lexikografům k dispozici rovněž rozsáhlé materiálové zdroje v elektronické podobě, které umožňují využití moderních lexikografických postupů. Jde zejména o textové korpusy vytvářené a spravované Ústavem Českého národního korpusu při FF UK. Cenný zdroj informací o nejnovějším vývoji české lexikální zásoby představuje ojedinělý neologický archiv (tzv. Archiv 1 v databázi Neomat, celkem 202 000 záznamů), který je soustavně budován od roku 1994 jako databáze elektronicky zpracovávaných excerpt (původně v rámci projektu GA ČR Popis nové slovní zásoby s využitím počítačové techniky, 1994–1996). Tato první část neologického materiálu dala vznik dvěma slovníkům nových slov Nová slova v češtině. Slovník neologizmů 1 (1998) a Nová slova v češtině. Slovník neologizmů 2 (2004) a rovněž sborníku statí Neologizmy v dnešní češtině (2005).

Další pokračování lexikálních sbírek ÚJČ AV ČR, v. v. i., představuje aktualizovaná excerpce zaměřená na dynamiku v oblasti lexikální zásoby (tzv. Archiv 2, v červenci 2011 čítal na 54 tis. záznamů). Jako součást rozsáhlé přípravy na tvorbu výkladového slovníku je zamýšlena též databáze ODE (Oborová databáze excerpční), která slouží pro shromažďování materiálu z odborné slovní zásoby a pro jeho předběžné zpracování v kontextu všeobecného výkladového slovníku.

V rámci stávajícího výzkumného záměru usilujeme o vytvoření jednotného vyhledávacího prostředí, které by mělo integrovat v jeden funkční celek ústavní materiálové zdroje (již existující i nově budované) a dosavadní slovníková zpracování české slovní zásoby. Pro novočeskou slovní zásobu je takové prostředí přístupné veřejnosti na webovém portálu LEXIKO, Databáze heslářů, kde je možno hledat ve více zdrojích najednou. Vyhledávání v jednotlivých slovnících a lexikálních sbírkách je možné také z adres dílčích aplikací (http://psjc.ujc.cas.cz/; http://ssjc.ujc.cas.cz/; http://neologismy.cz/).

Nejdůležitějším úkolem oddělení současné lexikologie a lexikografie je vytváření a naplňování databáze lexikální zásoby českého jazyka, která bude využitelná pro další lexikografický popis slovního bohatství češtiny. V rámci výzkumného záměru měla tato databáze původně obsahovat přes 100 000 databázových položek (v červenci 2011 již čítá přes 180 000 záznamů). Pro budoucí uživatele lexikální databáze (i pro uživatele budoucího slovníku) bude velmi cenná zejména její příkladová část dokumentující spojitelnost heslových slov a jejich variantnost. Zatímco v každém tištěném slovníku bylo zapotřebí omezit příklady na několik málo odpovídajících kontextů (vzhledem k nedostatku místa), možnosti počítačového zpracování dovolují uvádět a popisovat spojitelnost lexikálních jednotek explicitněji a v mnohem rozsáhlejší míře než dříve. Databázové zpracování rovněž umožní detailnější popis jazykových dat podle různých kritérií, propracovaný systém jejich vyhledávání pak usnadní přístup k lingvistickým informacím jak odborníkům, tak i širší veřejnosti.

Práce na výzkumném záměru Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století byla rozvržena do sedmi let (2005–2011). V první fázi prací (2005–2007) jsme se soustředili na dva hlavní úkoly: 1) na elektronizaci materiálových sbírek ÚJČ AV ČR, v. v. i., a 2) na navržení vlastního softwarového nástroje a jádra databáze s názvem PRALED (Pražská lexikální databáze) ve spolupráci s Centrem zpracování přirozeného jazyka FI MU (programátoři A. Rambousek a  A. Horák), od roku 2006 se na programové části podílí i P. Žikovský (za ÚJČ AV ČR, v. v. i.). Zpracovatelský software PRALED je navržen jako moderní lexikografická pracovní stanice s maximálním využitím informačních technologií, jeho vývoj dále pokračuje.

Na podzim roku 2007 začala druhá fáze prací, ve které již tuto databázi postupně naplňujeme požadovaným počtem lexikálních jednotek. Pro tuto obsahovou stránku lexikální databáze jsme zvolili název PRALEX (Pražský lexikon) – Databáze slov, slovních tvarů a slovních spojení češtiny počátku 21. století).

Po skončení stávajícího výzkumného záměru mohou být shromážděné lingvistické informace využity nejen jako utříděná materiálová základna pro nový komplexní lexikografický popis (tj. pro tvorbu moderního výkladového slovníku češtiny v elektronické podobě), ale také pro další výzkum slovní zásoby i nejrůznějších souvisejících jevů.