V českém jazykovém korpusu najdete víc textů než na internetu

9. září 2014

Je to zřejmě největší zásobárna slov a textů, která pro český jazyk existuje. Ve vyhledávání je dokonce v mnoha případech chytřejší než internet. Český národní korpus dnes slaví 20. narozeniny a my jsme při té příležitosti zpovídali jeho ředitele Václava Cvrčka.

Pro koho je korpus primárně určený?
Původně to byl nástroj pro psaní slovníků. To byl úplný začátek. Dnes se korpusy využívají i jinde, nejenom pro psaní mluvnice. Prosazuje se využití korpusu ve výuce. Korpusy využívají i jazykoví profesionálové. V korpusu nezjistíte, jak jsou věci správně, ale jak jsou. Je to trochu jiný pohled na jazyk.

Jaký význam má korpus v době internetu, ze kterého můžete vyčíst prakticky všechno?
Úplně všechno ne. Internet je samozřejmě obrovská zásobárna dat, ale ne všechny žánry jsou tam zastoupeny. Málokdy tam najdete úplně celé romány tak jednoduše prohledatelné. Nejsou tam přepisy spontánních projevů, nenajdete tam moc staré češtiny. Už vůbec tam nenajdete paralelní korpus, to znamená například český originál a jeho překlad do angličtiny nebo do němčiny. Další problémy jsou s hledáním. Když hledáte slovo, které je stejné v češtině a angličtině. Třeba se chci podívat, jak se řekne zájmeno on, ale v 90 % případů mi vyhledávač najde předložku anglickou. Korpus je samozřejmě menší než celý internet, ale je pročištěný a pro práci s jazykem je výhodnější. Korpusy jsou referenčním zdrojem, to znamená, že my jednou korpus vytvoříme a pak už ho necháváme stejný.

Má každý jazyk svůj korpus?
Není to úplně tak, že by měl každý jazyk svůj vlastní korpus. Všechny větší evropské jazyky je mají. V tom srovnání si Český národní korpus nevede úplně špatně. Lepší pokrytí na světě mají zřejmě jenom Němci. Ve slovanském areálu jsme suverénně nejlepší. Máme největší a nejpestřejší datovou základnu.

Pokud si chcete vyzkoušet vyhledávání v korpusu, můžete to udělat na adrese https://www.korpus.cz/

autor: Martin Melichar
Spustit audio