V českém jazykovém korpusu najdete víc textů než na internetu

9. září 2014

On Air

Český národní korpus slaví 20. narozeniny|foto:oficiální Facebook Českého národního korpusu

Je to zřejmě největší zásobárna slov a textů, která pro český jazyk existuje. Ve vyhledávání je dokonce v mnoha případech chytřejší než internet. Český národní korpus dnes slaví 20. narozeniny a my jsme při té příležitosti zpovídali jeho ředitele Václava Cvrčka.

Pro koho je korpus primárně určený?
Původně to byl nástroj pro psaní slovníků. To byl úplný začátek. Dnes se korpusy využívají i jinde, nejenom pro psaní mluvnice. Prosazuje se využití korpusu ve výuce. Korpusy využívají i jazykoví profesionálové. V korpusu nezjistíte, jak jsou věci správně, ale jak jsou. Je to trochu jiný pohled na jazyk.

Jaký význam má korpus v době internetu, ze kterého můžete vyčíst prakticky všechno?
Úplně všechno ne. Internet je samozřejmě obrovská zásobárna dat, ale ne všechny žánry jsou tam zastoupeny. Málokdy tam najdete úplně celé romány tak jednoduše prohledatelné. Nejsou tam přepisy spontánních projevů, nenajdete tam moc staré češtiny. Už vůbec tam nenajdete paralelní korpus, to znamená například český originál a jeho překlad do angličtiny nebo do němčiny. Další problémy jsou s hledáním. Když hledáte slovo, které je stejné v češtině a angličtině. Třeba se chci podívat, jak se řekne zájmeno on, ale v 90 % případů mi vyhledávač najde předložku anglickou. Korpus je samozřejmě menší než celý internet, ale je pročištěný a pro práci s jazykem je výhodnější. Korpusy jsou referenčním zdrojem, to znamená, že my jednou korpus vytvoříme a pak už ho necháváme stejný.

Má každý jazyk svůj korpus?
Není to úplně tak, že by měl každý jazyk svůj vlastní korpus. Všechny větší evropské jazyky je mají. V tom srovnání si Český národní korpus nevede úplně špatně. Lepší pokrytí na světě mají zřejmě jenom Němci. Ve slovanském areálu jsme suverénně nejlepší. Máme největší a nejpestřejší datovou základnu.

V českém jazykovém korpusu najdete víc textů než na internetu

Play / pause

0:00

volume

V českém jazykovém korpusu najdete víc textů než
na internetu

< previous

> next

Pokud si chcete vyzkoušet vyhledávání v korpusu, můžete to udělat na adrese https://www.korpus.cz/

autor: Martin Melichar

Spustit audio

Všechny díly pořadu na mujRozhlas

Jak nás naladíte na DABu

Mohlo by vás zajímat

E-shop Českého rozhlasu

Víte, kde spočívá náš společný ukrytý poklad? Blíž, než si myslíte!

Jan Rosák, moderátor

Slovo nad zlato

Koupit

Víte, jaký vztah mají politici a policisté? Kde se vzalo slovo Vánoce? Za jaké slovo vděčí Turci husitům? Že se mladým paním původně zapalovalo něco úplně jiného než lýtka? Že segedínský guláš nemá se Segedínem nic společného a že známe na den přesně vznik slova dálnice? Takových objevů je plná knížka Slovo nad zlato. Tvoří ji výběr z rozhovorů moderátora Jana Rosáka s dřívějším ředitelem Ústavu pro jazyk český docentem Karlem Olivou, které vysílal Český rozhlas Dvojka.

V českém jazykovém korpusu najdete víc textů než na internetu

Více z pořadu

Kapela Tolstoys vydala nové album. Zpívají na něm anglicky, ale inspirují se slovenským folklórem

Svět chceme vysvětlovat, ne komplikovat. Duo docentky mají úspěšný stand-up i příručku o feminismu

Peníze souvisí s pocitem štěstí jen do určitého limitu. Pak mají vliv jiné faktory, říká socioložka

K hudbě přistupuju jako filmový režisér. Od každého žánru chci točit něco, říká rapper Cringe Prince

Mohlo by vás zajímat

Lepší nemít zvíře a hlavně nebýt „finančně rizikoví“. Koho bytová krize vyřazuje ze hry?

Stereotypizace, selektivní vnímání, nadměrná sebedůvěra – to všechno jsou chybky v myšlení

Předělat chatu nemusí být práce na celý život. Dá se to stihnout i za prázdniny

Eskapismus bez fatálních následků. Adam Wiltzie ze Stars of the Lid nabízí nádherné únikové mapy

E-shop Českého rozhlasu

Víte, kde spočívá náš společný ukrytý poklad? Blíž, než si myslíte!

Slovo nad zlato

Pučálkovic Amina

Příběhy lásky 1970–2023

Jak Klára obrátila všechno vzhůru nohama