All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

From the corpus as an open source for investigation to commercial products

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68378092%3A_____%2F07%3A00097207" target="_blank" >RIV/68378092:_____/07:00097207 - isvavai.cz</a>

  • Result on the web

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    angličtina

  • Original language name

    From the corpus as an open source for investigation to commercial products

  • Original language description

    The development of corpora is sketched, from large collections of texts without tagging through tagged corpora to machines that operate above tagged corpora and produce data presented as data about language, such as Word Sketches (TM). The article remarks that every corpus is merely a representation of texts and that the quality of representation is to be examined. The unavoidable question in research is how is the corpus built and how, under what principles, the service software operates. Both in casewe explore a corpus with distortions, where texts appear in a way nobody has written them so (digits and their environment uses to be phenomena of that sort), and in case we are not allowed to have an insight "below the bonnet" or to change working parameters, we hardly may speak about doing scholarly research.

  • Czech name

    Od korpusu jako otevřeného zdroje pro bádání ke komerčním produktům

  • Czech description

    Článek nastiňuje vývoj korpusů od velkých souborů neznačkovaných textů přes značkované korpusy k nástrojům, které operují nad značkovanými korpusy a produkují data prezentovaná jako data o jazyku, jako jsou např. Word Sketches (TM). Článek připomíná, žekaždý korpus je jen reprezentací textů a že se musíme ptát po kvalitě reprezentace. Nezbytná otázka při výzkumu je, jak je korpus vybudován a jak, na základě jakých principů, pracuje obslužný program. Tam, kde zkoumáme korpus s deformacemi, kde se textyobjevují v podobě, jak je nikdo nenapsal (číslice a jejich okolí jsou často jevy takového druhu), stejně jako tam, kde nemáme dovoleno dívat se "pod kapotu" nebo měnit pracovní parametry, sotva můžeme mluvit o tom, že bychom dělali vědecký výzkum.

Classification

  • Type

    D - Article in proceedings

  • CEP classification

    AI - Linguistics

  • OECD FORD branch

Result continuities

  • Project

    <a href="/en/project/GA405%2F03%2F0377" target="_blank" >GA405/03/0377: Exploring the Core and Limits of Czech Grammar as seen through the Czech National Corpus</a><br>

  • Continuities

    Z - Vyzkumny zamer (s odkazem do CEZ)

Others

  • Publication year

    2007

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Article name in the collection

    Gramatika a korpus 2005

  • ISBN

    80-86496-32-5

  • ISSN

  • e-ISSN

  • Number of pages

    7

  • Pages from-to

    243-249

  • Publisher name

    Ústav pro jazyk český AV ČR, v.v.i

  • Place of publication

    Praha

  • Event location

    Praha

  • Event date

    Nov 23, 2005

  • Type of event by nationality

    WRD - Celosvětová akce

  • UT code for WoS article