Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

A corpus-based finite-state morphological toolkit for contemporary Arabic

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F13%3A10194805" target="_blank" >RIV/00216208:11320/13:10194805 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://logcom.oxfordjournals.org/content/early/2013/01/08/logcom.exs070.abstract" target="_blank" >http://logcom.oxfordjournals.org/content/early/2013/01/08/logcom.exs070.abstract</a>

  • DOI - Digital Object Identifier

    <a href="http://dx.doi.org/10.1093/logcom/exs070" target="_blank" >10.1093/logcom/exs070</a>

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    A corpus-based finite-state morphological toolkit for contemporary Arabic

  • Popis výsledku v původním jazyce

    We develop an open-source large-scale ?nite-state morphological processing toolkit (AraComLex) for Modern StandardArabic (MSA) distributed under the GPLv3 license (http://aracomlex.sourceforge.net). The morphological transducer is based on a lexical database speci?cally constructed for this purpose. In contrast to previous resources, the database is tuned to MSA, eliminating lexical entries no longer attested in contemporary use. The database is built using a corpus of 1,089,111,204 word tokens, a pre-annotation tool, machine learning techniques and knowledge-based pattern matching to automatically acquire lexical knowledge. Our morphological transducer is evaluated and compared to LDC's SAMA(StandardArabic Morphological Analyser). We also develop a ?nite-state morphological guesser as part of a methodology for extracting unknown word forms, lemmatizing them, and giving them a priority weight for inclusion in the lexicon.

  • Název v anglickém jazyce

    A corpus-based finite-state morphological toolkit for contemporary Arabic

  • Popis výsledku anglicky

    We develop an open-source large-scale ?nite-state morphological processing toolkit (AraComLex) for Modern StandardArabic (MSA) distributed under the GPLv3 license (http://aracomlex.sourceforge.net). The morphological transducer is based on a lexical database speci?cally constructed for this purpose. In contrast to previous resources, the database is tuned to MSA, eliminating lexical entries no longer attested in contemporary use. The database is built using a corpus of 1,089,111,204 word tokens, a pre-annotation tool, machine learning techniques and knowledge-based pattern matching to automatically acquire lexical knowledge. Our morphological transducer is evaluated and compared to LDC's SAMA(StandardArabic Morphological Analyser). We also develop a ?nite-state morphological guesser as part of a methodology for extracting unknown word forms, lemmatizing them, and giving them a priority weight for inclusion in the lexicon.

Klasifikace

  • Druh

    J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)

  • CEP obor

    AI - Jazykověda

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

  • Návaznosti

    R - Projekt Ramcoveho programu EK

Ostatní

  • Rok uplatnění

    2013

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název periodika

    Journal of Logic and Computation

  • ISSN

    0955-792X

  • e-ISSN

  • Svazek periodika

    January 8,

  • Číslo periodika v rámci svazku

    1

  • Stát vydavatele periodika

    GB - Spojené království Velké Británie a Severního Irska

  • Počet stran výsledku

    18

  • Strana od-do

    1-18

  • Kód UT WoS článku

  • EID výsledku v databázi Scopus