A corpus-based finite-state morphological toolkit for contemporary Arabic

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F13%3A10194805" target="_blank" >RIV/00216208:11320/13:10194805 - isvavai.cz</a>
Výsledek na webu
<a href="http://logcom.oxfordjournals.org/content/early/2013/01/08/logcom.exs070.abstract" target="_blank" >http://logcom.oxfordjournals.org/content/early/2013/01/08/logcom.exs070.abstract</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1093/logcom/exs070" target="_blank" >10.1093/logcom/exs070</a>

Alternativní jazyky

Jazyk výsledku
angličtina
Název v původním jazyce
A corpus-based finite-state morphological toolkit for contemporary Arabic
Popis výsledku v původním jazyce
We develop an open-source large-scale ?nite-state morphological processing toolkit (AraComLex) for Modern StandardArabic (MSA) distributed under the GPLv3 license (http://aracomlex.sourceforge.net). The morphological transducer is based on a lexical database speci?cally constructed for this purpose. In contrast to previous resources, the database is tuned to MSA, eliminating lexical entries no longer attested in contemporary use. The database is built using a corpus of 1,089,111,204 word tokens, a pre-annotation tool, machine learning techniques and knowledge-based pattern matching to automatically acquire lexical knowledge. Our morphological transducer is evaluated and compared to LDC's SAMA(StandardArabic Morphological Analyser). We also develop a ?nite-state morphological guesser as part of a methodology for extracting unknown word forms, lemmatizing them, and giving them a priority weight for inclusion in the lexicon.
Název v anglickém jazyce
A corpus-based finite-state morphological toolkit for contemporary Arabic
Popis výsledku anglicky
We develop an open-source large-scale ?nite-state morphological processing toolkit (AraComLex) for Modern StandardArabic (MSA) distributed under the GPLv3 license (http://aracomlex.sourceforge.net). The morphological transducer is based on a lexical database speci?cally constructed for this purpose. In contrast to previous resources, the database is tuned to MSA, eliminating lexical entries no longer attested in contemporary use. The database is built using a corpus of 1,089,111,204 word tokens, a pre-annotation tool, machine learning techniques and knowledge-based pattern matching to automatically acquire lexical knowledge. Our morphological transducer is evaluated and compared to LDC's SAMA(StandardArabic Morphological Analyser). We also develop a ?nite-state morphological guesser as part of a methodology for extracting unknown word forms, lemmatizing them, and giving them a priority weight for inclusion in the lexicon.

Klasifikace

Druh
J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)
CEP obor
AI - Jazykověda
OECD FORD obor
—

Návaznosti výsledku

Projekt
—
Návaznosti
R - Projekt Ramcoveho programu EK

Ostatní

Rok uplatnění
2013
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Název periodika
Journal of Logic and Computation
ISSN
0955-792X
e-ISSN
—
Svazek periodika
January 8,
Číslo periodika v rámci svazku
1
Stát vydavatele periodika
GB - Spojené království Velké Británie a Severního Irska
Počet stran výsledku
18
Strana od-do
1-18
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—

Podobné výsledky(10)

Joint Morphological and Syntactic Analysis for Richly Inflected Languages Computational Morphology and Lexicography Modeling of Modern Standard Arabic Nominals Analysis of the English morphology by semantic networks

Co hledáte?

Rychlé hledání

Chytré vyhledávání

A corpus-based finite-state morphological toolkit for contemporary Arabic

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)