PaReNT (Parent Retrieval Neural Tool): A Deep Dive into Word Formation Across Languages
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F24%3A10492910" target="_blank" >RIV/00216208:11320/24:10492910 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/00216208:11320/25:USVFSD3H
Výsledek na webu
<a href="https://aclanthology.org/2024.lrec-main.1104.pdf" target="_blank" >https://aclanthology.org/2024.lrec-main.1104.pdf</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
PaReNT (Parent Retrieval Neural Tool): A Deep Dive into Word Formation Across Languages
Popis výsledku v původním jazyce
We present PaReNT (Parent Retrieval Neural Tool), a deep-learning-based multilingual tool performing parent retrieval and word formation classification in English, German, Dutch, Spanish, French, Russian, and Czech. Parent retrieval refers to determining the lexeme or lexemes the input lexeme was based on (e.g. 'darkness' is traced back to 'dark'; 'waterfall' decomposes into 'water' and 'fall'). Additionally, PaReNT performs word formation classification, which determines the input lexeme as a compound (e.g. 'proofread'), a derivative (e.g. 'deescalate') or as an unmotivated word (e.g. 'dog'). These seven languages are selected from three major branches of the Indo-European language family (Germanic, Romance, Slavic). Data is aggregated from a range of word-formation resources, as well as Wiktionary, to train and test the tool. The tool is based on a custom-architecture hybrid transformer block-enriched sequence-to-sequence neural network utilizing both a character-based and semantic representation of
Název v anglickém jazyce
PaReNT (Parent Retrieval Neural Tool): A Deep Dive into Word Formation Across Languages
Popis výsledku anglicky
We present PaReNT (Parent Retrieval Neural Tool), a deep-learning-based multilingual tool performing parent retrieval and word formation classification in English, German, Dutch, Spanish, French, Russian, and Czech. Parent retrieval refers to determining the lexeme or lexemes the input lexeme was based on (e.g. 'darkness' is traced back to 'dark'; 'waterfall' decomposes into 'water' and 'fall'). Additionally, PaReNT performs word formation classification, which determines the input lexeme as a compound (e.g. 'proofread'), a derivative (e.g. 'deescalate') or as an unmotivated word (e.g. 'dog'). These seven languages are selected from three major branches of the Indo-European language family (Germanic, Romance, Slavic). Data is aggregated from a range of word-formation resources, as well as Wiktionary, to train and test the tool. The tool is based on a custom-architecture hybrid transformer block-enriched sequence-to-sequence neural network utilizing both a character-based and semantic representation of
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2023062" target="_blank" >LM2023062: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach<br>I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
ISBN
978-2-493-81410-4
ISSN
2522-2686
e-ISSN
—
Počet stran výsledku
11
Strana od-do
12611-12621
Název nakladatele
European Language Resources Association
Místo vydání
Torino, Italy
Místo konání akce
Torino, Italy
Datum konání akce
22. 5. 2024
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—