BUT Recognizer of GeoNames
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F11%3APR26019" target="_blank" >RIV/00216305:26230/11:PR26019 - isvavai.cz</a>
Výsledek na webu
<a href="http://www.fit.vutbr.cz/research/prod/index.php?id=228" target="_blank" >http://www.fit.vutbr.cz/research/prod/index.php?id=228</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
BUT Recognizer of GeoNames
Popis výsledku v původním jazyce
There are many aspects and objectives we had in mind when designing the new NER. First, it should avoid the performance bottlenecks common for the webbased APIs such as OpenCalais or AlchemyAPI. Second, it needs to achieve excellent precision and recallfor geographical features, especially for places in Europe. Finally, the tool should perform disambiguation and normalization alongside the recognition process. To meet the second objective, we utilized the Geonames.org data exported from the database, which contains over 10 millions geographical features. Efficiency is brought by the finite state automaton (FSA) technology that can deal with the huge lists of names and is very fast in searching the input texts. We employed an efficient algorithm for constructing the minimal FSA described in Daciuk et al. (1998). A freely available package provided by the first author of the paper allows building a minimal FSA from a list of pre-defined keywords. The resulting representation for all the
Název v anglickém jazyce
BUT Recognizer of GeoNames
Popis výsledku anglicky
There are many aspects and objectives we had in mind when designing the new NER. First, it should avoid the performance bottlenecks common for the webbased APIs such as OpenCalais or AlchemyAPI. Second, it needs to achieve excellent precision and recallfor geographical features, especially for places in Europe. Finally, the tool should perform disambiguation and normalization alongside the recognition process. To meet the second objective, we utilized the Geonames.org data exported from the database, which contains over 10 millions geographical features. Efficiency is brought by the finite state automaton (FSA) technology that can deal with the huge lists of names and is very fast in searching the input texts. We employed an efficient algorithm for constructing the minimal FSA described in Daciuk et al. (1998). A freely available package provided by the first author of the paper allows building a minimal FSA from a list of pre-defined keywords. The resulting representation for all the
Klasifikace
Druh
R - Software
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/7E10054" target="_blank" >7E10054: Medical EcoSystem-Personalized Event-Based Suveillance</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2011
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
BURGeoN
Technické parametry
Pro podrobnosti licenčních podmínek konzultujte: Ing. Vladimír Pavelka, Útvar transferu technologií VUT v Brně, Božetěchova 2, 612 66 Brno, 541 141 499
Ekonomické parametry
Svobodný software
IČO vlastníka výsledku
00216305
Název vlastníka
Vysoké učení technické v Brně