INDiT - Institution Names Detector in Text
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F12%3A43918000" target="_blank" >RIV/49777513:23520/12:43918000 - isvavai.cz</a>
Result on the web
<a href="http://www.kky.zcu.cz/cs/sw/INDiT" target="_blank" >http://www.kky.zcu.cz/cs/sw/INDiT</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
INDiT - Detektor názvů institucí v textu
Original language description
Softwarový nástroj umožňuje automaticky lokalizovat a označit v běžném textu názvy státních institucí České republiky. Názvy institucí jsou nalezeny a označeny v plném znění v jakémkoliv tvaru, přičemž je zjištěn a označen i gramatický pád, ve kterém jenázev uveden, podle gramatického tvaru názvu. Názvy institucí uvedené zkratkou jsou automaticky rozvedeny do plného znění ve správném gramatickém tvaru. V případě nejednoznačnosti gramatického pádu na základě stejných gramatických tvarů je pomocí heuristického přístupu provedeno upřesnění identifikací z širšího slovního kontextu, ve kterém se název nachází. Využit je expertní přístup, který na základě 663 pravidel umožňuje najít velkou většinu cílových výrazů. Softwarový nástroj je napsán v jazyce Python, přičemž umožňuje aplikaci pravidel ve specifickém pořadí na jakýkoliv text v elektronické formě. Softwarový nástroj je možno využít při zpracování textů pro tvorbu třídových statistických jazykových modelů nebo pro předzpracování textů
Czech name
INDiT - Detektor názvů institucí v textu
Czech description
Softwarový nástroj umožňuje automaticky lokalizovat a označit v běžném textu názvy státních institucí České republiky. Názvy institucí jsou nalezeny a označeny v plném znění v jakémkoliv tvaru, přičemž je zjištěn a označen i gramatický pád, ve kterém jenázev uveden, podle gramatického tvaru názvu. Názvy institucí uvedené zkratkou jsou automaticky rozvedeny do plného znění ve správném gramatickém tvaru. V případě nejednoznačnosti gramatického pádu na základě stejných gramatických tvarů je pomocí heuristického přístupu provedeno upřesnění identifikací z širšího slovního kontextu, ve kterém se název nachází. Využit je expertní přístup, který na základě 663 pravidel umožňuje najít velkou většinu cílových výrazů. Softwarový nástroj je napsán v jazyce Python, přičemž umožňuje aplikaci pravidel ve specifickém pořadí na jakýkoliv text v elektronické formě. Softwarový nástroj je možno využít při zpracování textů pro tvorbu třídových statistických jazykových modelů nebo pro předzpracování textů
Classification
Type
R - Software
CEP classification
JC - Computer hardware and software
OECD FORD branch
—
Result continuities
Project
—
Continuities
N - Vyzkumna aktivita podporovana z neverejnych zdroju
Others
Publication year
2012
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
INDiT
Technical parameters
Software je výsledkem smluvního výzkumu, Smlouva o dílo mezi Západočeskou univerzitou v Plzni a SpeechTech, s.r.o. byla podepsána dne 15.10.2012. Bližší informace k technickým parametrům SW podá Aleš Pražák, aprazak@kky.zcu.cz, tel.: 377632573, dále téžhttp://www.kky.zcu.cz/cs/sw/INDiT. Informace k licenční politice podá Jiří Zahradil, jiri.zahradil@speechtech.cz.
Economical parameters
Automatická lokalizace a označování názvů státních institucí České republiky (včetně jejich gramatického pádu) v běžném textu jako náhrada manuální editace textu. Softwarový nástroj je možno využít při zpracování textů pro tvorbu třídových statistickýchjazykových modelů nebo pro předzpracování textů při POS taggingu. Software je výsledkem smluvního výzkumu, Smlouva o dílo mezi Západočeskou univerzitou v Plzni a SpeechTech, s.r.o. byla podepsána dne 15.10.2012
Owner IČO
25247930
Owner name
SpeechTech, s.r.o, Hodonínská 61, Plzeň a Katedra kybernetiky ZČU v Plzni