N&SDiT - Names and Surnames Detector in Text
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F11%3A43898601" target="_blank" >RIV/49777513:23520/11:43898601 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
N&SDiT - Detektor křestních jmen a příjmení v textu
Original language description
Softwarový nástroj umožňuje automaticky lokalizovat a označit v běžném textu křestní jména a příjmení osob mužského a ženského pohlaví. Jména a příjmení jsou nalezena a označena v plném znění, tedy včetně titulů a hodností před jménem a za jménem, v jakémkoliv tvaru, přičemž je zjištěn a označen i gramatický pád, ve kterém jsou jména a příjmení uvedena, podle jejich gramatického tvaru. V případě nejednoznačnosti gramatického pádu na základě stejných gramatických tvarů je pomocí heuristického přístupu provedeno upřesnění identifikací z širšího slovního kontextu, ve kterém se jména a příjmení nachází. Odlišena jsou jména a příjmení v názvech ulic, jména svatých apod. Využit je expertní přístup, který na základě 56712 pravidel umožňuje najít velkou většinu cílových výrazů. Softwarový nástroj je napsán v jazyce Python, přičemž umožňuje aplikaci pravidel ve specifickém pořadí na jakýkoliv text v elektronické formě. Softwarový nástroj je možno využít při zpracování textů pro tvorbu třídových
Czech name
N&SDiT - Detektor křestních jmen a příjmení v textu
Czech description
Softwarový nástroj umožňuje automaticky lokalizovat a označit v běžném textu křestní jména a příjmení osob mužského a ženského pohlaví. Jména a příjmení jsou nalezena a označena v plném znění, tedy včetně titulů a hodností před jménem a za jménem, v jakémkoliv tvaru, přičemž je zjištěn a označen i gramatický pád, ve kterém jsou jména a příjmení uvedena, podle jejich gramatického tvaru. V případě nejednoznačnosti gramatického pádu na základě stejných gramatických tvarů je pomocí heuristického přístupu provedeno upřesnění identifikací z širšího slovního kontextu, ve kterém se jména a příjmení nachází. Odlišena jsou jména a příjmení v názvech ulic, jména svatých apod. Využit je expertní přístup, který na základě 56712 pravidel umožňuje najít velkou většinu cílových výrazů. Softwarový nástroj je napsán v jazyce Python, přičemž umožňuje aplikaci pravidel ve specifickém pořadí na jakýkoliv text v elektronické formě. Softwarový nástroj je možno využít při zpracování textů pro tvorbu třídových
Classification
Type
R - Software
CEP classification
JC - Computer hardware and software
OECD FORD branch
—
Result continuities
Project
—
Continuities
N - Vyzkumna aktivita podporovana z neverejnych zdroju
Others
Publication year
2011
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
N&SDiT
Technical parameters
Software je výsledkem smluvního výzkumu, Smlouva o dílo mezi Západočeskou univerzitou v Plzni a SpeechTech, s.r.o. byla podepsána dne 31.10.2011. Bližší informace k technickým parametrům SW podá Aleš Pražák, aprazak@kky.zcu.cz, tel.: 377632573, dále téžhttp://www.kky.zcu.cz/cs/sw/NSDiT. Informace k licenční politice podá Jiří Zahradil, jiri.zahradil@speechtech.cz.
Economical parameters
Automatická lokalizace a označování křestních jmen a příjmení osob mužského a ženského pohlaví (včetně jejich gramatického pádu) v běžném textu jako náhrada manuální editace textu. Softwarový nástroj je možno využít při zpracování textů pro tvorbu třídových statistických jazykových modelů nebo pro předzpracování textů při POS taggingu.
Owner IČO
25247930
Owner name
SpeechTech, s.r.o, Hodonínská 61, Plzeň a Katedra kybernetiky ZČU v Plzni