Automatic dialog act corpus creation from web pages
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F10%3A00503990" target="_blank" >RIV/49777513:23520/10:00503990 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Automatic dialog act corpus creation from web pages
Popis výsledku v původním jazyce
This work presents two complementary tools dedicated to the task of textual corpus creation for linguistic researches. The chosen application domain is automatic dialog acts recognition, but the proposed tools might also be applied to any other researcharea that is concerned with dialogs processing. The first software captures relevant dialogs from freely available resources on the World Wide Web. The second software is finally used as a post-processing step to manually check and correct tagging errorswhen needed. We show that reasonably good dialog act labeling accuracy may be achieved, hence greatly reducing the cost of building such corpora.
Název v anglickém jazyce
Automatic dialog act corpus creation from web pages
Popis výsledku anglicky
This work presents two complementary tools dedicated to the task of textual corpus creation for linguistic researches. The chosen application domain is automatic dialog acts recognition, but the proposed tools might also be applied to any other researcharea that is concerned with dialogs processing. The first software captures relevant dialogs from freely available resources on the World Wide Web. The second software is finally used as a post-processing step to manually check and correct tagging errorswhen needed. We show that reasonably good dialog act labeling accuracy may be achieved, hence greatly reducing the cost of building such corpora.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/2C06009" target="_blank" >2C06009: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2010
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
ICEIS 2010, vol. 5, Human-Computer Interaction
ISBN
978-989-8425-08-9
ISSN
—
e-ISSN
—
Počet stran výsledku
6
Strana od-do
198-203
Název nakladatele
SciTelPress - Science and Technology Publications
Místo vydání
Setúbal
Místo konání akce
Funchal, Madeira, Portugal
Datum konání akce
8. 6. 2010
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—