Adjusting BERT’s Pooling Layer for Large-Scale Multi-Label Text Classification
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F20%3A43959359" target="_blank" >RIV/49777513:23520/20:43959359 - isvavai.cz</a>
Výsledek na webu
<a href="https://link.springer.com/chapter/10.1007%2F978-3-030-58323-1_23" target="_blank" >https://link.springer.com/chapter/10.1007%2F978-3-030-58323-1_23</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-030-58323-1_23" target="_blank" >10.1007/978-3-030-58323-1_23</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Adjusting BERT’s Pooling Layer for Large-Scale Multi-Label Text Classification
Popis výsledku v původním jazyce
In this paper, we present our experiments with BERT models in the task of Large-scale Multi-label Text Classification (LMTC). In the LMTC task, each text document can have multiple class labels, while the total number of classes is in the order of thousands. We propose a pooling layer architecture on top of BERT models, which improves the quality of classification by using information from the standard [CLS] token in combination with pooled sequence output. We demonstrate the improvements on Wikipedia datasets in three different languages using public pre-trained BERT models.
Název v anglickém jazyce
Adjusting BERT’s Pooling Layer for Large-Scale Multi-Label Text Classification
Popis výsledku anglicky
In this paper, we present our experiments with BERT models in the task of Large-scale Multi-label Text Classification (LMTC). In the LMTC task, each text document can have multiple class labels, while the total number of classes is in the order of thousands. We propose a pooling layer architecture on top of BERT models, which improves the quality of classification by using information from the standard [CLS] token in combination with pooled sequence output. We demonstrate the improvements on Wikipedia datasets in three different languages using public pre-trained BERT models.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/DG18P02OVV016" target="_blank" >DG18P02OVV016: Vývoj centralizovaného rozhraní pro vytěžování velkých dat z webových archivů</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2020
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Text, Speech, and Dialogue 23rd International Conference, TSD 2020, Brno, Czech Republic, September 8-11, 2020, Proceedings
ISBN
978-3-030-58322-4
ISSN
0302-9743
e-ISSN
1611-3349
Počet stran výsledku
8
Strana od-do
214-221
Název nakladatele
Springer
Místo vydání
Cham
Místo konání akce
Brno, Česká republika
Datum konání akce
8. 9. 2020
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—