Indexing and Searching Mathematics in Digital Libraries -- Architecture, Design and Scalability Issues
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F11%3A00052712" target="_blank" >RIV/00216224:14330/11:00052712 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/00216224:14330/11:00067289
Výsledek na webu
<a href="http://dx.doi.org/10.1007/978-3-642-22673-1_16" target="_blank" >http://dx.doi.org/10.1007/978-3-642-22673-1_16</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-642-22673-1_16" target="_blank" >10.1007/978-3-642-22673-1_16</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Indexing and Searching Mathematics in Digital Libraries -- Architecture, Design and Scalability Issues
Popis výsledku v původním jazyce
This paper surveys approaches and systems for searching mathematical formulae in mathematical corpora and on the web. The design and architecture of our MIaS (Math Indexer and Searcher) system is presented, and our design decisions are discussed in detail. An approach based on Presentation MathML using a similarity of math subformulae is suggested and verified by implementing it as a math-aware search engine based on the state-of-the-art system, Apache Lucene. Scalability issues were checked based on 324,000 real scientific documents from arXiv archive with 112 million mathematical formulae. More than two billions MathML subformulae were indexed using our Solr-compatible Lucene extension.
Název v anglickém jazyce
Indexing and Searching Mathematics in Digital Libraries -- Architecture, Design and Scalability Issues
Popis výsledku anglicky
This paper surveys approaches and systems for searching mathematical formulae in mathematical corpora and on the web. The design and architecture of our MIaS (Math Indexer and Searcher) system is presented, and our design decisions are discussed in detail. An approach based on Presentation MathML using a similarity of math subformulae is suggested and verified by implementing it as a math-aware search engine based on the state-of-the-art system, Apache Lucene. Scalability issues were checked based on 324,000 real scientific documents from arXiv archive with 112 million mathematical formulae. More than two billions MathML subformulae were indexed using our Solr-compatible Lucene extension.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/LA09016" target="_blank" >LA09016: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM)</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2011
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Intelligent Computer Mathematics Lecture Notes in Computer Science, 2011, Volume 6824/2011
ISBN
978-3-642-22672-4
ISSN
—
e-ISSN
—
Počet stran výsledku
15
Strana od-do
228-243
Název nakladatele
Springer
Místo vydání
Berlin / Heidelberg
Místo konání akce
Bertinoro, Italy
Datum konání akce
18. 7. 2011
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—