ScaleText
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F03892620%3A_____%2F17%3AN0000001" target="_blank" >RIV/03892620:_____/17:N0000001 - isvavai.cz</a>
Alternative codes found
RIV/03892620:_____/16:00000002
Result on the web
<a href="https://scaletext.com" target="_blank" >https://scaletext.com</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
angličtina
Original language name
ScaleText
Original language description
ScaleText version 1.0 is a production-grade software system for large-scale scalable semantic search. The core of this result is a vector search engine, realized as a stand-alone software package that implements document indexing and search using vectors for text representation. The vectors are created automatically from plain text using several methods for semantic analysis: LSI, LDA, TF-IDF, Doc2vec a Stanford gloVe. The documents go through several stages, from preprocessing, segmentation, vectorization to vector encoding and storage. Each step is realized by a dedicated component, with its output backed by a backend database engine for persistence. Release 1.0 includes a full re-implementation of the entire pipeline at scale, in Python 3.5, including a set of top-level scripts for document indexing and a container architecture for deployment into production environments.
Czech name
—
Czech description
—
Classification
Type
R - Software
CEP classification
—
OECD FORD branch
20205 - Automation and control systems
Result continuities
Project
<a href="/en/project/TD03000295" target="_blank" >TD03000295: Intelligent software for semantic text search</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2017
Confidentiality
C - Předmět řešení projektu podléhá obchodnímu tajemství (§ 504 Občanského zákoníku), ale název projektu, cíle projektu a u ukončeného nebo zastaveného projektu zhodnocení výsledku řešení projektu (údaje P03, P04, P15, P19, P29, PN8) dodané do CEP, jsou upraveny tak, aby byly zveřejnitelné.
Data specific for result type
Internal product ID
ScaleText Verze 1.0
Technical parameters
Bylo rozšířeno a dokončeno testování systému přes indexování celého obsahu anglické encyklopedie Wikipedia, sledována byla stabilita, výkon a přesnost systému při použití různých kombinací konfiguračních parametrů. [Jan Rygl, Jan Pomikálek, Radim Řehůřek, Michal Růžička, Vít Novotný, Petr Sojka. Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines. 10 s. Proceedings of the 2nd Workshop on Representation Learning for NLP, Association for Computational Linguistics. DOI 10.18653/v1/W17-2611. ISBN 978-1-945626-62-3] Navíc byl systém rozšířen a testován i pro hledání ve slovních vektorech Stanford gloVe a SIFT deskriptorech vektorů obrázků, Tyto technické výsledky byly sumarizovány v publikaci [Michal Růžička, Vít Novotný, Petr Sojka, Jan Pomikálek, Radim Řehůřek. Flexible Similarity Search of Semantic Vectors Using Fulltext Search Engines. 12 s. CEUR Workshop Proceedings, Vol. 1923, ISSN 1613-0073]. Systém je implementován v jazyce Python 3.5. Kompatibilni s Elasticsearch verzemi 5 a 6.
Economical parameters
Výsledek je připraven k produkčnímu nasazení u zákazníků. Systém byl demonstrován firmám MarketLogic a UpMonth: Martin Rueckert (VP Cognitive Computing), Market Logic Software AG, Joachimsthalerstr. 20, 10719 Berlin, Germany, telefonní kontakt +49 30 310 1819-0; Borzou Azima (founder), Standard Report LLC (UPMONTH), info@upmonth.com.
Owner IČO
03892620
Owner name
RaRe Technologies s.r.o.