ScaleText
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F03892620%3A_____%2F17%3AN0000001" target="_blank" >RIV/03892620:_____/17:N0000001 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/03892620:_____/16:00000002
Výsledek na webu
<a href="https://scaletext.com" target="_blank" >https://scaletext.com</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
ScaleText
Popis výsledku v původním jazyce
ScaleText version 1.0 is a production-grade software system for large-scale scalable semantic search. The core of this result is a vector search engine, realized as a stand-alone software package that implements document indexing and search using vectors for text representation. The vectors are created automatically from plain text using several methods for semantic analysis: LSI, LDA, TF-IDF, Doc2vec a Stanford gloVe. The documents go through several stages, from preprocessing, segmentation, vectorization to vector encoding and storage. Each step is realized by a dedicated component, with its output backed by a backend database engine for persistence. Release 1.0 includes a full re-implementation of the entire pipeline at scale, in Python 3.5, including a set of top-level scripts for document indexing and a container architecture for deployment into production environments.
Název v anglickém jazyce
ScaleText
Popis výsledku anglicky
ScaleText version 1.0 is a production-grade software system for large-scale scalable semantic search. The core of this result is a vector search engine, realized as a stand-alone software package that implements document indexing and search using vectors for text representation. The vectors are created automatically from plain text using several methods for semantic analysis: LSI, LDA, TF-IDF, Doc2vec a Stanford gloVe. The documents go through several stages, from preprocessing, segmentation, vectorization to vector encoding and storage. Each step is realized by a dedicated component, with its output backed by a backend database engine for persistence. Release 1.0 includes a full re-implementation of the entire pipeline at scale, in Python 3.5, including a set of top-level scripts for document indexing and a container architecture for deployment into production environments.
Klasifikace
Druh
R - Software
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/TD03000295" target="_blank" >TD03000295: Inteligentní software pro sémantické hledání dokumentů</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2017
Kód důvěrnosti údajů
C - Předmět řešení projektu podléhá obchodnímu tajemství (§ 504 Občanského zákoníku), ale název projektu, cíle projektu a u ukončeného nebo zastaveného projektu zhodnocení výsledku řešení projektu (údaje P03, P04, P15, P19, P29, PN8) dodané do CEP, jsou upraveny tak, aby byly zveřejnitelné.
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
ScaleText Verze 1.0
Technické parametry
Bylo rozšířeno a dokončeno testování systému přes indexování celého obsahu anglické encyklopedie Wikipedia, sledována byla stabilita, výkon a přesnost systému při použití různých kombinací konfiguračních parametrů. [Jan Rygl, Jan Pomikálek, Radim Řehůřek, Michal Růžička, Vít Novotný, Petr Sojka. Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines. 10 s. Proceedings of the 2nd Workshop on Representation Learning for NLP, Association for Computational Linguistics. DOI 10.18653/v1/W17-2611. ISBN 978-1-945626-62-3] Navíc byl systém rozšířen a testován i pro hledání ve slovních vektorech Stanford gloVe a SIFT deskriptorech vektorů obrázků, Tyto technické výsledky byly sumarizovány v publikaci [Michal Růžička, Vít Novotný, Petr Sojka, Jan Pomikálek, Radim Řehůřek. Flexible Similarity Search of Semantic Vectors Using Fulltext Search Engines. 12 s. CEUR Workshop Proceedings, Vol. 1923, ISSN 1613-0073]. Systém je implementován v jazyce Python 3.5. Kompatibilni s Elasticsearch verzemi 5 a 6.
Ekonomické parametry
Výsledek je připraven k produkčnímu nasazení u zákazníků. Systém byl demonstrován firmám MarketLogic a UpMonth: Martin Rueckert (VP Cognitive Computing), Market Logic Software AG, Joachimsthalerstr. 20, 10719 Berlin, Germany, telefonní kontakt +49 30 310 1819-0; Borzou Azima (founder), Standard Report LLC (UPMONTH), info@upmonth.com.
IČO vlastníka výsledku
03892620
Název vlastníka
RaRe Technologies s.r.o.