ScaleText

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F03892620%3A_____%2F17%3AN0000001" target="_blank" >RIV/03892620:_____/17:N0000001 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/03892620:_____/16:00000002
Výsledek na webu
<a href="https://scaletext.com" target="_blank" >https://scaletext.com</a>
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
angličtina
Název v původním jazyce
ScaleText
Popis výsledku v původním jazyce
ScaleText version 1.0 is a production-grade software system for large-scale scalable semantic search. The core of this result is a vector search engine, realized as a stand-alone software package that implements document indexing and search using vectors for text representation. The vectors are created automatically from plain text using several methods for semantic analysis: LSI, LDA, TF-IDF, Doc2vec a Stanford gloVe. The documents go through several stages, from preprocessing, segmentation, vectorization to vector encoding and storage. Each step is realized by a dedicated component, with its output backed by a backend database engine for persistence. Release 1.0 includes a full re-implementation of the entire pipeline at scale, in Python 3.5, including a set of top-level scripts for document indexing and a container architecture for deployment into production environments.
Název v anglickém jazyce
ScaleText
Popis výsledku anglicky
ScaleText version 1.0 is a production-grade software system for large-scale scalable semantic search. The core of this result is a vector search engine, realized as a stand-alone software package that implements document indexing and search using vectors for text representation. The vectors are created automatically from plain text using several methods for semantic analysis: LSI, LDA, TF-IDF, Doc2vec a Stanford gloVe. The documents go through several stages, from preprocessing, segmentation, vectorization to vector encoding and storage. Each step is realized by a dedicated component, with its output backed by a backend database engine for persistence. Release 1.0 includes a full re-implementation of the entire pipeline at scale, in Python 3.5, including a set of top-level scripts for document indexing and a container architecture for deployment into production environments.

Klasifikace

Druh
R - Software
CEP obor
—
OECD FORD obor
20205 - Automation and control systems

Návaznosti výsledku

Projekt
<a href="/cs/project/TD03000295" target="_blank" >TD03000295: Inteligentní software pro sémantické hledání dokumentů</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

Rok uplatnění
2017
Kód důvěrnosti údajů
C - Předmět řešení projektu podléhá obchodnímu tajemství (§ 504 Občanského zákoníku), ale název projektu, cíle projektu a u ukončeného nebo zastaveného projektu zhodnocení výsledku řešení projektu (údaje P03, P04, P15, P19, P29, PN8) dodané do CEP, jsou upraveny tak, aby byly zveřejnitelné.

Údaje specifické pro druh výsledku

Interní identifikační kód produktu
ScaleText Verze 1.0
Technické parametry
Bylo rozšířeno a dokončeno testování systému přes indexování celého obsahu anglické encyklopedie Wikipedia, sledována byla stabilita, výkon a přesnost systému při použití různých kombinací konfiguračních parametrů. [Jan Rygl, Jan Pomikálek, Radim Řehůřek, Michal Růžička, Vít Novotný, Petr Sojka. Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines. 10 s. Proceedings of the 2nd Workshop on Representation Learning for NLP, Association for Computational Linguistics. DOI 10.18653/v1/W17-2611. ISBN 978-1-945626-62-3] Navíc byl systém rozšířen a testován i pro hledání ve slovních vektorech Stanford gloVe a SIFT deskriptorech vektorů obrázků, Tyto technické výsledky byly sumarizovány v publikaci [Michal Růžička, Vít Novotný, Petr Sojka, Jan Pomikálek, Radim Řehůřek. Flexible Similarity Search of Semantic Vectors Using Fulltext Search Engines. 12 s. CEUR Workshop Proceedings, Vol. 1923, ISSN 1613-0073]. Systém je implementován v jazyce Python 3.5. Kompatibilni s Elasticsearch verzemi 5 a 6.
Ekonomické parametry
Výsledek je připraven k produkčnímu nasazení u zákazníků. Systém byl demonstrován firmám MarketLogic a UpMonth: Martin Rueckert (VP Cognitive Computing), Market Logic Software AG, Joachimsthalerstr. 20, 10719 Berlin, Germany, telefonní kontakt +49 30 310 1819-0; Borzou Azima (founder), Standard Report LLC (UPMONTH), info@upmonth.com.
IČO vlastníka výsledku
03892620
Název vlastníka
RaRe Technologies s.r.o.

Podobné výsledky(10)

Referenční implementace software sady metod pro automatické zpracování obrazových a textových dat.Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines Software Framework for Scalable Topic Modelling

Co hledáte?

Rychlé hledání

Chytré vyhledávání

ScaleText

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)