All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F03892620%3A_____%2F17%3AN0000001" target="_blank" >RIV/03892620:_____/17:N0000001 - isvavai.cz</a>

  • Alternative codes found

    RIV/03892620:_____/16:00000002

  • Result on the web

    <a href="https://scaletext.com" target="_blank" >https://scaletext.com</a>

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    angličtina

  • Original language name

    ScaleText

  • Original language description

    ScaleText version 1.0 is a production-grade software system for large-scale scalable semantic search. The core of this result is a vector search engine, realized as a stand-alone software package that implements document indexing and search using vectors for text representation. The vectors are created automatically from plain text using several methods for semantic analysis: LSI, LDA, TF-IDF, Doc2vec a Stanford gloVe. The documents go through several stages, from preprocessing, segmentation, vectorization to vector encoding and storage. Each step is realized by a dedicated component, with its output backed by a backend database engine for persistence. Release 1.0 includes a full re-implementation of the entire pipeline at scale, in Python 3.5, including a set of top-level scripts for document indexing and a container architecture for deployment into production environments.

  • Czech name

  • Czech description

Classification

  • Type

    R - Software

  • CEP classification

  • OECD FORD branch

    20205 - Automation and control systems

Result continuities

  • Project

    <a href="/en/project/TD03000295" target="_blank" >TD03000295: Intelligent software for semantic text search</a><br>

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

  • Publication year

    2017

  • Confidentiality

    C - Předmět řešení projektu podléhá obchodnímu tajemství (§ 504 Občanského zákoníku), ale název projektu, cíle projektu a u ukončeného nebo zastaveného projektu zhodnocení výsledku řešení projektu (údaje P03, P04, P15, P19, P29, PN8) dodané do CEP, jsou upraveny tak, aby byly zveřejnitelné.

Data specific for result type

  • Internal product ID

    ScaleText Verze 1.0

  • Technical parameters

    Bylo rozšířeno a dokončeno testování systému přes indexování celého obsahu anglické encyklopedie Wikipedia, sledována byla stabilita, výkon a přesnost systému při použití různých kombinací konfiguračních parametrů. [Jan Rygl, Jan Pomikálek, Radim Řehůřek, Michal Růžička, Vít Novotný, Petr Sojka. Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines. 10 s. Proceedings of the 2nd Workshop on Representation Learning for NLP, Association for Computational Linguistics. DOI 10.18653/v1/W17-2611. ISBN 978-1-945626-62-3] Navíc byl systém rozšířen a testován i pro hledání ve slovních vektorech Stanford gloVe a SIFT deskriptorech vektorů obrázků, Tyto technické výsledky byly sumarizovány v publikaci [Michal Růžička, Vít Novotný, Petr Sojka, Jan Pomikálek, Radim Řehůřek. Flexible Similarity Search of Semantic Vectors Using Fulltext Search Engines. 12 s. CEUR Workshop Proceedings, Vol. 1923, ISSN 1613-0073]. Systém je implementován v jazyce Python 3.5. Kompatibilni s Elasticsearch verzemi 5 a 6.

  • Economical parameters

    Výsledek je připraven k produkčnímu nasazení u zákazníků. Systém byl demonstrován firmám MarketLogic a UpMonth: Martin Rueckert (VP Cognitive Computing), Market Logic Software AG, Joachimsthalerstr. 20, 10719 Berlin, Germany, telefonní kontakt +49 30 310 1819-0; Borzou Azima (founder), Standard Report LLC (UPMONTH), info@upmonth.com.

  • Owner IČO

    03892620

  • Owner name

    RaRe Technologies s.r.o.