Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F03892620%3A_____%2F17%3AN0000001" target="_blank" >RIV/03892620:_____/17:N0000001 - isvavai.cz</a>

  • Nalezeny alternativní kódy

    RIV/03892620:_____/16:00000002

  • Výsledek na webu

    <a href="https://scaletext.com" target="_blank" >https://scaletext.com</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    ScaleText

  • Popis výsledku v původním jazyce

    ScaleText version 1.0 is a production-grade software system for large-scale scalable semantic search. The core of this result is a vector search engine, realized as a stand-alone software package that implements document indexing and search using vectors for text representation. The vectors are created automatically from plain text using several methods for semantic analysis: LSI, LDA, TF-IDF, Doc2vec a Stanford gloVe. The documents go through several stages, from preprocessing, segmentation, vectorization to vector encoding and storage. Each step is realized by a dedicated component, with its output backed by a backend database engine for persistence. Release 1.0 includes a full re-implementation of the entire pipeline at scale, in Python 3.5, including a set of top-level scripts for document indexing and a container architecture for deployment into production environments.

  • Název v anglickém jazyce

    ScaleText

  • Popis výsledku anglicky

    ScaleText version 1.0 is a production-grade software system for large-scale scalable semantic search. The core of this result is a vector search engine, realized as a stand-alone software package that implements document indexing and search using vectors for text representation. The vectors are created automatically from plain text using several methods for semantic analysis: LSI, LDA, TF-IDF, Doc2vec a Stanford gloVe. The documents go through several stages, from preprocessing, segmentation, vectorization to vector encoding and storage. Each step is realized by a dedicated component, with its output backed by a backend database engine for persistence. Release 1.0 includes a full re-implementation of the entire pipeline at scale, in Python 3.5, including a set of top-level scripts for document indexing and a container architecture for deployment into production environments.

Klasifikace

  • Druh

    R - Software

  • CEP obor

  • OECD FORD obor

    20205 - Automation and control systems

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/TD03000295" target="_blank" >TD03000295: Inteligentní software pro sémantické hledání dokumentů</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2017

  • Kód důvěrnosti údajů

    C - Předmět řešení projektu podléhá obchodnímu tajemství (§ 504 Občanského zákoníku), ale název projektu, cíle projektu a u ukončeného nebo zastaveného projektu zhodnocení výsledku řešení projektu (údaje P03, P04, P15, P19, P29, PN8) dodané do CEP, jsou upraveny tak, aby byly zveřejnitelné.

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    ScaleText Verze 1.0

  • Technické parametry

    Bylo rozšířeno a dokončeno testování systému přes indexování celého obsahu anglické encyklopedie Wikipedia, sledována byla stabilita, výkon a přesnost systému při použití různých kombinací konfiguračních parametrů. [Jan Rygl, Jan Pomikálek, Radim Řehůřek, Michal Růžička, Vít Novotný, Petr Sojka. Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines. 10 s. Proceedings of the 2nd Workshop on Representation Learning for NLP, Association for Computational Linguistics. DOI 10.18653/v1/W17-2611. ISBN 978-1-945626-62-3] Navíc byl systém rozšířen a testován i pro hledání ve slovních vektorech Stanford gloVe a SIFT deskriptorech vektorů obrázků, Tyto technické výsledky byly sumarizovány v publikaci [Michal Růžička, Vít Novotný, Petr Sojka, Jan Pomikálek, Radim Řehůřek. Flexible Similarity Search of Semantic Vectors Using Fulltext Search Engines. 12 s. CEUR Workshop Proceedings, Vol. 1923, ISSN 1613-0073]. Systém je implementován v jazyce Python 3.5. Kompatibilni s Elasticsearch verzemi 5 a 6.

  • Ekonomické parametry

    Výsledek je připraven k produkčnímu nasazení u zákazníků. Systém byl demonstrován firmám MarketLogic a UpMonth: Martin Rueckert (VP Cognitive Computing), Market Logic Software AG, Joachimsthalerstr. 20, 10719 Berlin, Germany, telefonní kontakt +49 30 310 1819-0; Borzou Azima (founder), Standard Report LLC (UPMONTH), info@upmonth.com.

  • IČO vlastníka výsledku

    03892620

  • Název vlastníka

    RaRe Technologies s.r.o.