All
All

What are you looking for?

All
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Intelligent analysis of WWW content and structure

Project goals

Intelligent analysis of the World-Wide Web content and structure is considered as major application area by both information retrieval and knowledge engineering research; the principal paradigms however differ. IR researchers view the web as an enormouscollection of text documents that can be represented as uniform vectors of features; the hugeness of this collection can be attacked by statistical techniques such as latent semantic indexing. KE researchers focus on logical inference and abstraction ofconceptual metadata from elementary terms and structures; the semantics is formalised by ontologies. The current project attempts to integrate both views. The main tasks addressed are: mathematical formalisation of the metadata extraction task, design ofanintegrated collection of web ontologies, development of an agent architecture for web analysis (relying on the redundancy and complementarity of information expressed by different types of data), design of a structured XML-based representation of web

Keywords

Public support

  • Provider

    Czech Science Foundation

  • Programme

    Standard projects

  • Call for proposals

    Standardní projekty 2 (SGA02003GA-ST)

  • Main participants

    Vysoká škola ekonomická v Praze / Fakulta informatiky a statistiky

  • Contest type

    VS - Public tender

  • Contract ID

Alternative language

  • Project name in Czech

    Inteligentní analýza obsahu a struktury WWW

  • Annotation in Czech

    Inteligentní analýza prostoru WWW usnadňující přístup k jeho obsahu je dnes v ohnisku zájmu výzkumníků z oblasti vyhledávání informací ("information retrieval") i znalostního inženýrství. V prvním případě je web chápán jako obrovská kolekce textovýchdokumentů, které lze reprezentovat formou vektorů příznaků; za efektivní přístupovou metodu je považováno zejména tzv. indexování latentní sémantiky. Ve druhém případě je kladen důraz na formálně-logické odvozování a abstrakci od elementárních termínů astruktur ke konceptuálním metadatům; sémantika používaných informací je definována tzv. formálními ontologiemi. Předkládaný projekt usiluje o integraci obou pohledů. Hlavní uvažované směry práce zahrnují zejména matematickou formalizaci úlohy extrakcewebovýchmetadat, konstrukci soustavy konceptuálních ontologií WWW, vývoj agentové architektury pro analýzu WWW (využívající redundance a komplementarity informací vyjádřených různými typy dat), návrh strukturované reprezentace webových dat na bázi XML,

Scientific branches

  • R&D category

    ZV - Basic research

  • CEP classification - main branch

    JD - Use of computers, robotics and its application

  • CEP - secondary branch

    BB - Applied statistics, operational research

  • CEP - another secondary branch

    AF - Documentation, librarianship, work with information

  • 10103 - Statistics and probability
    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
    20204 - Robotics and automatic control
    20205 - Automation and control systems
    50803 - Information science (social aspects)
    50804 - Library science

Completed project evaluation

  • Provider evaluation

    V - Vynikající výsledky projektu (s mezinárodním významem atd.)

  • Project results evaluation

    The goal of the project was to develop and integrate a collection of heterogeneous methods applicable on analysis of web content and structure. Beside the activities directly aiming at this goal, more generic methods were also investigated, such as effec

Solution timeline

  • Realization period - beginning

    Jan 1, 2003

  • Realization period - end

    Jan 1, 2005

  • Project status

    U - Finished project

  • Latest support payment

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP06-GA0-GA-U/07:6

  • Data delivery date

    Jan 15, 2009

Finance

  • Total approved costs

    1,500 thou. CZK

  • Public financial support

    834 thou. CZK

  • Other public sources

    666 thou. CZK

  • Non public and foreign sources

    0 thou. CZK

Basic information

Recognised costs

1 500 CZK thou.

Public support

834 CZK thou.

55%


Provider

Czech Science Foundation

CEP

JD - Use of computers, robotics and its application

Solution period

01. 01. 2003 - 01. 01. 2005