Intelligent analysis of WWW content and structure
Project goals
Intelligent analysis of the World-Wide Web content and structure is considered as major application area by both information retrieval and knowledge engineering research; the principal paradigms however differ. IR researchers view the web as an enormouscollection of text documents that can be represented as uniform vectors of features; the hugeness of this collection can be attacked by statistical techniques such as latent semantic indexing. KE researchers focus on logical inference and abstraction ofconceptual metadata from elementary terms and structures; the semantics is formalised by ontologies. The current project attempts to integrate both views. The main tasks addressed are: mathematical formalisation of the metadata extraction task, design ofanintegrated collection of web ontologies, development of an agent architecture for web analysis (relying on the redundancy and complementarity of information expressed by different types of data), design of a structured XML-based representation of web
Keywords
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
Standardní projekty 2 (SGA02003GA-ST)
Main participants
Vysoká škola ekonomická v Praze / Fakulta informatiky a statistiky
Contest type
VS - Public tender
Contract ID
—
Alternative language
Project name in Czech
Inteligentní analýza obsahu a struktury WWW
Annotation in Czech
Inteligentní analýza prostoru WWW usnadňující přístup k jeho obsahu je dnes v ohnisku zájmu výzkumníků z oblasti vyhledávání informací ("information retrieval") i znalostního inženýrství. V prvním případě je web chápán jako obrovská kolekce textovýchdokumentů, které lze reprezentovat formou vektorů příznaků; za efektivní přístupovou metodu je považováno zejména tzv. indexování latentní sémantiky. Ve druhém případě je kladen důraz na formálně-logické odvozování a abstrakci od elementárních termínů astruktur ke konceptuálním metadatům; sémantika používaných informací je definována tzv. formálními ontologiemi. Předkládaný projekt usiluje o integraci obou pohledů. Hlavní uvažované směry práce zahrnují zejména matematickou formalizaci úlohy extrakcewebovýchmetadat, konstrukci soustavy konceptuálních ontologií WWW, vývoj agentové architektury pro analýzu WWW (využívající redundance a komplementarity informací vyjádřených různými typy dat), návrh strukturované reprezentace webových dat na bázi XML,
Scientific branches
R&D category
ZV - Basic research
CEP classification - main branch
JD - Use of computers, robotics and its application
CEP - secondary branch
BB - Applied statistics, operational research
CEP - another secondary branch
AF - Documentation, librarianship, work with information
10103 - Statistics and probability
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
20204 - Robotics and automatic control
20205 - Automation and control systems
50803 - Information science (social aspects)
50804 - Library science
Completed project evaluation
Provider evaluation
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Project results evaluation
The goal of the project was to develop and integrate a collection of heterogeneous methods applicable on analysis of web content and structure. Beside the activities directly aiming at this goal, more generic methods were also investigated, such as effec
Solution timeline
Realization period - beginning
Jan 1, 2003
Realization period - end
Jan 1, 2005
Project status
U - Finished project
Latest support payment
—
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP06-GA0-GA-U/07:6
Data delivery date
Jan 15, 2009
Finance
Total approved costs
1,500 thou. CZK
Public financial support
834 thou. CZK
Other public sources
666 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
1 500 CZK thou.
Public support
834 CZK thou.
55%
Provider
Czech Science Foundation
CEP
JD - Use of computers, robotics and its application
Solution period
01. 01. 2003 - 01. 01. 2005