Il Web Semantico

Con Web Semantico si intende la trasformazione di Internet in un ambiente dove è possibile pubblicare non più solo documenti (pagine Html, file di Office, immagini, file multimediali,..) ma anche informazioni e dati in un formato adatto alla interrogazione, interpretazione e, più in generale, all'elaborazione automatica.

I documenti Html (Hyper Text Markup Language) infatti sono costruiti con un linguaggio particolarmente adatto alla formattazione ma molto meno alla ricerca. L'Html deriva dalle modifiche fatte da Tim Berners-Lee, considerato oggi uno dei padri di Internet, al linguaggio SGML (Standard Generalized Markup Language) utilizzato all'interno del CERN di Ginevra per la circolazione di documenti. La principale modifica introdotta consiste proprio nell'offrire l'opportunità di inserire link all'interno di un documento, trasformandolo da testo a ipertesto (da cui appunto l'acronimo Html).

Semplificando, quando si inserisce una parola in un motore di ricerca sono mostrati tutti quei documenti che contengono quella parola indipendentemente dal contenuto vero e proprio del documento. I motori di ricerca durante l'operazione di indicizzazione, con algoritmi più o meno raffinati, archiviano e classificano i documenti in base alle parole contenute nel testo, nel titolo del documento e nelle chiavi di ricerca. Inoltre i documenti Html mal si prestano ad essere esaminati per estrarne le informazioni. Sostanzialmente, una volta trovato un documento inerente alla nostra richiesta, questo è mostrato così com'è nella sua interezza. Per ovviare a questo problema è stato sviluppato l'XML che permette di costruire documenti in cui mantenere separata la parte di contenuto dalla sua struttura e dalla rappresentazione visiva che deve avere. Un documento XML si compone di tre parti:

  1. la parte con i dati che sono marcati da tag di apertura e chiusura liberamente impostati dal programmatore;
  2. la descrizione della struttura secondo la quale è stata dichiarata la marcatura dei dati. Tale dichiarazione può essere fatta o attraverso una DTD (Document Type Declaration) o attraverso un XML Schema;
  3. la rappresentazione ossia il foglio di stile, cioè le specifiche della formattazione che i dati devono assumere. I fogli di stile possono essere espressi in più linguaggi: XSL (Extensible Stylesheet Language), che è il linguaggio di formattazione costruito per XML, ma anche CSS e Html.

Come si vede XML permette di separare la parte di informazione dalla sua rappresentazione. Proprio grazie a questa particolarità l'XML è spesso utilizzato come formato “ponte” tra differenti rappresentazioni dei dati. Con l'XSLT (Extensible Stylesheet Language Trasformation) un documento XML può essere trasformato in un altro documento XML o in qualsiasi altro formato.

XML può essere considerato la base per quello che si definisce il Web Semantico, termine che ha preso piede a partire dalla International World Wide Web Conference tenutasi nel 2001. L'idea di base espressa da Tim Berners-Lee, che nel frattempo ha fondato ed è divenuto presidente del W3C – l'organizzazione internazionale che definisce gli standard e le norme per Internet - è quella di costruire un World Wide Web che meglio capisca e interpreti le nostre richieste. Si vorrebbe far passare il web da un insieme di documenti scollegati tra loro ad un unico database all'interno del quale sia facile attuare ricerche prelevando dai documenti le informazioni di interesse e mettendoli in relazione con altri documenti contenenti informazioni correlate. Il primo passo è di avere documenti che portino con sé una descrizione delle informazioni contenute.

Per la realizzazione del Web Semantico sarà necessario creare una apposita infrastruttura che ci permetta di “dare un senso” alle informazioni consentendo ad un agente automatico non solo di ricercare tra i documenti presenti ma anche di metterli in relazione uno con l'altro in modo automatico.

Il W3C ha dunque definito RDF che è un linguaggio simile all'XML con cui si stabilisce la semantica delle informazioni contenute nel documento. In pratica, quando in un documento comparirà il nome “pesca” questo sarà contenuto in un tag che ci dice che si tratta di un “frutto” che a sua volta appartiene al mondo “vegetale”. Tale tipo di informazioni, sfruttando la logica dei predicati propria dell'intelligenza artificiale, dovrebbe consentire ai motori di ricerca di reperire informazioni in modo più evoluto di quanto non avvenga adesso. Sapendo che “pesca” è un frutto si potrà andare a cercare anche in altri documenti in cui compare lo stesso termine con lo stesso tag identificativo e tralasciare invece di ricercare in tutti quei documenti in cui si parla della “pesca” come l'attività di cattura dei pesci..

Accanto all'RDF, il cui intento è quello di essere un linguaggio universale in grado di descrivere e rappresentare qualunque tipo di informazione, troviamo l'OWL (Web Ontology Language) che permette di porre in relazione fra loro le informazioni.

Gli studi su RDF e sul Web semantico sono in continua evoluzione. Una delle prime implementazioni pratiche di RDF è, guarda caso, RSS 1.0 (RDF Site Summary) il formato utilizzato da molti siti di news e blog per rendere disponibili le proprie informazioni. Non più solo la notizia in sé ma anche una sua descrizione in termine di autore, fonte, categoria,lingua e così via.

Concludendo, mentre l'Html gestisce un documento preoccupandosi solo della sua visualizzazione, RDF e gli standard RSS - oltre a divulgare i dati e descrivere come devono essere mostrati - “spiega” anche quello di cui si sta parlando (livello semantico).

Per chi volesse approfondire: l'interessante articolo di Tim Berners-Lee, James Hendler, Ora Lassila apparso sul numero di maggio del 2001 di Scientific American.


Contattaci subito
info@ghislandiweb.it