ARCHIVIO COSTOZERO

 
Cerca nel sito



Vai al numero in corso


  Dicembre 2012

Articoli n° 3
APRILE 2005
 
UNIONE DI BENEVENTO - Home Page
stampa l'articolo stampa l'articolo

per un mese il Made in Italy ad Arad
INCONTRI DI PARTENARIATO ECONOMICO

ESTRARRE INFORMAZIONI DAL WEB
PROSPETTIVE E TECNOLOGIE

ESTRARRE INFORMAZIONI DAL WEB
PROSPETTIVE E TECNOLOGIE
Come usufruire della più grande base di conoscenza esistente

Luigi Cerulo
RCOST - Research Centre on Software Technology - Università degli Studi del Sannio
lcerulo@unisannio.it


Il World Wide Web, nell'ultimo decennio, ha conosciuto un notevole sviluppo in termini di quantità di informazioni disponibili, tanto da raggiungere nel 2000 qualche migliaio di petabytes che codificano testo, immagini, suoni e video. Questa quantità è sicuramente destinata a crescere ulteriormente, vista la nascita di vari progetti ambiziosi, quali quello di Google, che mirano a rendere disponibile sul web tutta la conoscenza scritta. Il web è forse la realizzazione del sogno perduto della biblioteca Alessandrina, capace di rendere oramai accessibile a tutti, con pochi mezzi, il sapere universale. Ma non è sempre semplice ricavare da un così grande numero di informazioni quelle di nostro interesse. Il proliferare smisurato di conoscenze pubblicate sul web, la dinamicità con cui variano ed evolvono le informazioni nel tempo, e le diverse tecniche usate per accedervi, rendono le stesse difficili da localizzare, recuperare e, soprattutto, da elaborare in maniera automatica. Ad esempio, se l'informazione di interesse è pubblicata in una pagina web che ogni ora viene aggiornata, per sapere se essa ha subito una variazione, la pagina deve essere letta ogni ora. Un sistema software potrebbe, automaticamente, riconoscere l'informazione, monitorarla e notificare una sua eventuale evoluzione. Nel caso in cui l'informazione possiede una struttura (come ad esempio quella che viene impostata da una base dati relazionale) è più facile elaborala, quindi catalogarla e, di conseguenza, recuperarla. Ma, purtroppo, la grande maggioranza delle informazioni presenti sul web ha una semistruttura che ne permette solo la visualizzazione in un browser o addirittura non ha nessuna struttura, cioè l'unica forma che possiede è una sequenza indefinita di caratteri alfanumerici. Sono state introdotte negli ultimi tempi tecnologie evolute per la rappresentazione strutturata delle informazioni, quale XML, che consentono di rappresentare in maniera efficace anche le meta-informazioni che descrivono la semantica delle informazioni stesse. Da qualche tempo si parla di semantic web, tuttavia uno sviluppo esteso ed efficace di questa tecnologia richiede tempi e costi che forse non ne consentono un'attuazione immediata. Nel frattempo, nell'ambito del web attuale, in cui risiede una grandissima mole di conoscenze utili per il business, è possibile dare alle informazioni non strutturate una forma utile per un'elaborazione automatica da parte di un software? É possibile, ad esempio, da un documento elettronico, che descrive la struttura gerarchica di un'azienda, ricavare, in maniera automatica, chi è l'amministratore delegato e magari anche il suo numero di telefono? La risposta viene dalla disciplina dell'Information Extraction che ha le sue radici nell'analisi del testo scritto in linguaggio naturale, e che attualmente si è orientata verso il web, ormai catalizzatore dei più grandi e alti interessi sociali e di business. In RCOST, nell'ambito di un progetto di ricerca, abbiamo collaborato con un'azienda, l'Advanced System, per trovare un'efficace soluzione a un problema di Information Extraction. L'esigenza dell'azienda era la realizzazione di un software per estrarre da pagine web, in tempo reale, informazioni sui trasporti, che dovutamente elaborate, le permettessero di individuare la soluzione più conveniente in termini di tariffe, tempi di percorrenza, arrivi, partenze, eccetera. Tali informazioni sono solitamente contenute in pagine html che presentano offerte commerciali pubblicate dagli operatori del settore. Per estrarre le informazioni utili da queste pagine, è necessaria una ricerca esaustiva da parte di un operatore che sia in grado di individuare, leggendo il testo, i dati utili, tralasciando quelli insignificanti. Ma quest'operazione diventa difficile, se non impossibile, quando il numero di pagine è alto e cambia velocemente nel tempo. Utilizzando il software che è stato sviluppato, l'estrazione dei dati avviene seguendo un insieme di regole che l'utente, di volta in volta, definisce usufruendo di un'interfaccia semplificata, utilizzabile anche da persone meno esperte. Lo sforzo di produzione delle regole è minimo, perché una volta definito un insieme di norme, queste possono essere riusate per pagine web simili. Il sistema localizza, in maniera automatica, le pagine sorgenti in cui si trovano le informazioni d'interesse e periodicamente estrae ciò che è stato specificato nelle regole. La tecnologia usata è basata sulla definizione della grammatica di un linguaggio semiformale. L'ipotesi è che l'informazione che si vuole estrarre segua una sintassi che è aderente a un linguaggio definibile in maniera semiformale. É un po' come sapere che, nell'articolo che si sta leggendo, il nome dell'autore è indicato dalla sequenza di caratteri in grassetto che è situata sotto il titolo. Questa tecnica, nel nostro contesto, è stata utilizzata per evidenziare gli elementi di interesse contenuti in una pagina web. Tale metodologia è applicabile se l'informazione ha un minimo di struttura, in caso contrario, ne sono necessarie altre, più complesse che generalmente sono basate sull'analisi del linguaggio naturale. É stato condotto, nell'ambito dello stesso progetto di ricerca, uno studio approfondito sulle tecniche attualmente in via di sviluppo e che promettono interessanti applicazioni in campo industriale. Esistono metodologie che consentono l'apprendimento della struttura delle informazioni partendo da un insieme di campioni di pagine web. Queste tecniche fanno uso di reti neurali e consentono, ad esempio, di ricavare, da un insieme di pagine web strutturalmente simili, gli "elementi chiave" e le interrelazioni (quasi sempre di tipo gerarchico) che esistono tra questi. Il punto è che l'uomo è portato a generare informazioni che siano comprese dai suoi simili e non dalle macchine. Quando si scrive un articolo si cerca di essere il più possibile chiari e diretti, di essere il meno ambigui, di attenersi ai fatti, insomma si seguono una serie di regole per garantire una buona comprensione da parte del lettore. Il web ci mette a disposizione una grande quantità di informazioni, le più svariate, ed è facile perdersi, a volte leggiamo quelle che ci interessano di meno e ne tralasciamo altre che ci potrebbero essere più utili. Per usufruire in modo veloce di queste informazioni, prima che diventino obsolete, è necessario un meccanismo, una serie di regole, che consenta di demandare una parte della fase di "comprensione" alle macchine, in modo che ci possano assistere e aiutare nella gestione di questo così vasto panorama informativo che, ormai, pervade la nostra vita quotidiana.

Download PDF
Costozero: scarica la rivista in formato .pdf
Aprile - 6.207 Kb
 

Cheap oakleys sunglassesReplica Watcheswholesale soccer jerseyswholesale jerseysnike free 3.0nike free runautocadtrx suspension trainingbuy backlinks
Direzione e Redazione: Assindustria Salerno Service s.r.l.
Via Madonna di Fatima 194 - 84129 Salerno - Tel. (++39) 089.335408 - Fax (++39) 089.5223007
Partita Iva 03971170653 - redazione@costozero.it