per un mese il Made in Italy ad Arad
INCONTRI DI PARTENARIATO ECONOMICO
ESTRARRE
INFORMAZIONI DAL WEB
PROSPETTIVE E TECNOLOGIE
ESTRARRE INFORMAZIONI DAL WEB
PROSPETTIVE E TECNOLOGIE
Come usufruire della più grande
base di conoscenza esistente
Luigi
Cerulo
RCOST - Research Centre on Software Technology - Università degli
Studi del Sannio
lcerulo@unisannio.it
Il World Wide Web, nell'ultimo decennio, ha conosciuto un notevole
sviluppo in termini di quantità di informazioni disponibili, tanto
da raggiungere nel 2000 qualche migliaio di petabytes che codificano
testo, immagini, suoni e video. Questa quantità è sicuramente
destinata a crescere ulteriormente, vista la nascita di vari progetti
ambiziosi, quali quello di Google, che mirano a rendere disponibile
sul web tutta la conoscenza scritta. Il web è forse la realizzazione
del sogno perduto della biblioteca Alessandrina, capace di rendere
oramai accessibile a tutti, con pochi mezzi, il sapere universale.
Ma non è sempre
semplice ricavare da un così grande numero di informazioni quelle
di nostro interesse. Il proliferare smisurato di conoscenze pubblicate
sul web, la dinamicità con cui variano ed evolvono le informazioni
nel tempo, e le diverse tecniche usate per accedervi, rendono le
stesse difficili da localizzare, recuperare e, soprattutto, da
elaborare in maniera automatica. Ad esempio, se l'informazione di interesse è pubblicata
in una pagina web che ogni ora viene aggiornata, per sapere se
essa ha subito una variazione, la pagina deve essere letta ogni
ora. Un sistema software potrebbe, automaticamente, riconoscere l'informazione,
monitorarla e notificare una sua eventuale evoluzione. Nel caso
in cui l'informazione possiede una struttura (come ad esempio quella
che viene impostata da una base dati relazionale) è più facile
elaborala, quindi catalogarla e, di conseguenza, recuperarla. Ma, purtroppo,
la grande maggioranza delle informazioni presenti sul web ha una semistruttura
che ne permette solo la visualizzazione in un browser o addirittura
non ha nessuna struttura, cioè l'unica forma che possiede è una
sequenza indefinita di caratteri alfanumerici. Sono state introdotte
negli ultimi tempi tecnologie evolute per la rappresentazione strutturata
delle informazioni, quale XML, che consentono di rappresentare
in maniera efficace anche le meta-informazioni che descrivono la
semantica delle informazioni stesse. Da qualche tempo si parla di semantic
web, tuttavia uno sviluppo esteso ed efficace di questa tecnologia richiede
tempi e costi che forse non ne consentono un'attuazione immediata.
Nel frattempo, nell'ambito del web attuale, in cui risiede una grandissima
mole di conoscenze utili per il business, è possibile dare alle
informazioni non strutturate una forma utile per un'elaborazione
automatica da parte di un software? É possibile, ad esempio, da
un documento elettronico, che descrive la struttura gerarchica di un'azienda,
ricavare, in maniera automatica, chi è l'amministratore delegato
e magari anche il suo numero di telefono? La risposta viene dalla disciplina
dell'Information Extraction che ha le sue radici nell'analisi del testo
scritto in linguaggio naturale, e che attualmente si è orientata
verso il web, ormai catalizzatore dei più grandi e alti interessi
sociali e di business. In RCOST, nell'ambito di un progetto di ricerca,
abbiamo collaborato con un'azienda, l'Advanced System, per trovare un'efficace
soluzione a un problema di Information Extraction. L'esigenza dell'azienda
era la realizzazione di un software per estrarre da pagine web,
in tempo reale, informazioni sui trasporti, che dovutamente elaborate,
le permettessero di individuare la soluzione più conveniente in
termini di tariffe, tempi di percorrenza, arrivi, partenze, eccetera.
Tali informazioni sono solitamente contenute in pagine html che presentano
offerte commerciali pubblicate dagli operatori del settore. Per estrarre
le informazioni utili da queste pagine, è necessaria una ricerca
esaustiva da parte di un operatore che sia in grado di individuare, leggendo
il testo, i dati utili, tralasciando quelli insignificanti. Ma
quest'operazione diventa difficile, se non impossibile, quando il numero
di pagine è alto
e cambia velocemente nel tempo. Utilizzando il software che è stato
sviluppato, l'estrazione dei dati avviene seguendo un insieme di
regole che l'utente, di volta in volta, definisce usufruendo di
un'interfaccia semplificata, utilizzabile anche da persone meno esperte.
Lo sforzo di produzione delle regole è minimo, perché una
volta definito un insieme di norme, queste possono essere riusate per
pagine web simili. Il sistema localizza, in maniera automatica, le pagine
sorgenti in cui si trovano le informazioni d'interesse e periodicamente
estrae ciò che è stato
specificato nelle regole. La tecnologia usata è basata sulla definizione
della grammatica di un linguaggio semiformale. L'ipotesi è che
l'informazione che si vuole estrarre segua una sintassi che è aderente
a un linguaggio definibile in maniera semiformale. É un po' come
sapere che, nell'articolo che si sta leggendo, il nome dell'autore è indicato
dalla sequenza di caratteri in grassetto che è situata sotto il
titolo. Questa tecnica, nel nostro contesto, è stata utilizzata
per evidenziare gli elementi di interesse contenuti in una pagina
web. Tale metodologia è applicabile se l'informazione ha un minimo
di struttura, in caso contrario, ne sono necessarie altre, più complesse
che generalmente sono basate sull'analisi del linguaggio naturale. É stato
condotto, nell'ambito dello stesso progetto di ricerca, uno studio
approfondito sulle tecniche attualmente in via di sviluppo e che
promettono interessanti applicazioni in campo industriale. Esistono metodologie
che consentono l'apprendimento della struttura delle informazioni
partendo da un insieme di campioni di pagine web. Queste tecniche fanno
uso di reti neurali e consentono, ad esempio, di ricavare, da un insieme
di pagine web strutturalmente simili, gli "elementi chiave" e
le interrelazioni (quasi sempre di tipo gerarchico) che esistono
tra questi. Il punto è che l'uomo è portato
a generare informazioni che siano comprese dai suoi simili e non
dalle macchine. Quando si scrive un articolo si cerca di essere
il più possibile
chiari e diretti, di essere il meno ambigui, di attenersi ai fatti,
insomma si seguono una serie di regole per garantire una buona
comprensione da parte del lettore. Il web ci mette a disposizione una
grande quantità di
informazioni, le più svariate, ed è facile perdersi, a
volte leggiamo quelle che ci interessano di meno e ne tralasciamo
altre che ci potrebbero essere più utili. Per usufruire in modo
veloce di queste informazioni, prima che diventino obsolete, è necessario
un meccanismo, una serie di regole, che consenta di demandare una
parte della fase di "comprensione" alle macchine, in modo che
ci possano assistere e aiutare nella gestione di questo così vasto
panorama informativo che, ormai, pervade la nostra vita quotidiana.
|