4.5.1 Migrarea și actualizarea unor seturi de date

Integrarea de date implică combinarea/colectarea datelor din diferite surse și oferă utilizatorilor o imagine de ansamblu al acestor date. Acest proces devine important în mai multe situații, atât de natură comercială (atunci când doua companii similare trebuie să își unească bazele de date), cât și științifică (de exemplu, combinarea rezultatelor de cercetare din diferite repozitorii bioinformatic). Integrarea de date a devenit cu atât mai necesară cu cât volumul și nevoia de a partaja date explodează. Acest lucru a devenit ținta unor importante cercetări teoretice, și totuși multe probleme nu își găsesc încă rezolvarea.

În IT, ETL (extragere, transformare, încărcare) este cea mai cunoscută procedură de a copia date din una sau mai multe surse într-un sistem care reprezintă datele diferit față de sursă sau într-un alt context decât cel initial.

Figura 1: O reprezentare simplă a unui data warehouse.

Procesul ETL extrage informația din bazele de date sursă, o transformă și apoi o încarcă într-un depozit de date.

Putem lua ca exemplu o aplicație web, unde un utilizator are acces la o varietate de informații despre orașe (cum ar fi criminalitatea, vremea, hoteluri, demografie, etc). Tradițional, informația ar trebui să existe într-o singură baze de date, cu o singură schemă. Însă orice companie ar considera informațiile de această amploare dificil de colectat și foarte costisitoare. Chiar dacă există resurse pentru a culege datele, probabil că ar reproduce informațiile din bazele de date existente privind criminalitatea, site-urile meteo și datele de recensământ.

O soluție de integrare a datelor ar putea rezolva această problemă, considerând aceste resurse externe ca vederi materializate asupra unei scheme virtuale mediate, rezultând o „integrare virtuală a datelor”. Aceasta înseamnă că dezvoltatorii de aplicații construiesc o schemă virtuală - schema mediată - pentru a formula cel mai bine tipurile de răspunsuri pe care utilizatorii le doresc. Apoi, proiectează convertori sau adaptori pentru fiecare sursă de date, cum ar fi baza de date privind infracțiunile și site-ul meteo. Acești adaptori transformă pur și simplu rezultatele locale (cele oferite de respectivele site-uri web sau baze de date) într-un format ușor de procesat pentru soluția de integrare a datelor (vezi figura 2). Când un utilizator de aplicație verifică schema mediată, soluția de integrare a datelor transformă această cerere în interogări adecvate peste sursele de date respective. În cele din urmă, baza de date virtuală combină rezultatele acestor interogări într-un răspuns final către utilizator.

Această soluție facilitează adăugarea de surse noi prin simpla construire a unui adaptor pentru acestea. Acesta contrastează cu sistemele ETL sau cu soluțiile unice de baze de date, care necesită de fiecare dată integrarea manuală a întregului set de date în sistem.

http://wiki.gis.com/wiki/index.php/Data_integration

Teoria integrării datelor formează o subcategorie a teoriei bazelor de date și formalizează conceptele care stau la baza problemei în logica de ordinul întâi. Aplicarea teoriilor oferă indicații cu privire la fezabilitatea și dificultatea integrării datelor. Deși definițiile sale pot părea abstracte, ele sunt suficient de generale pentru a se potrivi cu tot felul de sisteme de integrare.

Figura 2: Schemă simplă pentru o soluție de integrare a datelor.

Un proiectant de sistem construiește o schemă mediată pe baza căreia utilizatorii pot rula interogări. Baza de date virtuală se interfață cu bazele de date sursă prin cod de împachetare, dacă este necesar.

Acesta este un instrument pentru a integra diferite seturi de date printr-un proces ETL (Reader, Workflow, Writer) pentru a utiliza setul de date combinat pentru aplicații noi și cazuri de utilizare.

Verificarea integrității datelor se face de către operator, iar editarea datelor se face respectând procedura de arhivare a datelor. În cazul datelor de tip poligon acestea vor necesita verificari suplimentare de inchidere, procedeu ce se executa de către operator conform specificatiilor.

Procesarea datelor existente în formate diferite decat cele GIS este necesar pentru centralizarea și stocarea datelor în vederea utilizarii lor în aplicațiile GIS.


Comentarii (0)

Este utilă această pagină?