Cum se face Analiza de Date. O Privire de Ansamblu

21 mai

Perioada în care trăim este una caracterizată de imensul avans tehnologic ce aduce, deopotrivă, beneficii și inconveniente. Unul dintre aspectele pozitive este remarcat în practica directă cu analiza de date. Elemente ce țin de procesare, stocare, vizualizare, sunt doar câteva îmbunătățiri tehnice ce vin în sprijinul lucrului cu datele.

Acesta este subiectul ce îl voi detalia în continuare.

Dacă ar fi să imaginez un scurt scenariu, în care să explic rolul unui specialist în domeniul datelor aș zice că este asemeni unui detectiv care caută adevărul: informații și cunoștințe care să explice, să rezolve o situație aparte. În acest scop, se folosește de o serie de metode și metodologii, puse într-o ordine strategică.

Despre Date, date, DATE

Cuvântul date provine din latinescul datum și înseamnă „cadou” , „lucru dat” . Cu o importantă semnificație, zic eu, deoarece fără date nu există, cu adevărat, o analiză și, respectiv, o concluzie care să permită cunoașterea unui fenomen.

Mergând mai departe, pot fi privite ca un dar care te ajută efectiv în activitatea pe care dorești să o realizezi: fie prin prisma luării unei decizii eficiente, fie a construirii unui model care să prezică costurile pentru o afacere etc. Singura condiție este să știi cum să le folosești (să le citești, să vezi ce transmit – metaforic vorbind).

Cine generează aceste date? Evenimentele de zi cu zi, indiferent de domeniu (de exemplu: medicină, informatică, biologie etc.). Persoanele care sunt infectate și urmează un anume tratament, rețelele de socializare, inundațiile dintr-un colț de lume, operațiunile de comerț online, interacțiuni realtime de pe terenul sportiv, de joc etc. Cantități enorme de date – big data – care sunt caracterizate de viteza, volumul și diversitatea cu care își fac simțită prezența în spațiul cercetărilor. Pentru a le analiza cu ușurință se aduc împreună metode din statistică, din data mining și computer science.

Un procedeu de analiză

Un procedeu des întâlnit în analiza de date este cel cu referire la procesul KDD (Knowledge Discovery in Databases) – literal, Descoperirea Cunoștințelor în Baze de Date. Reprezintă o succesiune de etape. Voi aminti câteva detalii care să completeze cele spuse.

Etapa #1 Înțegerea domeniului și găsirea unor obiective de lucru

Mă documentez cu privire la domeniul ales spre studiere, la fenomenele specifice, identific problema/situația de rezolvat și stabilesc acele obiective de lucru.

Etapa #2 Selectez și adaug date

Este momentul să culeg date și să le integrez într-un suport electronic. Cel mai comun este o baza de date, un data warehouse sau simple foi de înregistrări precum documentele excel, csv.

Etapa #3 Preprocesare date

Fac acțiuni de curățare și corectare a datelor, eliminare erori, data lipsă, outlieri. Este preponderent o analiză exploratorie și se foloseste de tehnicile din analiza statistică descriptivă. În general, această activitate ocupă cam 80% din timp. Datele alese trebuie să fie într-o formă concisă și să reflecte cu acuratețe fenomenul studiat, astfel încât și mesajul obținut din urma rulării unui algoritm să fie corect.

Etapa #4 Transformarea datelor

Pregătesc datele în forma necesară pentru aplicarea unui algoritm specific de data mining. Pot alege o variantă de machine learning supervizată și atunci am nevoie de o coloană care să reflecte, de pildă, o clasă de valori (de exemplu clasa Gender: Male/Female), care poate necesită o recodificare, sau o normalizare etc. Coloana – în sensul uzitat la forma tabelară de aranjare a datelor.

Etapa #5 Data Mining

Aplic efectiv algoritmul pe setul de date ales. Funcție de ceea ce doresc să obțin ( de exemplu: predicții, segmentări, clasificări ș.a) voi separa, de exemplu, datele inițiale in train (antrenare – 70%), testare(20%) și validare(10%).

Etapa #6 Evaluare și interpretare

În urma rulării algoritmului decid dacă este un bun model de predicție, să spunem. Mă folosesc de diferiți indicatori de calitate, interpretez matricea de confuzie etc. Dacă este acceptat merg la etapa următoare, dacă nu, revin chiar și din prima etapă și gândesc un alt fel de colectare a informațiilor care să mă conducă la un alt rezultat.

Etapa #7 Cunoștințele descoperite

Vizualizarea și integrarea cunoștințelor descoperite sunt pasul final care reprezintă succesul și bucuria aplicării acestui procedeu denumit KDD.

Tehnologii folosite în analiza datelor

Conform TIOBE Index pentru Mai 2024, Python (#1), Java (#4) și SQL (#9) sunt în top 10 popularitate a limbajelor de programare. Sunt puncte cheie și în analiza datelor, la diferite etape de implementare, alături și de alte tehnologii pe care nu le menționez (de exemplu Tableau, MySQL, AWS etc.).

Un motiv aparte pentru locul fruntaș pe care-l ocupă Python este dat și de facilitățile extinse pe care le oferă prin intermediul librăriilor disponibile și care se pretează la scopuri diverse:

Cum arată codul scris în limbajul de programare Python?

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
plt.style.use('seaborn-poster')
%matplotlib inline

# import the iris data
iris = datasets.load_iris()
# let's just use two features, so that we can 
# easily visualize them
X = iris.data[:, [0, 2]]
y = iris.target
target_names = iris.target_names
feature_names = iris.feature_names
# get the classes
n_class = len(set(y))

# let's have a look of the data first
plt.figure(figsize = (10,8))

plt.scatter(X[:, 0], X[:, 1], \
            color = 'b', marker = 'o', s = 60)

plt.xlabel('Feature 1 - ' + feature_names[0])
plt.ylabel('Feature 2 - ' + feature_names[2])
plt.show()

Pentru a continua să citești pe acest subiect, un bun start este cartea ÎN CULISELE BIG DATA. O abordare statistică scrisă de Rafael Lahoz-Beltra.

Ţi-a plăcut? Te invit: să distribui(share) sau să apreciezi(like) sau să comentezi(comment) postarea.

Îți mulţumesc, Zâmbetul Soarelui !

Etichete:Analiza de date, Big Data, Cum se face analiza de date, Data Mining, KDD, Knowledge Discovery in Databases

Comentarii Lasă un comentariu
Categorii Cu și despre tehnologie, Cum se face, Diverse

Lasă un comentariu Anulează răspunsul

Sumar

Destăinuri

Cartea sau filmul? Depinde, aș îndrăzni să răspund. Astăzi este despre ecranizarea unui roman, care s-a concretizat într-un serial de mare profunzime, cu două sezoane și cu povești de viață spuse, în taină, în acea cameră roșie. Ce știm (cu siguranță) „Serialul turcesc Destăinuri este bazat pe poveștile reale incluse în volumul În interiorul medalionului […]

Evaluează asta:
Colecția ‘NOI’

Colecția NOI este despre Casă, Pământ și Om; cuprinde cărți despre mediu și despre urma pe care o lăsăm noi. Considerăm că impactul pe care o carte îl are asupra mediului înconjurător este la fel de important ca impactul ei asupra spiritului. La editarea fiecărei cărți, minimalizăm consumul de resurse naturale și alegem procesele de […]

Evaluează asta:
Motivarea – de la dorință la realizare

* De duminică – Minune a Icoanei Maicii Domnului de la Mănăstirea Hadâmbu Ţi-a plăcut? Te invit: să distribui (share) sau să apreciezi (like) sau să comentezi (comment) postarea. Îți mulţumesc, Zâmbetul Soarelui!

Evaluează asta:
Cum ne păstrăm Energia? La ce ne ajută asta?

Ingrid Baciu, ne ajută să aprofundăm conceptul de Energie și, mai ales, să conștientizăm importanța sa în raport cu destinul. Vizionare plăcută! P.S. IMPECABIL, ca întotdeauna. * Și dacă tot este sâmbătă, este iarnă și, ce să vezi, putem ajuta mai mult acele mici ființe, care ne încântă, cu glasurile lor, cu al lor colorit […]

Evaluează asta:
Legături către cunoaștere [35]

Bine te-am regăsit 🙂 Dat fiind că, obișnuiesc să citesc diverse materiale (articole online), m-am gândit să-ți transmit o selecție săptămânală, sub forma unei liste (a cunoașterii… am numit-o). De ce? Poate, pentru simplul fapt că, te pot ajuta să rezolvi ceva in viața ta sau te pot binedispune (până la un punct). Zis și […]

Evaluează asta:

	Zâmbetul Soarelui la Știai că ~ 84
	Gabriela Enescu la Știai că ~ 84
	Cafeneaua Brandurilo… la Poveste cu tâlc: Puterea rugăc…
	Adrian Lawson la Vă doresc un An Nou, 2020, pli…
	Cafeneaua Brandurilo… la Let’s Have Some Fun: Ana…

Caută

Cum se face Analiza de Date. O Privire de Ansamblu

Despre Date, date, DATE

Un procedeu de analiză

Tehnologii folosite în analiza datelor

Lasă un comentariu Anulează răspunsul

Sorina Chirilă

Sumar

Destăinuri

Evaluează asta:

Colecția ‘NOI’

Evaluează asta:

Motivarea – de la dorință la realizare

Evaluează asta:

Cum ne păstrăm Energia? La ce ne ajută asta?

Evaluează asta:

Legături către cunoaștere [35]

Evaluează asta:

Pentru tine...

Păreri

Google Translate

Zâmbetul Soarelui

Categorii

Goodreads – Sorina

Drepturi de autor

Mediafax

Webcultura

Go4It

Caută

Despre Date, date, DATE

Un procedeu de analiză

Tehnologii folosite în analiza datelor

Evaluează asta:

Partajează asta:

Lasă un comentariu Anulează răspunsul

Sorina Chirilă

Sumar

Evaluează asta:

Evaluează asta:

Evaluează asta:

Evaluează asta:

Evaluează asta:

Pentru tine...

Păreri

Google Translate

Categorii

Goodreads – Sorina

Drepturi de autor