Utolsó módosítás: 2016. november 03.

Miskolci Egyetem
Gépészmérnöki és Informatikai Kar

Mérnök informatikus szak
 

Tantárgykód Szemeszter Követelmény Kredit Félév
GEIAL526M Őszi 2 + 2 / A + K 5 őszi

 

Tantárgyfelelős személy és tanszék:
dr. Kovács László, Általános Informatikai Intézeti Tanszék

A tantárgy tanszéki weboldala:
Moodle_honlap

A tantárgy előadója:

Név: Beosztás Tanszék / Intézet
dr. Kovács László egyetemi docens Általános Informatikai Intézeti Tanszék

A tantárgy az alábbi témakörök ismeretére épít:
Adatatbázis kezelés I, II 

A tantárgy célkitűzése:

A tárgy célja az adatelemzés eszközeinek megismerése és az alapvető módszerek használatának gyakorlása. A tárgy kitér a statisztikai alapok bemutatására, az OLAP, elemző rendszerek, az adattárház rendszerek áttekintésére. Ezt követően az adatbányászat bemutatása következik. Az elemzés átfogja a klaszterezést, osztályozást, szabályfeltárás és dimenzió csökkentés témaköreit. A hallgatók képesek lesznek tájékozódni az adatelemzési technikák körében, ki tudják választani az igényelt adatelemzési módszert. Képesek lesznek adatkocka modellen alapuló adattárházak kiépítésére és használatára. Végig tudnak vinni alapvető adatelemzési, adatbányászati projektet. Megismerik az adatelőkészítés eszközeit és ki tudják választani az igényelt elemzési módszert. Megismernek néhány elerjedt elemzési környezetet: R nyelv, MDX.

 

A tantárgy részletes tematikája:

Hét Előadás anyaga
1. Adatelemzési alapfogalmak, OLAP és OLTP rendszerek jellemzői és összevetése. Elemzés statisztikai alapjai: valószínűségi változók és mérőszámok. Excel adatkelezés alapjai, regresszió számítás.   
2. Valószínűség eloszlások. A normál eloszlás jellemzés és szerepe. Hihetőség vizsgálatok. T-próbák algoritmusa és alkalmazása. Bayes-hálók működése és minta alkalmazásai.  
3. OLAP rendszerek architektúrája. Adattárház fogalma és architektúrája. Adatkocka adatmodell elemei. Logikai MD modellek áttekintése. Relációs modell konverziója MD modellre. Séma tervezés menete. 
4. Az MD adatkocka algebra elemei és célja. Szelekciók, fold műveletek, drill down és roll up funkciók. Az MD struktúra megvalósítása Oracle PE MD környezetben. MD algebra megvalósítása Oracle PE MD környezetben.
5.  Adattárház projektek jellemzése, Adattárházak tárolási specifikumai. Az előszámítások szerepe, greedy algoritmus. Kapcsolat tárolási, indexelési technikák. ETL betöltési folyamatok komponensei. 
6.  Az R nyelv áttekintése és jellemzése. R nyelv programozásának alapjai. Vektorok és mátrixok kezelése. Statisztikai műveletek R-ben. 
7.  Adatbányászat fogalma. Adatbányászat lépései, módszertana. Adatbányászat területei. Adattáblák kezelése, beolvasása R-ben. Függvények és OOP jellegű elemek R-ben.
8.  Klaszterezés feladatköre. A hierarchikus HAC módszer algoritmusa és jellemzése. A HAC konvergencia elemzése. A K-means alapú klaszterezési eljárások. k-medoid módszer, klaszterezés R-ben, eredmények megjelenítése. 
9.  Sűrűség alapú klaszterezési módszerek, SOM módszer jellemzés, SOM algoritmusa. SOM neurális háló alapú megvalósítása. associációs szabályok feltárása. Apriori módszer algoritmusa, megvalósítás R-ben
10.  Osztályozás feladatköre. A Bayes osztályozó algoritmusa. A Bayes osztályozó hatékonyság elemzése. A Döntési fák mechanizmusa. ID3 algoritmus bemutatása. Osztályozási módszerek R-ben.
11.  További  osztályozási módszerek. A BackPropagation módszer áttekintése. A  BackPropagation módszer algoritmusa. A SVM módszer áttekintése. Az SVM módszer algoritmusa. R-beli magvalósítások. 
12.  Dimenzió csökkentési módszerek áttekintése. A PCA módszer algoritmusa és használata. A SVD módszer algoritmusa és használata. R-beli implementációk. 
14. Összefoglalás

 

A tantárgy oktatásának módja:
Előadás, számítógépes laboratórium

Követelmények:
Szorgalmi időszakban (aláírás megszerzése):
Legalább 7 gyakorlaton való részvétel a szorgalmi időszakban és
két egyéni feladat (DW tervezés és kezelés; illetve R-beli adatelemzés) elkészítése (egyszer pótolhatóak) Az egyéni feladatok pótlása az utolsó szorgalmi héten történik.
A gyakorlati számonkérés pótlása vizsgaidőszakban, a kijelölt napon történik.
Vizsgaidőszakban (Kollokviumjegy megszerzése):
Írásbeli és szóbeli vizsga.  Az írásbeli rész legalább elégséges teljesítése után következik a szóbeli rész. Az írásbelin elméleti vagy gyakorlati feladatok szerepelhetnek. Az eredő teljesítmény a 0.667*írásbeli + 0.333*szóbeli képlettel kerül meghatározásra, melyhez jegy a megadott táblázat szerint rendelődik. Elégtelen írásbeli elégtelen vizsgajegyet jelent. A szóbelin a megjelenés kötelező.

Az írásbeli és szóbeli rész értékelése:

0%-50%: elégtelen
50%-62%: elégséges
62%-75%: közepes
75%-88%: jó
88%-100%: jeles

Elégtelen írásbeli elégtelen vizsgajegyet jelent. A szóbelin a megjelenés kötelező.

Pótlási lehetőség:
Vizsgaidőszakban a tanulmányi szabályzatoknak megfelelően.

Konzultációs lehetőség:
csütörtök 12:00-13:30 

Jegyzet, tankönyv, felhasználható irodalom:
Tanszéki moodle-ben található on-line anyagok. 

M.J. Zaki, W. Meira Jr.: Data Mining and Analysis (Fundamental Concepts and Algorithms)

http://www.dataminingbook.info/pmwiki.php

 

A tantárgy tematikáját kidolgozta:

Név: Beosztás: Tanszék / Intézet
dr. Kovács László egyetemi docens Általános Informatikai Intézeti Tanszék