Скачать презентацию DATA MINING 1 Real World Domain Aplikasi Скачать презентацию DATA MINING 1 Real World Domain Aplikasi

de32013dd9c1156cf5127a24a72dce70.ppt

  • Количество слайдов: 48

DATA MINING) 1 DATA MINING) 1

Real World Domain Aplikasi Modelling (logical & Physical) • Logical scheme (User’s view, Semantic Real World Domain Aplikasi Modelling (logical & Physical) • Logical scheme (User’s view, Semantic comp. ) • Physical Scheme (performance) • Query Language • Security (disaster, privacy) • Distributed Access & Data • Machine 2

CASE : Komponen : tgl. pasang, tgl. Rusak, km pakai, origin, lokasi pakai Tgl. CASE : Komponen : tgl. pasang, tgl. Rusak, km pakai, origin, lokasi pakai Tgl. Pasang Tgl. Rusak KM Pakai Origin Lokasi Pakai Okt. 05 Agu. 06 53. 000 Korea Jakarta Mar. 05 Jul. 06 40. 000 Taiwan Bandung Jan. 06 Sep. 06 35. 000 Jepang Jakarta Q : Menentukan kesesuaian antara origin komponen, dengan kondisi operasi komponen Mhs : Prodi, IP, lama kuliah, Asal SMA, Asal SD, Suku Prodi IP Lama Kuliah Asal SMA Asal SD Suku IF 3, 6 11 Jogya Jawa EL 3, 4 10 Makssar Minang AR 3, 7 12 Bandung Majalaya Sunda TL 3, 2 9 Jakarta Ambon Q : Menentukan keterkaitan antara SUKU dengan prestasi pada prodi tertentu. 3

DBMS db-1 CTIL dw QUERY (OLAP) INFORMATION db-n DATA MINING Pattrern of Information ATURAN DBMS db-1 CTIL dw QUERY (OLAP) INFORMATION db-n DATA MINING Pattrern of Information ATURAN KNOWLEDGE 4

DATA WAREHOUSE n n An Overview of DW and OLAP Tech [S. Chaudhuri and DATA WAREHOUSE n n An Overview of DW and OLAP Tech [S. Chaudhuri and U. Dayal] DATA MINING : Concepts and Techniques [Jiawei Han and Micheline Kamber] 5

Data Warehouse 6 Data Warehouse 6

Decision Support dan OLAP n DSS: teknologi informasi untuk membantu “knowledge worker” (seperti eksekutif, Decision Support dan OLAP n DSS: teknologi informasi untuk membantu “knowledge worker” (seperti eksekutif, manajer, analis) membuat keputusan lebih cepat dan tepat • Bagaimana volume penjualan berdasarkan daerah dan kategori produk pada tahun sebelumnya? • Bagaimana hubungan antara harga saham dari pembuat komputer dengan keuntungan triwulan selama 10 tahun terakhir? • Apakah diskon 10% akan meningkatkan volume penjualan? n n OLAP merupakan sebuah elemen dari DSS Data mining merupakan sebuah kakas analisis data yang “powerful” dengan performansi yang tinggi bagi DSS 7

OLAP (On-Line Analytical Processing) n n Multidimensional (ROLAP, MOLAP) Analysis Information / Presentation Fast(single OLAP (On-Line Analytical Processing) n n Multidimensional (ROLAP, MOLAP) Analysis Information / Presentation Fast(single query) 8

PROSES OLAP : On-Line Analytical Processing Karakteristik : 1. Akses data [seluruhnya] dari sudut PROSES OLAP : On-Line Analytical Processing Karakteristik : 1. Akses data [seluruhnya] dari sudut pandang tertentu. akses Sekuensial 2. Sering menggunakan “rekapitulasi” berdasarkan kategori tertentu (kategorisasi). 9

OLAP Operations n n Drill down(decrease level aggregation) Pull up(increase level aggregation) Slice and OLAP Operations n n Drill down(decrease level aggregation) Pull up(increase level aggregation) Slice and Dice (selection & projection) Pivoting(reorienting view) 10

OLAP Servers n n n Relational OLAP (ROLAP): extended relational DBMS yang melakukan mapping OLAP Servers n n n Relational OLAP (ROLAP): extended relational DBMS yang melakukan mapping operasi terhadap data multidimensi menjadi operasi relasional standar Multidimensional OLAP (MOLAP): special purpose server yang secara langsung mengimplementasikan data dan operasi multidimensi Hybrid OLAP (HOLAP): memberikan kepada pemakai/administrator sistem kebebasan untuk memilih partisi yang berbeda 11

Traditional OLTP n Pada sistem konvensional, DBMS digunakan untuk online transaction processing (OLTP) • Traditional OLTP n Pada sistem konvensional, DBMS digunakan untuk online transaction processing (OLTP) • entri pesanan: tampilkan pesanan xx-yy-zz dan update field statusnya • perbankan: transfer Rp. 500. 000, - dari rekening nomor XXX ke rekening nomor YYY n n n pemrosesan data clerical data bersifat detil dan up-to-date pekerjaan terstruktur dan bersifat pengulangan unit kerja berupa transaksi yang singkat membaca dan/atau menulis sejumlah kecil record isolasi, pemulihan, dan integritas merupakan hal yang kritis 12

OLTP vs OLAP OLTP pengguna fungsi perancangan BD data penggunaan akses unit kerja jml OLTP vs OLAP OLTP pengguna fungsi perancangan BD data penggunaan akses unit kerja jml record diakses jml pengguna ukuran BD metrik OLAP clerk, IT professional knowledge worker operasi harian pengambilan keputusan application-oriented subject-oriented terkini, up-to-date, detil, relasional yang flat, terisolasi berulang historis, summarized, multidimensi, terintegrasi, terkonsolidasi adhoc baca/tulis pembacaan yang sangat banyak transaksi pendek dan sederhana query kompleks puluhan jutaan ribuan ratusan 100 MB-GB 100 GB-TB transaction throughput query throughput, respons 13

Data Warehouse n n Sumber data bagi aplikasi sistem pengambilan keputusan (DSS) dan sistem Data Warehouse n n Sumber data bagi aplikasi sistem pengambilan keputusan (DSS) dan sistem informasi eksekutif (EIS) Dikelola secara terpisah dari basis data operasional Bukan (tidak harus) merupakan basis data Prinsip data warehouse: • • n subject-oriented integrated time-varying non-volatile Kumpulan data yang digunakan terutama untuk pengambilan keputusan di dalam organisasi 14

DATA WAREHOUSE n n Gudang “DATA” Integrasi seluruh data dari “topik” tertentu (tingkat organisasi) DATA WAREHOUSE n n Gudang “DATA” Integrasi seluruh data dari “topik” tertentu (tingkat organisasi) dalam satu kesatuan akses (logik), sehingga memungkinkan adanya proses “analisis” terhadap karakteristik organisasi, dalam rangka pengambilan keputusan. 15

Karakteristik Umum n n Subject Oriented : orientasi pembuatan model lebih menekankan aspek “integrasi Karakteristik Umum n n Subject Oriented : orientasi pembuatan model lebih menekankan aspek “integrasi akses”, bukan model yang lebih menekankan kemudahan eksekusi transaksi operational (seperti halnya pada database). Data lengkap untuk subject tertentu. Integrated : menyatukan data dari berbagai sumber (heterogenous resources : database, spread-sheet, file, etc. ). Dapat diakses dari berbagai sudut pandang. n Time variant : data teritengrasi dengan deskripsi “waktu” (historical data). Data lengkap dari sisi periode (historical). 16

Data Warehouse - Arsitektur 17 Data Warehouse - Arsitektur 17

Data Warehouse - Subject oriented n n Diorientasikan kepada subjek-subjek utama yang terkait dengan Data Warehouse - Subject oriented n n Diorientasikan kepada subjek-subjek utama yang terkait dengan korporasi yang telah didefinisikan di dalam model data Basis data operasional mengandung sejumlah subjek yang menjadi kandidat pengelompokan dalam data warehouse • Perusahaan asuransi: pelanggan, produk, transaksi atau aktifitas, policy, claim, rekening, dll. • Toko buku: pelanggan, buku, majalah, pegawai, supplier n Pengorganisasian basis data operasional dapat dilakukan dengan cara beragam 18

Data Warehouse - Integrated n n Tidak terdapat konsistensi dalam pengkodean, penamaan, … antara Data Warehouse - Integrated n n Tidak terdapat konsistensi dalam pengkodean, penamaan, … antara sumber data yang berbeda Saat data dipindahkan ke data warehouse, harus dikonversi ke suatu konvensi tertentu 19

Data Warehouse - Non Volatile n n Data operasional diakses secara reguler dan manipulasi Data Warehouse - Non Volatile n n Data operasional diakses secara reguler dan manipulasi atau update juga dilakukan terhadap data dalam lingkungan pengoperasian Data pada data warehouse diload pada waktu-waktu tertentu dan diakses. Update terhadap data tidak pernah muncul di dalam lingkungan data warehouse 20

Data Warehouse - Time Variance n n n Þ Horizon waktu bagi data warehouse Data Warehouse - Time Variance n n n Þ Horizon waktu bagi data warehouse jauh lebih panjang dari pada yang terdapat di sistem operasional Basis data operasional menyimpan nilai current dari data. Data pada data warehouse akan berbentuk sekumpulan snapshots yang diambil pada waktu-waktu tertentu Struktur kunci dari data operasional tidak selalu mengandung elemen waktu. Struktur kunci dari data warehouse selalu mengandung elemen waktu Konsep-konsep pada basis data temporal berlaku terhadap data warehouse 21

Alasan Data Warehouse yang terpisah dari basis data n Performansi • organisasi data khusus, Alasan Data Warehouse yang terpisah dari basis data n Performansi • organisasi data khusus, metode akses, dan metode implementasi dibutuhkan untuk mendukung view dan operasi multidimensi yang merupakan ciri dari OLAP • query kompleks untuk OLAP akan menurunkan performansi dari transaksi operasional • kontrol konkurensi dan pemulihan pada OLTP tidak kompatibel dengan analisis OLAP n Fungsi • data yang hilang: data historis biasanya tidak dikelola basis data operasional • konsolidasi data: agregasi dan sumarisasi data dari berbagai sumber • kualitas data: terdapat perbedaan representasi, kode, dan format 22

ARSITEKTUR DW n PROSES/FASILTIAS UMUM : • Pemasukan DATA [cleaning, integration, transformation, and reduction] ARSITEKTUR DW n PROSES/FASILTIAS UMUM : • Pemasukan DATA [cleaning, integration, transformation, and reduction] • Akses Data (READ) • Analytical Tools (statistik, dll. ). 23

Multitiered Architecture metadata other Sources OLAP Server Monitor & Integrator Extract Transform Load Refresh Multitiered Architecture metadata other Sources OLAP Server Monitor & Integrator Extract Transform Load Refresh Serve Data Warehouse Operational DBs Data Sources Analysis Query Reports Data mining Tools Data Marts 24

Sumber Data n n Sumber data sering kali sistem-sistem operasional, yang menyediakan data pada Sumber Data n n Sumber data sering kali sistem-sistem operasional, yang menyediakan data pada level terendah Sumber data didesain untuk penggunaan operasional, dan bukan untuk kebutuhan pengambilan keputusan fakta ini direfleksikan oleh data Sumber data yang banyak sering kali berasal dari sistem yang berbeda yang berjalan di perangkat keras yang berbeda dengan perangkat lunak yang dibangun in-house atau sudah dikustomisasi Sumber data yang banyak memunculkan sejumlah besar isu konflik semantik 25

Data Preprocessing 26 Data Preprocessing 26

The need of data preprocessing n Problems with huge real-world database • Incomplete data The need of data preprocessing n Problems with huge real-world database • Incomplete data : missing value • Noisy • Inconsistent Influence data mining process, especially pattern mined 27

Techniques n n Data cleaning integration transformation reduction Improve the quality of the pattern Techniques n n Data cleaning integration transformation reduction Improve the quality of the pattern mined and/or the time required for the actual mining 28

Data Cleaning Correct the : n Anomaly in the data n Data Inconsistent n Data Cleaning Correct the : n Anomaly in the data n Data Inconsistent n Missing entries n Violation of integrity constraints 29

Pembersihan Data (Data Cleaning) n n Hal yang penting bagi data warehouse, karena data Pembersihan Data (Data Cleaning) n n Hal yang penting bagi data warehouse, karena data dari berbagai sumber sering kali ‘kotor’ Terdapat tiga kelas kakas: • Migrasi Data: transformasi data sederhana • Scrubbing Data: menggunakan pengetahuan yang domain-specific • Audit Data: menemukan aturan dan keterhubungan melalui proses pembacaan (scan) terhadap data (menemukan keterurutan) 30

Data Cleaning – Missing values Tuples have no recorded value for several attributes n Data Cleaning – Missing values Tuples have no recorded value for several attributes n Ignore the tuple n Fill in the missing value • Using global constant • Using ‘measured’ values : attribute mean, most probable value 31

Data Cleaning – Noisy Random error or variance in a measured variable n Binning Data Cleaning – Noisy Random error or variance in a measured variable n Binning smooth a sorted data value by consulting its ‘neighborhood’ local smoothing 32

Clustering Detect the outliers by grouping similar values Regression smooth data by fitting data Clustering Detect the outliers by grouping similar values Regression smooth data by fitting data to a function, such as regression linear regression, multiple linier regression n 33

Data Integration n n Combine data from multiple sources into coherent data store Schema Data Integration n n Combine data from multiple sources into coherent data store Schema integration: entity identification problem Redundancy: detected by correlation analysis Detection & resolution of data value conflict: semantic heterogenity & different representation 34

Data Transformation n n Data are transformed or consolidated into forms appropriate for mining Data Transformation n n Data are transformed or consolidated into forms appropriate for mining Involve: • Smoothing • Aggregation • Generalisation • Normalisation 35

Data Reduction n n Reduce representation of data set that is much smaller in Data Reduction n n Reduce representation of data set that is much smaller in volume, while maintains the integrity of the original data. Strategies: • Data cube aggregation • Dimension reduction • Data compression 36

Load dan Refresh n n Loading ke data warehouse mencakup sejumlah pemrosesan lainnya: memeriksa Load dan Refresh n n Loading ke data warehouse mencakup sejumlah pemrosesan lainnya: memeriksa batasan integritas, pengurutan, sumarisasi, pembangunan indeks, dll. Refreshing sebuah data warehouse berarti mempropagasi perubahan terhadap data sumber ke data yang tersimpan di dalam data warehouse • kapan harus melakukan refresh n ditentukan oleh penggunaan, tipe dari sumber data, dll. • bagaimana cara refresh n n data shipping: menggunakan triggers untuk mengubah tabel log snapshot dan mempropagasi data yang berubah itu ke data warehouse transaction shipping: mengirimkan perubahan yang terdapat di log transaksi 37

Monitor n Mendeteksi perubahan yang terjadi terhadap sumber informasi yang merupakan “interest” dari data Monitor n Mendeteksi perubahan yang terjadi terhadap sumber informasi yang merupakan “interest” dari data warehouse • mendefinisikan triggers • mengawasi perubahan yang terjadi pada file log • membuat program n Mempropagasi perubahan dalam bentuk yang umum ke integrator 38

Integrator n Menerima perubahan dari monitor • mengubah data ke dalam bentuk yang sesuai Integrator n Menerima perubahan dari monitor • mengubah data ke dalam bentuk yang sesuai dengan skema yang terdapat pada data warehouse n Mengintegrasikan perubahan ke dalam data warehouse • menggabungkan data dengan data lain yang telah ada • menyelesaikan kemungkinan anomali yang dapat muncul 39

Metadata Repository n Metadata administratif • • • basis data sumber dan isinya deskripsi Metadata Repository n Metadata administratif • • • basis data sumber dan isinya deskripsi gateway skema data warehouse, view, dan definisi data turunan dimensi dan hirarki query dan laporan yang pre-defined lokasi dan isi dari data marts partisi data ekstraksi data, pembersihan, aturan transformasi, nilai default aturan untuk refresh dan purge terhadap data profil pengguna dan pengelompokan pengguna security: otorisasi pengguna, kontrol akses 40

Struktur Data DW n DATA CUBE (multi dimentional) CABANG PENJUALAN WAKTU/SAAT PRODUK 41 Struktur Data DW n DATA CUBE (multi dimentional) CABANG PENJUALAN WAKTU/SAAT PRODUK 41

CABANG PENJUALAN WAKTU/SAAT PRODUK Multi-dimensional view (mis. ) : 1. Penjualan “produk” dari waktu CABANG PENJUALAN WAKTU/SAAT PRODUK Multi-dimensional view (mis. ) : 1. Penjualan “produk” dari waktu ke waktu 2. Penjualan “produk” pada masing-masing cabang 3. Produk yang tersedia. 4. Dll. 42

CABANG Negara KUSTOMER Propinsi Group Kota Kategori Jalan Nama/orang Hari Minggu WAKTU Bulan Nama/produk CABANG Negara KUSTOMER Propinsi Group Kota Kategori Jalan Nama/orang Hari Minggu WAKTU Bulan Nama/produk Brand Kategori PRODUK 1. Rekapitulasi multi-view / multi-dimensi dapat dilayani Oleh DB, jika : TERINTEGRASI (dpt diakses secara logik sebagai Satu kesatuan, LENGKAP (dalam arti sampai ke level primitif, Yang biasanya dicakup oleh DB OLTP), dan ………. . 2. DBMS pada umumnya mengembangkan fasilitas untuk dapat Mendukung OLAP. 43

Metadata Repository 2 n Data bisnis • • • n peristilahan definisi bisnis kepemilikan Metadata Repository 2 n Data bisnis • • • n peristilahan definisi bisnis kepemilikan data charging policies Metadata operasional • data lineage: sejarah migrasi data dan urutan transformasi yang dikenakan • kekinian data: aktif, archived, purged • informasi monitoring: statistik penggunaan data warehouse, laporan kesalahan, audit trails 44

Data Marts n n n Sebuah data mart (disebut juga data warehouse departemental) adalah Data Marts n n n Sebuah data mart (disebut juga data warehouse departemental) adalah sebuah sistem yang mengumpulkan data yang dibutuhkan oleh sebuah departemen atau aplikasi yang terkait Data marts dapat diimplementasikan di dalam data warehouse dengan cara membuat view yang khusus, spesifik untuk aplikasi tertentu Data marts dapat juga diimplementasikan sebagai materialized view subjek departemental yang difokuskan kepada subjek tertentu • materialized views adalah view yang tupel hasilnya disimpan n Data marts dapat memiliki representasi yang berbeda dan menggunakan OLAP engines tersendiri 45

Tools lainnya n Antar muka pemakai yang memungkinkan pemakai melakukan interaksi dengan data warehouse Tools lainnya n Antar muka pemakai yang memungkinkan pemakai melakukan interaksi dengan data warehouse • kakas untuk query dan pelaporan melakukan analisis data mining 46

Perancangan Sistem n n n n n Perencanaan kapasitas - pendefinisian arsitektur Integrasi servers, Perancangan Sistem n n n n n Perencanaan kapasitas - pendefinisian arsitektur Integrasi servers, media penyimpanan, clients Perancangan skema data warehouse, views Perancangan organisasi fisik data warehouse: penempatan data, partisi, metode akses Menghubungkan sumber: gateways, ODBC drivers Perancangan dan implementasi scripts untuk ekstraksi data, load, dan refresh Pendefinisian metadata dan populasi repository Perancangan dan implementasi aplikasi pengguna Roll out data warehouse dan aplikasi 47

Pembangunan Data Warehouse n Top Down • Membuat rancangan data warehouse keseluruhan • Menentukan Pembangunan Data Warehouse n Top Down • Membuat rancangan data warehouse keseluruhan • Menentukan sumber data dan mekanisme pengintegrasian data ke data warehouse n Bottom Up • Membuat data marts untuk setiap sub sistem yang ada • Menggabungkan data marts-data marts yang telah terbentuk untuk menghasilkan sebuah data warehouse yang utuh 48