Page 57 - E Modul Data Analytics
P. 57

Data Analytics







               Atribut  yang  sama  dapat  Contohnya  ketinggian  dapat  diukur  dengan  satuan  kaki

               dipetakan  ke  nilai  atribut  atau meter.
               yang berbeda.




               Atribut     yang      berbeda  Contohnya  nilai  atribut  untuk  ID  dan  umur  adalah

               dapat       dipetakan        ke  bilangan bulat, tetapi sifat dari nilaiatribut dapat berbeda.
               himpunan nilai yang sama.  ID tidak terbatas tetapi umur.





                       Atribut  dapat  dibedakan  dalam  tipe  -  tipe  yang  berbeda  bergantung  pada  tipe
               domainnya,  yaitu  bergantung  pada  tipe  nilai  yang  diterima.  atribut  kategorikal  (categorical

               attribute)  adalah  salah  satu  tipe  yang  domainnya  merupakan  sebuah  himpunan  simbol
               berhingga. Contohnya: Jenis kelamin, status, dan pendidikan, dimana domain (jenis kelamin) =

               {L,  P},  domain  (status)  =  {Menikah,  Belum  Menikah},  dan  domain  (Pendidikan) =  {SD,  SMP,
               SMA, D3, S1, S2, S3, lainnya}. Atribut katagorikal dibedakan menjadi dua, yaitu:


                   1.  Nominal
                       Sebuah atribut dikatakan nominal jika nilai -nilainya tidak dapat diurutkan. Contoh: Jenis

                       kelamin, warna mata, Atribut nominal mempunyai sifat pembeda(distinctness).
                   2.  Ordinal

                       Disebut atribut ordinal jika nilai - nilainya dapat diurutkan dalam beberapa cara, contoh:
                       ranking (misal, rasa dari keripik kentang pada skala 1-10), grade, tinggi dalam {tinggi,
                       medium, pendek}.  Sifat dari ordinal tribut adalah pembeda dan urutan (order).


               Himpunan data mempunyai beberapa karakteristik umum yaitu:


                   1.  Dimensionalitas

                       a.  Dimensionalitas dari sebuah dataset adalah jumlah atribut yang dimiliki oleh objek-
                          objek dalam dataset.

                       b.  Untuk  itu  pada  tahap  preprocessing  perlu  dilakukan  pengurangan  dimensi
                          (dimensionality reduction).
                       c.  Kesulitan  yang  berhubungan  dengan  data  dimensi  tinggi  sering  disebut  sebagai

                          curse of dimensionality.



                                                             45
   52   53   54   55   56   57   58   59   60   61   62