DAFTAR ISI
PEMBAHASAN
- Import data
- Penghitungan IPS Setiap Semester
- Penggabungan Ips Permahasiswaan Dengan Dataset Berdasarkan Nim
- Menghitung Durasi Studi
- Melakukan Pembersihan Data
- Setandarisasi Format Tanggal Dan Jenis Kelamin
- Hubungan Antara IPS/Mata Kuliah Dengan Lulusan Tepat Waktu
- Hubungan Antara Predikat Kelulusan ‘Pujian’ Dengan Lulusan Tepat Waktu
- Durasi Studi Dan Predikat Kelulusan
- Analisis Perbedaan Prestasi Akademik
Dalam tutorial ini Anda akan:
1. Integrasi dan Pembersihan Data.
- Cari IPS setiap semester permahasiswa. ini bisa memudahkan untuk normalisasi data
- Gabungkan IPS permahasiswa dengan dataset yang lainya ("ms_lulusan") berdasarkan NIM.
- Tambahkan hasil dari durasi studi masing-masing mahasiswa
- Lakukan pembersihan data, termasuk mengidentifikasi dan mengatasi nilai yang hilang atau tidak konsisten dalam data. Hilangkan mahasiswa pindahan.
- Standardisasi format tanggal dan jenis kelamin untuk analisis lebih lanjut.
2. Analisis.
- Analisis apakah ada hubungan antara nilai rata-rata mata kuliah atau IPS dengan lulusan tepat waktu.
- Analisis apakah ada korelasi positif antara predikat kelulusan 'Pujian' dengan lulusan tepat waktu
- Analisis untuk melihat apakah durasi studi lebih pendek berkorelasi dengan predikat kelulusan yang lebih baik
- Hitung rata-rata nilai total untuk masing-masing jenis kelamin dan bandingkan untuk melihat apakah ada perbedaan signifikan dalam prestasi akademik berdasarkan jenis kelamin
- atau gabungan dari beberapa variabel yang mempengaruhi lulusatepat waktu
Integrasi Data:
Integrasi data adalah proses menggabungkan data dari berbagai sumber atau format menjadi satu dataset yang terpadu. Tujuannya adalah untuk membuat dataset yang lengkap dan konsisten yang dapat digunakan untuk analisis lebih lanjut. Proses integrasi data sering melibatkan identifikasi entitas yang sama dari berbagai sumber data dan menggabungkannya ke dalam satu format yang konsisten. Ini melibatkan transformasi dan konsolidasi data dari berbagai format seperti file flat, database, data streaming, dan lainnya. Integrasi data penting karena memungkinkan organisasi untuk memiliki pandangan yang komprehensif dan terpadu tentang informasi yang mereka miliki.
Pembersihan Data:
Pembersihan data adalah proses mengidentifikasi, menangani, dan memperbaiki masalah atau ketidaksempurnaan dalam dataset. Masalah yang umumnya dihadapi dalam data termasuk nilai yang hilang, duplikat, format yang tidak sesuai, outlier, dan kesalahan pengetikan. Proses pembersihan data melibatkan langkah-langkah seperti deteksi nilai yang hilang, penghapusan data duplikat, pengisian nilai yang hilang dengan estimasi yang tepat, transformasi format data, dan penghapusan outlier yang tidak relevan. Pembersihan data penting karena data yang bersih dan berkualitas mendukung keakuratan analisis dan pengambilan keputusan yang tepat.
Analisis Data:
Analisis data adalah proses ekstraksi wawasan yang bermanfaat dari dataset untuk mendukung pengambilan keputusan. Tujuannya adalah untuk memahami pola, tren, hubungan, dan anomali dalam data yang dapat digunakan untuk mengidentifikasi peluang atau masalah. Analisis data melibatkan penggunaan teknik statistik, pemodelan matematika, visualisasi data, dan algoritma pembelajaran mesin untuk mengeksplorasi dan memahami struktur data. Metode analisis data dapat bervariasi tergantung pada tujuan analisis dan jenis data yang digunakan. Hasil dari analisis data dapat digunakan untuk mendukung pengambilan keputusan, perencanaan strategis, prediksi, dan pemecahan masalah.
Import data
Program tersebut adalah contoh penggunaan Python untuk mengambil data dari sebuah URL menggunakan modul requests, kemudian mengonversinya menjadi DataFrame menggunakan pandas. Setelah mendefinisikan URL sumber data dan header API-Key, program mengirimkan permintaan HTTP GET dengan header yang ditentukan. Jika respons berhasil diterima (status code 200), data JSON dari respons disimpan dan diubah menjadi DataFrame. Selanjutnya, program mencetak jumlah data yang diterima dan 10 baris pertama dari DataFrame. Jika
Tampilan Dataset
Penghitungan IPS Setiap Semester
Cara menambahkan kolom baru yang disebut 'nilai_ips' ke dalam DataFrame 'df_transkrip'. Kolom ini diisi dengan hasil pembagian nilai_total oleh sks_mk pada setiap baris DataFrame. Proses ini dilakukan menggunakan fungsi 'div' dari pandas, yang membagi setiap nilai dalam kolom 'nilai_total' dengan nilai yang sesuai dalam kolom 'sks_mk'.
Tampilan dataset yang telah di isi nilai ips
Akibatnya, setiap entri dalam kolom 'nilai_ips' mewakili nilai Indeks Prestasi Semester (IPS) untuk setiap mata kuliah dalam DataFrame. Dengan menambahkan kolom 'nilai_ips', DataFrame diperbarui untuk mencerminkan nilai IPS yang baru dihitung. Dengan demikian, kode ini memperbarui DataFrame dengan nilai IPS untuk setiap mata kuliah, memungkinkan analisis lebih lanjut dari data tersebut.
Penggabungan Ips Permahasiswaan Dengan Dataset Berdasarkan Nim
Menggabungkan dua DataFrame, yaitu 'df_transkrip' dan 'df_lulusan', menjadi satu DataFrame baru yang disebut 'df_gabungan'. Penggabungan dilakukan berdasarkan kolom 'nim', yang merupakan kunci untuk menghubungkan kedua DataFrame. Parameter 'how' disetel ke 'inner', yang berarti hanya baris yang memiliki nilai kunci yang cocok di kedua DataFrame akan dimasukkan ke dalam DataFrame gabungan. Sebagai contoh, jika terdapat nilai 'nim' yang sama di kedua DataFrame, baris tersebut akan dimasukkan ke dalam 'df_gabungan'. Hasilnya adalah DataFrame baru yang menggabungkan informasi dari kedua DataFrame sumber, memungkinkan analisis yang lebih lengkap atau pemrosesan data yang melibatkan informasi dari keduanya.

Menghitung Durasi Studi
Kode di atas menambahkan kolom baru ke dalam DataFrame 'df_gabungan' yang disebut 'durasi_studi'. Kolom ini berisi perhitungan durasi studi dalam tahun untuk setiap entri dalam DataFrame. Perhitungan ini dilakukan dengan mengurangi tanggal masuk (kolom 'tgl_masuk') dari tanggal lulus (kolom 'tanggal_lulus'), menghasilkan selisih dalam bentuk objek timedelta. Kemudian, menggunakan atribut '.dt.days', selisih tersebut dikonversi menjadi jumlah hari. Setelah itu, hasilnya dibagi oleh 365 untuk mengonversi durasi dalam hari menjadi tahun. Akhirnya, hasilnya disimpan dalam kolom 'durasi_studi'. Dengan menambahkan kolom 'durasi_studi' ini, DataFrame 'df_gabungan' diperbarui dengan informasi tambahan mengenai durasi studi untuk setiap entri, yang dapat digunakan untuk analisis atau pemrosesan data lebih lanjut.

Melakukan Pembersihan Data
Kode pertama, `df_gabungan.isnull().sum()`, digunakan untuk menghitung jumlah nilai null (NaN) dalam setiap kolom DataFrame 'df_gabungan'. Ini membantu dalam mengetahui seberapa lengkapnya data dalam DataFrame tersebut dengan menampilkan jumlah nilai null dalam setiap kolom.
Selanjutnya, `df_gabungan.drop_duplicates()`, digunakan untuk menghapus baris-baris yang merupakan duplikat dari DataFrame 'df_gabungan'. Duplikat didefinisikan sebagai baris-baris yang memiliki nilai yang sama di semua kolom. Dengan menggunakan fungsi ini, DataFrame akan dipertahankan hanya dengan satu baris unik untuk setiap kombinasi nilai dalam kolom-kolomnya.
Menampilkan Dataset Yang Sudah Dibersihkan
Selanjutnya, `df_gabungan = df_gabungan.drop(df_gabungan[df_gabungan['status_masuk'] == 1].index)`, bertujuan untuk menghapus baris-baris di mana nilai dalam kolom 'status_masuk' sama dengan 1. Untuk melakukannya, terlebih dahulu dibuat sebuah DataFrame sementara yang berisi baris-baris yang memiliki nilai 'status_masuk' sama dengan 1. Kemudian, baris-baris tersebut dihapus dari DataFrame utama 'df_gabungan' menggunakan fungsi `drop()` dengan menyertakan indeks baris-baris yang akan dihapus.
Menghapus Mahasiswa Pindahan
Memastikan Penghapusan Mahasiswa Pindahan
Dengan menggunakan ketiga kode tersebut, DataFrame 'df_gabungan' dimodifikasi untuk mengurangi nilai null, menghapus duplikat, dan menghapus baris-baris dengan nilai 'status_masuk' yang sama dengan 1, sesuai dengan kebutuhan analisis atau pemrosesan data yang dilakukan.
Setandarisasi Format Tanggal Dan Jenis Kelamin
Kode pertama, `df_gabungan['tanggal_lulus'] = df_gabungan['tanggal_lulus'].dt.strftime('%Y-%m-%d')`, digunakan untuk mengubah format tanggal pada kolom 'tanggal_lulus' dalam DataFrame 'df_gabungan'. Fungsi `dt.strftime('%Y-%m-%d')` digunakan untuk mengonversi setiap entri dalam kolom 'tanggal_lulus' menjadi format tanggal yang diinginkan, yaitu 'YYYY-MM-DD'.
Gambar

Selanjutnya, `df_gabungan['jenis_kelamin'] = df_gabungan['jenis_kelamin'].replace({0: 'Perempuan',1: 'Laki-laki'})`, digunakan untuk mengganti nilai dalam kolom 'jenis_kelamin' dengan nilai yang lebih deskriptif. Nilai 0 diganti dengan 'Perempuan', sedangkan nilai 1 diganti dengan 'Laki-laki'. Ini membantu dalam membuat data lebih mudah dimengerti dan diinterpretasikan.
Dengan menggunakan kode tersebut, DataFrame 'df_gabungan' dimodifikasi untuk memperbaiki format tanggal pada kolom 'tanggal_lulus' dan mengganti nilai numerik dalam kolom 'jenis_kelamin' dengan label yang lebih deskriptif, sesuai dengan kebutuhan analisis atau presentasi data
Standarisasi Jenis Kelamin
Hubungan Antara IPS/Mata Kuliah Dengan Lulusan Tepat Waktu
Mengeksplorasi hubungan antara nilai IPS dan status kelulusan tepat waktu dalam dataset. Pertama, dilakukan perhitungan korelasi antara kedua variabel tersebut. Selanjutnya, hasilnya divisualisasikan melalui scatter plot menggunakan seaborn dan matplotlib. Dalam plot tersebut, sumbu x mewakili nilai IPS, sedangkan sumbu y menunjukkan status lulus tepat waktu bagi setiap siswa. Judul plot mencantumkan nilai korelasi antara kedua variabel tersebut, yang menggambarkan tingkat keterkaitan di antara keduanya. Melalui visualisasi ini, dapat dipahami apakah ada pola atau tren yang dapat diamati antara nilai IPS dan status kelulusan tepat waktu dalam dataset.
HUBUNGAN antara IPS/Mata kuliah dengan
Hubungan Antara Predikat Kelulusan ‘Pujian’ Dengan Lulusan Tepat Waktu
Mengeksplorasi hubungan antara predikat kelulusan "Pujian" dan kelulusan tepat waktu dalam sebuah dataset. Pertama, data disaring untuk memilih hanya siswa yang mendapat predikat "Pujian" dan lulus tepat waktu. Jumlah siswa yang memenuhi kriteria ini dihitung. Selanjutnya, dihitung pula jumlah total siswa yang mendapat predikat "Pujian". Korelasi antara predikat "Pujian" dan lulus tepat waktu kemudian dihitung dengan membagi jumlah siswa yang memenuhi kedua kriteria dengan jumlah total siswa yang mendapat predikat "Pujian"
Hubungan antara predikat kelulusan ‘pujian’ dengan lulusan tepat waktu
Durasi Studi Dan Predikat Kelulusan
Mengecek hubungan antara durasi studi dan nilai grade dalam sebuah dataset. Pertama, kolom 'grade' dipastikan memiliki tipe data numerik dengan menggunakan fungsi pd.to_numeric(). Selanjutnya, dilakukan perhitungan korelasi antara durasi studi dalam bulan dengan nilai grade menggunakan metode .corr(). Hasil korelasi kemudian dicetak untuk menunjukkan seberapa erat hubungan antara kedua variabel tersebut. Dengan langkah-langkah ini, kita dapat mengetahui apakah terdapat hubungan antara durasi studi dan nilai grade, serta seberapa kuatnya hubungan tersebut berdasarkan nilai korelasi yang dihasilkan

Hasil Output Durasi Studi dan predikat kelulusan
Analisis Perbedaan Prestasi Akademik
Membandingkan rata-rata nilai total antara siswa perempuan dan laki-laki dalam sebuah dataset. Pertama, data disaring berdasarkan jenis kelamin untuk mendapatkan dua kelompok data terpisah: perempuan dan laki-laki. Kemudian, rata-rata nilai total dihitung untuk masing-masing kelompok. Selanjutnya, dilakukan uji perbedaan signifikan antara kedua kelompok menggunakan uji t-student dengan bantuan library scipy.stats. Hasil uji, berupa nilai t-statistik dan nilai p, dicetak untuk menentukan apakah perbedaan rata-rata tersebut signifikan atau tidak.
Analisis Perbedaan Prestasi Akademik
Nilai alpha yang digunakan adalah 0.05. Jika nilai p lebih kecil dari alpha, maka diinterpretasikan bahwa terdapat perbedaan signifikan dalam prestasi akademik antara kedua jenis kelamin. Namun, jika nilai p lebih besar dari alpha, maka diinterpretasikan bahwa tidak terdapat perbedaan signifikan dalam prestasi akademik berdasarkan jenis kelamin. Dengan demikian, kita dapat memahami apakah terdapat perbedaan yang signifikan dalam prestasi akademik antara siswa perempuan dan laki-laki berdasarkan nilai total yang mereka peroleh.
Komentar
Posting Komentar