[UAS] Klasifikasi Komentar Pada Facebook Dengan Menggunakan Linear Regression

Judul : Klasifikasi Komentar Pada Facebook Dengan Menggunakan Linear Regression
Metode : Klasifikasi dengan algoritma Linear Regression
Tools : Jupyter Notebook

Latar Belakang

Menurut We are social Hootsuite yang dirilis Juni 2019, sebanyak 3,5 miliar masyarakat dunia sudah menggunakan media sosial.Termasuk negara Indonesia sendiri.Data Statista 2019 menunjukkan pengguna internet di Indonesia pada 2018 sebanyak 95,2 juta, tumbuh 13,3% dari 2017 yang sebanyak 84 juta pengguna. Pada tahun selanjutnya pengguna internet di Indonesia akan semakin meningkat dengan rata-rata pertumbuhan sebesar 10,2% pada periode 2018-2023. Pada 2019 jumlah pengguna internet di Indonesia diproyeksikan tumbuh 12,6% dibandingkan 2018, yaitu menjadi 107,2 juta pengguna. Statista juga menyebutkan kegiatan online yang populer di Indonesia adalah media sosial dan perpesanan seluler. Adapun jejaring sosial yang paling banyak digunakan adalah Facebook, dengan jumlah pengguna mencapai 48% populasi.
“Facebook” terdiri dari dua frasa dalam Bahasa Inggris. Face yang berarti muka sedangkan book yang berarti buku.Definisi secara lengkapnya, Facebook adalah sebuah situs jejaring sosial yang memungkinkan pengguna dapat saling berinteraksi dengan pengguna lainnya di seluruh dunia. Frasa “Buku Muka” merupakan prinsip dasar yang membedakan facebook dengan jejaring sosialnya, yaitu menampilkan seluruh informasi dari pengguna tersebut.
Jejaring sosial ini banyak memberikan dampak kepada masyarakat Indonesia, mulai dari dampak positif maupun dampak negatif.Contoh dari dampak positifnya adalah masyarakat mudah mendapatkan informasi di dalam negeri maupun luar negeri secara up to date, dapat membantu pengguna dalam menyebarkan promosi dagangannya, dapat menjadi wadah untuk mencurahkan isi fikiran dan hati, dan masih banyak manfaat positif lainnya.
Akan tetapi, dibalik banyaknya dampak positif banyak pula dampak negatif yang akan didapatkan melalui jejaring sosial ini.Diantaranya, pengguna akan mudah mendapatkan postingan yang tidak layak, seperti gambar atau video yang tidak senonoh tanpa sensor, mudahnya mengkonsumsi berita hoax, dan yang paling banyak terjadi adalah beberapa public figure yang memiliki pengikut banyak akan dengan mudahnya mendapatkan komentar yang tidak baik pada postingannya.Hal ini terjadi karena tidak semua pengguna Facebook bijak dalam menggunakannya.Sehingga banyak dari pengguna melanggar etika dalam menggunakan jejaring sosial ini.Komentar yang banyak ditemukan pada Facebook itu sendiri adalah komentar yang mengandung bullying, hate speech, SARA, rasis, dan sex harassment.
Oleh karena itu, penulis ingin membuat sebuah machine learning, dimana dapat melakukan proses filtering komentar.Kemudian komentar yang disaring akan diklasifikasikan menjadi komentar positif dan komentar negatif.Untuk komentar negatif yang didapatkan, akan diklasifikasikan ke beberapa kelompok.Sehingga, pembaca mengetahui yang mana termasuk komentar bullying, hate speech, SARA, rasis, dan sex harassment.
Maka dari itu, penulis mengusulkan menerapkan metode Linear Regression pada penelitian ini, dengan menggunakan tools jupyter notebook untuk membuat sebuah filtering komentar, yang diharapkan dapat mengelompokkan jenis-jenis komentar negatif yang terdapat pada facebook.Penelitian diusulkan dengan judul Klasifikasi Komentar Negatif Pada Facebook Dengan Menggunakan Algoritma Linear Regression”.

Rumusan Masalah

Berdasarkan latar belakang di atas, maka dapat diidentifikasikan masalah sebagai berikut:
1.     Banyaknya pengguna Facebook dengan bebas membagikan komentar positif dan negatif kepada pengguna lain.
2.     Diperlukannya suatu aplikasi untuk menyaring dan mengklasifikasikan komentar Bahasa Indonesia pada Facebook.

Tujuan dan Manfaat Penelitian

            Tujuan yang ingin dicapai dari penelitian ini adalah untuk menghasilkan suatu aplikasi penyaring dan klasifikasi komentar Berbahasa Indonesia dengan menggunakan Algoritma Linear Regression.
Manfaat dari penelitian ini adalah:
1.Tersedianya aplikasi berbasis web yang dapat digunakan untuk menyaring dan mengklasifikasikan komentar Berbahasa Indonesia.
2. Dapat menerapkan perhitungan metode Algoritma Linear Regression pada penelitian klasifikasi komentar Berbahasa Indonesia di Facebook

Tinjauan Pustaka

Pertama, penelitian berjudul Klasifikasi Sentyment Analysis Pada Komentar Peserta Diklat Menggunakan Metode K-Nearest Neighbor.Penelitian ini bertujuan untuk memperoleh masukan-masukan berupa komentar dari para peserta diklat sebagai bahan evaluasi proses pembelajaran serta menggambarkan tingkat kepuasan peserta terhadap proses diklat.Akan tetapi, pengolahan data komentar masih dengan proses merekap satu per satu, mulai dari komentar positif maupun negatif.Maka, penulis menerapkan sentiment analysis untuk proses Analisa apakah komentar tersebut bersifat positif atau negatif.Metode yang digunakan dalam penelitian ini adalah metode K-Nearest Nighbor.Dari hasil pengujian, didapatkan nilai akurasi sebesar 94,23% (Ulfah, Riki, & Rakhmat, 2019).
Kedua, penelitian berjudul Klasifikasi Komentar Spam Pada Instagram Berbahasa Indonesia Menggunakan K-NN.Penelitian ini menggunakan klasifikasi teks untuk menyaring komentar-komentar spam Berbahasa Indonesia di instagram yang terdapat pada kolom komentar public figure yang memiliki followers diatas 10juta.Metode klasifikasi yang diimplementasikan adalah K-Nearest Neighbor.Hasil pengujian masuk dalam kategori yang sangat baik, yaitu sebesar 87,07% (Antonius & Yuan, 2017).
Ketiga, penelitian berjudul Twitter Content Classification.Penelitian ini bertujuan untuk melakukan klasifikasi konten yang ada pada Twitter.Data diperoleh dari sekumpulan teks yang berasal dari balasan antara pengguna Twitter satu dengan lainnya (@RT) atau teks yang berasal dari sekumpulan tagar(#).Penelitian ini akan mengklasifikasikan 6 jenis kategori besar, dan 23 subkategori terperinci.Dari penelitian ini, akan dihasilkan beberapa konten berupa konten berita, olahraga, siaran langsung, dan cuaca.Metode yang digunakan adalah grounded theory (Stephen, 2010).
Keempat, penelitian berjudul SVM and Na¨ıve Bayes Classification Ensemble Method for Sentiment Analysis”. Ide utama dari penelitian ini adalah memperkenalkan dan menguji metode baru dengan dataset yang berasal dari berbagai media dan memiliki ukuran yang berbeda. Dengan membandingkan metode dari algoritma SVM dan Na¨ıve Bayes.Yang bertujuan untuk menganalisa sentiment yang ada pada ulasan film, tweet dan ulasan Amazon.Hasil percobaan menunjukkan bahwa metode SVM dan Na¨ıve Bayes unggul dalam semua percobaan.Metode SVM unggul dari (ACC) 0,14% hingga 0,67% dan Na¨ıve Bayes (ACC) dari 2,84% hingga 6,99% (Konstantinas, Paulius & Gintautas, 2017).
Kelima, penelitian berjudul Klasifikasi pesan gangguan pelanggan menggunakan metode naïve bayes classifier”.Penelitian ini bertujuan untuk melakukan filtering pesan gangguan pelanggan di suatu daerah.Metode yang digunakan adalah metode naïve bayees classifier dengan text mining sebagai pemroses data awal dari aplikasi.Pengklasifikasian pesan gangguan ini menghasilkan akurasi dari nilai probabilitas sebesar 95% sedangkan kesalahan sebesar 5% dapat disebabkan karena banyaknya kata-kata yang mirip pada setiap kelas sehingga memiliki bobot kata yang berdekatan (Haryono, Prita, Yessy & Andi, 2018).



Metode Penelitian

TF-IDF

Metode TF-IDF merupakan metode untuk menghitung bobot setiap kata yang paling umum digunakan pada information retrieval. Metode ini juga terkenal efisien, mudah dan memiliki hasil yang akurat. Metode ini akan menghitung nilai Term Frequency (TF) dan Inverse Document Frequency (IDF) pada setiap token (kata) di setiap dokumen dalam korpus. Metode ini akan menghitung bobot setiap token t di dokumen d dengan rumus:
Wdt = tfdt * IDFt
Dimana :
d : dokumen ke-d
t : kata ke-t dari kata kunci
W : bobot dokumen ke-d terhadap kata ke-t
tf : banyaknya kata yang dicari pada sebuah dokumen
IDF : Inversed Document Frequency

Nilai IDF didapatkan dari IDF : log2 (D/df) dimana :
D : total dokumen
df : banyak dokumen yang mengandung kata yang dicari
Setelah bobot (W) masing-masing dokumen diketahui, maka dilakukan proses pengurutan dimana semakin besar nilai W, semakin besar tingkat similaritas dokumen tersebut terhadap kata kunci, demikian sebaliknya.

Algoritma Linear Regression

Regresi linear sederhana adalah hubungan secara linear antara satu variabel independen (X) dengan variabel dependen (Y). Analisis ini digunakan untuk mengetahui arah hubungan antara variabel independen dengan variabel dependen apakah positif atau negatif serta untuk memprediksi nilai dari variabel dependen apabila nilai variabel independen mengalami kenaikan atau penurunan nilai. Data yang digunakan biasanya berskala interval atau rasio.Rumus dari dari analisis regresi linear sederhana adalah sebagai berikut:
Y’ = a + bX
Keterangan:
Y= subyek dalam variabel dependen yang diprediksi
a = harga Y ketika harga X= 0 (harga konstan)
b = angka arah atau koefisien regresi, yang menunjukkan angka peningkatan ataupun penurunan variabel dependen yang didasarkan pada perubahan variabel independen. Bila (+) arah garis naik, dan bila (-) maka arah garis turun.
X = subyek pada variabel independen yang mempunyai nilai tertentu.
Secara teknik harga b merupakan tangent dari perbandingan antara panjang garis variabel dependen, setelah persamaan regresi ditemukan.

untuk hasil, pembahasan, dan kesimpulan dapat dilihat pada link : https://drive.google.com/drive/u/0/my-drive

Komentar

Postingan populer dari blog ini

UCI Machine Learning

Algoritma Dan Metode Data Mining

Data Mining