Jurnal
Syntax Admiration |
Vol. 2
No. 10 Oktober 2021 |
p-ISSN : 2722-7782 e-ISSN : 2722-5356 |
Sosial Teknik |
Agri Yodi Prayoga, Asep Id Hadiana, Fajri Rakhmat Umbara
Universitas Jenderal Achmad Yani (UNJANI) Jawa Barat, Indonesia
Email: [email protected], [email protected], [email protected]
INFO
ARTIKEL |
ABSTRAK |
Diterima 25 September 2021 Direvisi 05 Oktober 2021 Disetujui 15 Oktober 2021 |
Fenomena yang disebut
sebagai "berita palsu" saat ini mengacu pada publikasi online dari pernyataan fakta palsu yang disengaja. Tujuan pembuatan berita hoax adalah untuk mempengaruhi pembaca berita untuk mencegah tindakan yang benar. Deteksi berita hoax ini berperan penting bagi pemerintah dan masyarakat, sebab itu berita
hoax harus segera dideteksi untuk menghindari efek yang dapat ditimbulkannya. Penelitian ini bertujuan untuk mengetahui performa dari penggunaan algoritma Bernoulli Na�ve Bayes dengan ekstraksi fitur TF-IDF dalam mendeteksi berita hoax. Tahapan penelitian ini disusun sebagai berikut, yaitu pengumpulan data dan labeling, text preprocessing,
ekstraksi fitur dengan TF-IDF, pembagian dataset, classification, Output (Klasifikasi Fake/True), evaluasi, dan kesimpulan.
Hasil implementasi menunjukan
model prediksi yang dibangun
dengan 8800 data berita, mampu menghasilkan nilai akurasi sebesar 98,5% dari jumlah data uji sebanyak 2.200
data berita, dimana akurasi dari prediksi model untuk label 1 (Fake)
sebesar 97,8%, dan akurasi
untuk label 0 (True) sebesar
99,1%, diikuti dengan nilai precision 99,1%, recall 97,8%, dan
f1-score 98,4%. Dari implementasi tersebut penggunaan ekstraksi fitur TF-IDF pada algoritma Bernoulli Naive Bayes mampu meningkatkan akurasi sebesar 16,08%, precision
15,7%, recall 16,22%, dan f1-score 15,92% bila
dibandingkan dengan hasil penelitian sebelumnya. ABSTRACT������������������������� The phenomenon referred
to as "fake news" today refers to the online publication of
deliberately false statements of fact. The purpose of making hoax news is to
influence news readers to prevent the right action. Detection of hoax news
plays an important role for the government and society,
therefore hoax news must be detected immediately to avoid the effects it can
cause. This study aims to determine the performance of using the Bernoulli
Na�ve Bayes algorithm with TF-IDF feature extraction in detecting hoax news.
The stages of this research are structured as follows, namely data collection
and labeling, text preprocessing, feature extraction with TF-IDF, dataset
distribution, classification, Output (Fake/True Classification), evaluation,
and conclusions. The implementation results show that the prediction model
built with 8800 news data, is able to produce an accuracy value of 98.5% of
the total test data of 2,200 news data, where the accuracy of the prediction
model for label 1 (Fake) is 97.8%, and the accuracy for label 1 (Fake) is
97.8%. label 0 (True) is 99.1%, followed by precision value 99.1%, recall
97.8%, and f1-score 98.4%. From this implementation, the use of TF-IDF
feature extraction on the Bernoulli Naive Bayes algorithm is able to increase
accuracy by 16.08%, precision 15.7%, recall 16.22%, and f1-score 15.92% when
compared to the results of previous studies. |
Kata Kunci: tf-idf; bernoulli�s na�ve bayes; text preprocessing; confusion matrix Keywords: tf-idf; bernoulli�s na�ve bayes; text preprocessing; confusion matrix |
Pendahuluan
Di seluruh dunia, pengaruh berita palsu yang semakin meningkat dirasakan setiap hari mulai
dari politik, pendidikan hingga pasar keuangan (Ajao
et al., 2018). Secara historis, akarnya kembali ke abad ke-17 yang berawal dalam bentuk
�Propaganda� yang diubah
menjadi �Misinformasi� di
era Perang Dingin (Gravanis et al., 2019). Fenomena yang disebut sebagai "berita palsu" saat ini mengacu
pada publikasi online dari
pernyataan fakta palsu yang disengaja (Gravanis et al., 2019). Pembuatan berita hoax bertujuan
untuk mempengaruhi pembaca berita untuk melakukan hal-hal yang bertentangan atau mencegah tindakan
yang benar (Rahutomo
et al., 2019). Salah satu
contoh paling mencolok tentang bagaimana berita palsu dapat
memengaruhi opini publik adalah penyebaran
berita palsu melalui platform
media sosial pada saat kampanye presiden AS pada tahun 2016 (Bondielli & Marcelloni, 2019). Penyebarannya begitu cepat karena berita
palsu yang tersebar luas sangat sulit untuk ditangani di dunia digital saat ini, dimana
ada ribuan platform berbagi informasi yang dapat digunakan untuk menyebarkan berita palsu atau
misinformasi (Agarwal et al., 2019), sedangkan sebelum munculnya internet, jurnalis ditugaskan untuk melakukan verifikasi dan pengecekan fakta dari berita
dan sumbernya, sehingga membuat opini publik
terhadap berita palsu semakin terbatas
(Bondielli & Marcelloni, 2019). Untuk itu berita hoax
ini harus segera dideteksi untuk menghindari efek yang dapat ditimbulkannya. Deteksi
ini penting tidak hanya untuk
perusahaan dan media saja namun bagi pemerintah
dan masyarakat juga, dimana
memungkinkan pemerintah mengurangi bahkan menghilangkan penyebaran berita hoax tersebut. Dalam penelitian sebelumnya yang telah mengidentifikasi metode terkini seputar isu-isu kritis dan tren masa depan dalam mendeteksi berita palsu dan rumor (Bondielli & Marcelloni, 2019), dijelaskan bahwa penelitian perihal pendeteksian berita palsu terus
meningkat dari tahun ke tahun
yang dapat diartikan upaya untuk menghilangkan
penyebaran berita palsu ini tidak
pernah berhenti dan terus dilakukan. Dalam penelitian tersebut (Bondielli & Marcelloni, 2019), disebutkan secara khusus sebagian
besar metode yang digunakan untuk melakukan deteksi berita palsu ialah
menggunakan pendekatan machine
learning dengan strategi pembelajaran
yang diawasi (supervised learning strategy) (Bondielli & Marcelloni, 2019). Algoritma machine learning yang dimaksud seperti Support Vector Machine (Gravanis
et al., 2019), Stochastic Gradient Descent (Prasetijo
et al., 2017), Na�ve Bayes (Granik &
Mesyura, 2017), C45 (Prasetijo
et al., 2017) dan K-NN (Ahmed
et al., 2018).
Beberapa penelitian yang mendekati penelitian ini diantaranya penelitian
Singh dkk. (G.
Singh et al., 2019) yang melakukan klasifikasi artikel berita tekstual pada banyak peristiwa penting yang terjadi di India pada tahun 2018 untuk memprediksi apakah sentimen artikel berita yang digunakan positif atau negatif menggunakan
dua pendekatan yaitu Multivariate
Bernoulli Na�ve Bayes dan Multinomial
Na�ve Bayes, hasil yang didapatkan
Multivariate Bernoulli Na�ve adalah 69,15%. Kemudian pada penelitian
Prasetyo dkk. (Prasetyo
et al., 2019) melakukan evaluasi kinerja ekstraksi fitur TF-IDF yang dikombinasikan dengan metode klasifikasi
seperti LSVM, MNB, k-NN, dan Klasifikasi
logistik untuk identifikasi berita hoax
Indonesia. Dataset berita hoax dikumpulkan
dari Dinas Komunikasi dan Informatika Provinsi Jawa Tengah dan www.turnbackhoax.id, akurasi yang didapatkan Multinomial
Na�ve Bayes (MNB) adalah 77, 33%. Pada penelitian (Rahutomo et al., 2019) Rahutomo dkk. melakukan eksperimen klasifikasi Na�ve
Bayes pada deteksi berita
hoax berbahasa Indonesia, dengan
membangun sistem untuk mengklasifikasikan berita daring berbahasa Indonesia
dengan ekstraksi fitur term frequency (TF) dan algoritma
klasifikasi Na�ve Bayes dengan
menggunakan komponen library
PHP-Machine Learning. Menghasilkan
rata-rata akurasi tertinggi
sekitar 83%. Kemudian
Poddar dkk. (Poddar et al., 2019), melakukan deteksi berita palsu dengan menggunakan
model komputasi pembelajaran
mesin probabilistik dan geometris, dimana pada penelitian tersebut membandingkan dua vectorizer teks
yaitu Count Vectorizer
dan TF-IDF untuk menemukan vectorizer yang sesuai
untuk masing-masing algoritma
yang dipakai, algortima tersebut yaitu Naive Bayes, Support Vector Machine (SVM),
regresi logistik, dan Decision Tree. Hasil yang didapatkan algoritma Na�ve Bayes yaitu
dengan menggunakan Count Vectorizer sekitar
86,3% dan menggunakan TF-IDF sekitar
85,4%. Lalu pada penelitian (M. Singh et al., 2020) membahas algoritma pembelajaran mesin bernama Bernoulli's
Naive Bayes Classifier untuk mendeteksi
berita palsu. Akurasi yang didapatkan algoritma ini sekitar
83% yang dibandingkan dengan
algoritma Gaussian Naive Bayes yang memperoleh tingkat akurasi sekitar 72%, dimana kedua algoritma
tersebut diterapkan pada dataset
yang sama (M. Singh et al., 2020). dan pada penelitian (Wongso et al., 2017)� yang bertujuan untuk menemukan algoritma yang tepat dalam mengklasifikasikan
artikel berita dalam Bahasa Indonesia. Akurasi
yang didapatkan kombinasi
TFIDF dan MNB sebesar 98,4% menggungguli
kombinasi TFIDF dan BNB yaitu
98,2% (Mulyani et al., 2021).
Dari penelitian sebelumnya ini, Ekstraksi fitur TF-IDF berfungsi dengan baik untuk meningkatkan
recall dan presisi dalam
melakukan representasi vektor teks, dimana
TF-IDF juga mengungguli ekstraksi
fitur Term Frequency (TF), dalam mengurangi
ukuran fitur teks dalam menghindari
dimensi ruang fitur yang besar, karena fitur yang tidak relevan atau
berlebihan dapat merusak keakuratan dari kinerja classifier. Kemudian Bernoulli
Na�ve Bayes juga berfungsi dengan
baik dalam mengklasifikasikan suatu arikel berita yang dibuktikan pada penelitian terdahulu, dimana algoritma ini merupakan
versi perluasan dari Multinomial Naive Bayes dengan
prediktor sebagai variabel Boolean yaitu 0 dan 1 dalam mendeteksi berita palsu. Maka
dari itu penelitian ini mengusulkan deteksi berita hoax menggunakan algoritma Bernoulli
Na�ve Bayes dengan ekstraksi
fitur TF-IDF untuk mengetahui performa dari kombinasi tersebut dalam mendeteksi berita hoax (Budiman et al., 2021). Penerapan akan dilakukan pada dataset
fake news dan real news yang sudah dikumpulkan. Kemudian kombinasi algoritma ini akan dievaluasi performanya dengan cara menganalisa nilai confusion matrix yang didapatkan, analisa yang dimaksud yaitu menghitung nilai akurasi, recall, presisi,
dan f1-score. Hal tersebut dilakukan
demi mencapai tujuan penelitian yang telah dibuat yaitu mengetahui
performa dari algoritma Bernoulli Na�ve Bayes dengan
ekstraksi fitur TF-IDF dalam mendeteksi berita hoax. Adapula manfaat dari penelitian
ini yaitu kombinasi dari algoritma machine learning dengan
ekstraksi fitur yang digunakan, dapat dijadikan sebagai referensi bagi penelitian selanjutnya dalam mendeteksi berita hoax.
Metode Penelitian
Dalam melakukan tahapan yang sudah disiapkan, implementasi akan dibantu dengan penggunaan library machine learning bernama scikit-learn pada pemrograman
python. Tahapan dalam penelitian ini disusun sebagai berikut, yaitu : pengumpulan data dan labeling,
text preprocessing, ekstraksi fitur, pembagian dataset,
classification, �Output (Klasifikasi
Fake/True), evaluasi, dan kesimpulan. Tahapan tersebut ditunjukan pada Gambar 1.
Gambar 1
Tahapan Penelitian
Tahap pertama yaitu Pengumpulan data dan
labeling, data yang akan digunakan berasal dari website Kaggle dimana data tersebut dikumpulkan menggunakan teknik crawling pada portal berita
online berbahasa inggris. Terdiri dari dataset fake news
dan dataset real news. Masing-masing dataset ini
memiliki 20,000 lebih data berita, tepatnya dataset fake
news sebanyak 23,489 ribu
data, dan dataset real news sebanyak 21,418 ribu data. Masing-masing dataset terdiri
dari 4 atribut yaitu title, text, subject, dan date. Kemudian untuk pemberian label akan menggunakan
nilai biner yaitu 1 untuk fake news dan 0 untuk
real news.
Tahap Kedua yaitu melakukan Text preprocessing, pada tahap ini akan dilakukan proses case folding, tokenizing, stopword removal, dan stemming pada dataset. Hal tersebut untuk membantu mengurangi ukuran data aktual dengan menghapus informasi tidak relevan yang ada dalam data.
Tahap Ketiga yaitu melakukan ekstraksi fitur dengan TF-IDF, Tahap ini akan melakukan vektorisasi teks pada tiap dokumen dengan TF-IDF.
Tahap Keempat yaitu pembagian dataset, Pada tahap ini dataset yang digunakan akan dibagi menjadi dua bagian yaitu data latih dan data uji. Data latih akan digunakan sebagai data untuk membentuk/melatih model Bernoulli Na�ve Bayes, sedangkan data uji digunakan untuk menguji model yang telah dibentuk. Pembagian dataset tersebut akan menggunakan perbandingan 80:20, yang artinya 80% data pada dataset akan dijadikan data latih (train data) kemudian sisa datanya yaitu 20% akan dijadikan sebagai data uji (test data).
Tahap Kelima yaitu melakukan Classification, Pada tahap ini akan dilakukan proses klasifikasi data dengan algoritma Bernoulli Na�ve Bayes, dimana data latih yang sudah dibagi sebelumnya akan digunakan untuk membentuk model, kemudian setelah model terbentuk barulah data uji akan digunakan untuk menguji model tersebut. Dalam tahap pembentukan model Bernoulli Na�ve Bayes akan dilakukan pengevaluasian kinerja model dengan metode K-Fold Cross Validation.
Tahap Keenam yaitu Output (Klasifikasi Fake/True), Pada tahap ini model akan mengeluarkan hasil klasifikasi dari data uji, hasil klasifikasi tersebut berupa mana dokumen yang terklasifikasi 1 (Fake) dan mana dokumen yang terklasifikasi 0 (True).
Tahap Ketujuh yaitu Evaluasi, tahap ini akan melakukan evaluasi dengan cara menganalisa nilai confusion matrix untuk mendapatkan nilai akurasi, recall, presisi, dan f1-score dari hasil pengujian model tersebut.
Tahap Kedelapan yaitu Kesimpulan, tahap
ini akan menyimpulkan bagaimana performa dari algoritma
Bernoulli Na�ve Bayes dan TF-IDF dalam mendeteksi berita hoax.
Pada penelitian ini, tahapan dari Data Preparation
akan dibantu dengan penggunaan library python bernama pandas yang dioperasikan pada tool bernama
jupiter notebook. Dataset yang akan digunakan pada penelitian ini berasal dari website Kaggle dimana data tersebut dikumpulkan menggunakan teknik crawling pada portal berita
online berbahasa inggris. Terdiri dari dataset fake news
dan dataset real news. Masing-masing dataset ini
memiliki jumlah data yaitu dataset fake news sebanyak
23,489 ribu data, dan dataset real news sebanyak 21,418 ribu data, berisi 4 kolom yaitu title, text, subject, dan date. Penampakan dari dataset tersebut dapat dilihat pada Tabel 1.
Tabel 1
Dataset Fake News
Title |
Text |
Subject |
Date |
Donald Trump Sends Out Embarrassing New Year�s Eve Message; This is
Disturbing |
Donald Trump just couldn t wish all
Americans a Happy New Year and leave it at that. Instead, he had to give a
shout out to his enemies, haters and� the very dishonest fake news
media.� The former reality show star
had just one job to do and he couldn t do it. As
our Country rapidly grows stronger and smarter, I want to wish all of my
friends, supporters, enemies, haters, and even the very dishonest Fake News
Media, a Happy and Healthy New Year,� President Angry Pants tweeted.� 2018 will be a great year for America! As
our Country rapidly grows stronger and smarter, I want to wish all of my
friends, supporters, enemies, haters, and even the very dishonest Fake News
Media, a Happy and Healthy New Year. 2018 will be a great year for
America!� Donald J. Trump
(@realDonaldTrump) December 31, 2017Trump s tweet went down about as welll as you d expect.What kind of president
sends a New Year s greeting like this despicable,
petty, infantile gibberish? |
News |
December 31, 2017 |
Pada tahap
ini langkah yang akan dilakukan yaitu mengintegrasikan beberapa file, karena dalam penelitian ini menggunakan 2 dataset yang sumbernya berbeda yaitu fake news dan real news maka kedua dataset tersebut perlu diintegrasikan satu sama lain. Terutama menambahkan kolom baru bernama �article� yang
merupakan gabungan dari kolom�title� yang merupakan
judul berita dan �text�
yang merupakan isi berita, serta menambahkan
juga kolom bernama �fake�
sebagai label supervice
untuk setiap dokumen berita yang diisi dengan nilai
binary (1 dan 0), nilai 1 menandakan
bahwa berita tersebut fake dan nilai 0 menandakan dok. berita tersebut real. Sebagai contoh akan diambil dua
data berita dari dataset tersebut, lalu untuk hasil proses Data
Integration dapat dilihat
pada Tabel 2.
Tabel 2
Dataset setelah proses Data Integration
Title |
Text |
Subject |
Date |
Fake |
Article |
Donald Trump Sends Out Embarrassing New Year�s Eve Message; This is
Disturbing |
Donald Trump just couldn t wish all
Americans a Happy New Year and leave it at that. Instead, he had to give a
shout out to his enemies, haters and� the very dishonest fake news
media.� The former reality show star
had just one job to do and he couldn t do it. As
our Country rapidly grows stronger and smarter, I want to wish all of my
friends, supporters, enemies, haters, and even the very dishonest Fake News
Media, a Happy and Healthy New Year,� President Angry Pants tweeted. |
News |
December 31, 2017 |
1 |
Donald Trump Sends Out Embarrassing New Year�s Eve Message; This is
Disturbing Donald Trump just couldn t wish all
Americans a Happy New Year and leave it at that. Instead, he had to give a
shout out to his enemies, haters and� the very dishonest fake news media.� The former reality show star had just one
job to do and he couldn t do it. As our Country
rapidly grows stronger and smarter, I want to wish all of my friends,
supporters, enemies, haters, and even the very dishonest Fake News Media, a
Happy and Healthy New Year,�
President Angry Pants tweeted. |
Setelah dilakukan
proses Data Integration, total data berita
pada dataset menjadi 44,907 data berita.
Untuk itu pada tahapan ini akan
dilakukan proses Data Reduction atau mereduksi jumlah data pada dataset, yang bertujuan
untuk mengurangi beban komputasi dari proses data mining pada perangkat
keras yang digunakan.
Dataset tersebut akan direduksi jumlah datanya sekitar 75% sehingga data tersisa 25% atau sekitar 11.000 data berita, yang terdiri dari 5500 berita fake dan
5500 berita real.
Pada tahap
ini akan dilakukan penghapusan redudansi data berita (data duplikat).
Pada tahap
ini dataset yang telah diperoleh setelah proses Data
Cleaning akan diubah supaya dataset tersebut dapat diproses oleh algoritma data mining yang digunakan.
Data yang akan ditranformasikan
ialah data pada kolom �article�,
kolom �article� dipilih
karena kolom tersebut memiliki bagian dari suatu
artikel berita yaitu judul (title) dan isi berita (text). Tahapan Data
Transformation pada penelitian ini ditunjukan pada Gambar 2.
Gambar 2
Alur Data Transformation
6.
Case Folding
Pada tahap
ini semua huruf yang ada pada data artikel akan dirubah
menjadi huruf kecil (lowercase). Sebagai
contoh, diambil satu data berita dari dataset tersebut. Hasil dari proses Case Folding pada data artikel dapat dilihat
pada Tabel 3.
Hasil Proses Case Folding Pada Kolom Article
Article |
Hasil Case Folding |
Donald Trump Sends Out Embarrassing New Year�s Eve
Message; This is Disturbing Donald Trump just couldn
t wish all Americans a Happy New Year and leave it at that. Instead, he had
to give a shout out to his enemies, haters and� the very dishonest fake news
media.� The former reality show star
had just one job to do and he couldn t do it. |
donald trump sends
out embarrassing new year�s eve message; this is
disturbing donald trump just couldn
t wish all americans a happy new year and leave it
at that. instead, he had to give a shout out to his enemies, haters and� the very
dishonest fake news media.� the former
reality show star had just one job to do and he couldn
t do it. |
7.
Remove Punctuation
Setelah
proses Case Folding dilakukan, selanjutnya pada tahap Remove
Punctuation semua tanda
baca dan angka akan dihapus dari
artikel berita. List dari tanda baca
yang akan dihapus diantaranya seperti berikut [!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~].
Pada tahap ini juga semua kata yang mengandung unsur url� seperti
http, https dan kata spesial yang peneliti
masukan yaitu bit.ly, dan
twitter.com akan dihapus dari data berita. Hasil dari tahapan tersebut
dapat dilihat pada Tabel 4.
Tabel 4
Hasil Proses Remove
Punctuation
Hasil Case
Folding |
Hasil Remove
Punctuation |
onald trump sends out embarrassing new year�s eve message; this is disturbing onald trump just couldn t wish
all americans a happy new year and leave it at
that. Instead, he had to give a shout out to his enemies, haters and� the very
dishonest fake news media.� The former
reality show star had just one job to do and he couldn
t do it. |
onald trump sends out embarrassing new years eve message this is disturbing onald
trump just couldn t wish all americans
a happy new year and leave it at that instead he had to give a shout out to
his enemies haters and the very dishonest fake news
media the former reality show star had just one job to do and he couldn t do it. |
8.
Tokenizing
Pada tahap ini semua
kalimat pada setiap artikel berita akan dipotong menjadi
beberapa kata. Sebagai contoh untuk melakukan
tahapan tokenizing akan
digunakan sebagian data dari hasil Remove Punctuation
pada tahap sebelumnya. Lalu
untuk hasil dari proses Tokenizing dapat
dilihat pada Tabel 5.
Hasil Tokenizing
Hasil Remove
Punctuation |
Hasil Tokenizing |
donald trump sends out embarrassing new years eve
message this is disturbing donald trump just couldn t wish all americans a
happy new year and leave it at that instead he had to give a shout out to his
enemies haters and the very dishonest fake news
media the former reality show star had just one job to do and he couldn t do it. |
onald, trump, sends, out, embarrassing, new,
years, eve, message, this, is, disturbing, onald,
trump, just, couldn, t, wish, all, americans, a, happy, new, year, and, leave, it, at, that,
instead, he, had, to, give, a, shout, out, to, his, enemies, haters, and,
the, very, dishonest, fake, news, media, the, former, reality, show, star,
had, just, one, job, to, do, and, he, couldn, t,
do, it. |
9.
Stopword Removal
Setelah
proses tokenizing setiap kata akan dicek satu
per satu apakah termasuk ke dalam
list stopword dalam bahasa inggris atau tidak, bila
termasuk pada list stopword
maka kata tersebut akan dihapus atau
dihilangkan. Hasil dari
proses Stopword Removal dapat dilihat pada Tabel 6.
Hasil Stopword Removal
Hasil Tokenizing |
Hasil Stopword Removal |
donald, trump, sends, out, embarrassing, new, years, eve, message, this, is,
disturbing, donald, trump, just, couldn, t, wish, all, americans,
a, happy, new, year, and, leave, it, at, that, instead, he, had, to, give, a,
shout, out, to, his, enemies, haters, and, the, very, dishonest, fake, news,
media, the, former, reality, show, star, had, just, one, job, to, do, and,
he, couldn, t, do, it. |
Donald, trump,
sends, embarrassing, new, years, eve, message, disturbing, donald, trump, wish, americans,
happy, new, year, leave, instead, give, shout, enemies, haters, dishonest,
fake, news, media, former, reality, show, star, one, job, country, rapidly,
grows, stronger, smarter, want, wish, friends, supporters, enemies, haters,
even, dishonest, fake, news, media. |
10. Stemming
Pada tahap ini imbuhan
akhir pada setiap kata akan dipotong, tujuannya agar didapatkan bentuk
dasar dari kata tersebut. Algoritma Stemming
yang akan digunakan pada penelitian ini ialah algortima PorterStemmer untuk
bahasa inggris, dalam algortima tersebut imbuhan akhir yang dipotong diantaranya ed, es, s, dan ing.
Hasil dari proses Stemming dapat
dilihat pada Tabel 7.
Tabel 6
Hasil Stemming
Hasil Stopword Removal |
Hasil Stemming |
donald, trump, sends,
embarrassing, new, years, eve, message, disturbing, donald,
trump, wish, americans, happy, new, year, leave,
instead, give, shout, enemies, haters, dishonest, fake, news, media, former,
reality, show, star, one, job, country, rapidly, grows, stronger, smarter,
want, wish, friends, supporters, enemies, haters, even, dishonest, fake,
news, media. |
donald, trump, send,
embarrass, new, year, eve, messag, disturb, donald, trump, wish, american, happi, new, year, leav,
instead, give, shout, enemi, hater, dishonest,
fake, news, media, former, realiti, show, star,
one, job, countri, rapidli,
grow, stronger, smarter, want, wish, friend, support, enemi,
hater, even, dishonest, fake, news, media. |
11. Ekstraksi Fitur dengan TF-IDF
Tahap selanjutnya yaitu melakukan vektorisasi teks pada setiap dokumen berita. Terdapat beberapa tahapan yang harus dilakukan dalam proses perhitungan TF-IDF, yaitu melakukan preprocessing text, menghitung jumlah keseluruhan dokumen, menghitung jumlah term (kata)
pada semua dokumen, dan menghitung bobot term pada masing-masing
dokumen. Berikut ini contoh perhitungan
untuk melakukan verktorisasi teks menggunakan� metode
TF-IDF.
Sebagai contoh dokumen berita yang akan digunakan, yaitu:
Dokumen 1 : Racist Chicago Cop Who Beat A Handcuffed
Black Cop
Dokumen 2 : People Catch Thieves in Alabama Area
Dokumen 3 : local police catch the thief
12. Melakukan Preprocessing Text
Sebelum melakukan vektorisasi teks, setiap dokumen akan dilakukan preprocessing text seperti
pada tahapan sebelumnya yaitu case folding (merubah
semua huruf menjadi lowercase), remove punctuation (menghapus tanda baca), tokenizing (memotong
kalimat menjadi beberapa token kata), menghapus stopword dalam bahasa inggris, dan stemming
(merubah kata berimbuhan menjadi kata dasarnya). Hasil preprocessing text pada ketiga
dokumen tersebut seperti berikut:
Dokumen 1 = racist chicago cop beat black cop
Dokumen 2 = people
catch thief alabama area
Dokumen 3 = local
police catch thief
13. Menghitung Jumlah Keseluruhan Dokumen
Kemudian jumlah keseluruhan dokumen akan dihitung, pada contoh diatas total dokumen adalah tiga maka nilai
(D) = 3.
14. Menghitung Jumlah Term pada Semua Dokumen
Selanjutnya menghitung jumlah term (kata) pada semua
dokumen. Jumlah term yang didapatkan ditunjukan pada Tabel 8.
Tabel 7
Jumlah Term pada Semua Dokumen
No |
Term |
1 |
racist |
2 |
chicago |
3 |
people |
4 |
cop |
5 |
catch |
6 |
beat |
7 |
black |
8 |
alabama |
9 |
area |
10 |
thief |
11 |
local |
12 |
police |
15.
Menghitung Bobot Term Pada Masing-Masing Dokumen
Tahap selanjutnya mencari representasi nilai dari tiap
dokumen dalam dataset. Dari
sini akan dibentuk suatu vektor dari setiap
term dalam dokumen. Sebagai contoh kita hitung bobot
(w) dari term
cop dalam Dokumen 1, seperti berikut :
Jumlah kemunculan term cop dalam Dokumen 1 (D1) sebanyak dua kali maka nilai (tf
= 2), total keseluruhan dokumen
sebanyak tiga maka nilai (D)=3. Kemudian dari ketiga
dokumen tersebut, kemunculan term cop hanya berada pada Dokumen
1 (D1) saja, maka
nilai (df) = 1 karena jumlah dokumen yang mengandung term cop hanya satu dokumen, sehingga
dapat diperoleh nilai bobot dari
term cop pada Dokumen
1 (D1) ialah 0,9542, dengan
cara dihitung seperti berikut :
�
�
�
�
Kemudian perhitungan tersebut diterapkan pada setiap term yang ada pada dokumen, dengan demikian dapat diperoleh nilai bobot (w) untuk setiap term dalam masing-masing dokumen, ditunjukan pada Tabel 9.
Bobot Term Dari Masing-Masing Dokumen
term |
tf |
df |
D/df |
idf = (Log D/df) |
w = tf*idf |
||||
D1 |
D2 |
D3 |
D1 |
D2 |
D3 |
||||
racist |
1 |
0 |
0 |
1 |
3 |
0,477121 |
0,477121 |
0 |
0 |
chicago |
1 |
0 |
0 |
1 |
3 |
0,477121 |
0,477121 |
0 |
0 |
people |
0 |
1 |
0 |
1 |
3 |
0,477121 |
0 |
0,477121 |
0 |
cop |
2 |
0 |
0 |
1 |
3 |
0,477121 |
0,95424 |
0 |
0 |
catch |
0 |
1 |
1 |
2 |
1,5 |
0,176091 |
0 |
0,176091 |
0,176091 |
beat |
1 |
0 |
0 |
1 |
3 |
0,477121 |
0,477121 |
0 |
0 |
black |
1 |
0 |
0 |
1 |
3 |
0,477121 |
0,477121 |
0 |
0 |
alabama |
0 |
1 |
0 |
1 |
3 |
0,477121 |
0 |
0,477121 |
0 |
area |
0 |
1 |
0 |
1 |
3 |
0,477121 |
0 |
0,477121 |
0 |
thief |
0 |
1 |
1 |
2 |
1,5 |
0,176091 |
0 |
0,176091 |
0,176091 |
local |
0 |
0 |
1 |
1 |
3 |
0,477121 |
0 |
0 |
0,477121 |
police |
0 |
0 |
1 |
1 |
3 |
0,477121 |
0 |
0 |
0,477121 |
Nilai bobot setiap Dokumen = |
2,862727 |
1,783545 |
1,306424 |
16.
Klasifikasi dengan Bernoulli
Na�ve Bayes
Hasil dari
ekstraksi fitur akan digunakan untuk proses klasifikasi. Classifier yang digunakan
dalam penelitian ini adalah Bernoulli Na�ve Bayes. Dasar
dari pengklasifikasi Naive Bayes adalah
Teorema Bayes. Pengklasifikasi
Naive Bayes bekerja
dengan prinsip bahwa semua fitur
rahasia adalah independen satu sama lain. Secara matematis, teorema Bayes dinyatakan sebagai berikut.
�
A dan B adalah dua peristiwa
yang independen. P (A | B) adalah
probabilitas satu peristiwa ketika peristiwa lain telah terjadi. P(A) dan P(B) adalah probabilitas dari dua peristiwa independen
A dan B. P (B | A) adalah probabilitas
peristiwa B sehubungan dengan peristiwa A. Bernoulli Na�ve Bayes memiliki basis model yaitu probabilitas bersyarat dan dihitung dengan menggunakan :
�
P (f | w) adalah probabilitas sebuah artikel berita palsu jika
mengandung kata-kata tertentu
seperti yang disebutkan dalam dataset. P (w | f) adalah probabilitas kata-kata ditemukan dalam artikel palsu.
P (f) adalah kemungkinan keseluruhan artikel berita palsu. Demikian
pula, P (w | r) adalah probabilitas
kemunculan kata dalam artikel asli. Dan P (r) adalah probabilitas keseluruhan dari artikel berita asli.
17. Evaluasi Model Bernoulli Na�ve Bayes
Model Bernoulli Na�ve Bayes
dibentuk dengan data latih sebanyak 8800 data berita, menghasilkan nilai rata-rata akurasi sebesar 98,75%. Hasil tersebut didapatkan berdasarkan metode K-Fold Cross Validation dengan
nilai k sebanyak 10 iterasi yang diterapkan pada
proses pembentukan model.
Model Bernoulli Na�ve Bayes
yang telah dibentuk akan diujikan pada data uji (news_test, dan label_test)
dengan jumlah data uji sebanyak 2200 data atau 20% dari total data dalam dataset. Pengujian dilakukan dengan cara menyesuaikan
hasil prediksi model BNB
pada data uji (news_test) terhadap
actual value/nilai sebenarnya
dari label data uji (label_test).
18. Pengujian Performa Model terhadap Keseluruhan Data Uji
Pengujian ini dilakukan berdasarkan nilai confusion
matrix yang didapatkan, ditunjukan
pada Tabel 10.
Tabel 9
Hasil Confusion Matrix
True Positive
(TP) |
False Positive
(FP) |
True Negative
(TN) |
False Negative
(FN) |
1086 |
9 |
1081 |
24 |
Hasil dari
confusion matrix ini
kemudian dihitung dengan beberapa rumus, yaitu :
�
�
�
�
�
�
�
�
Berdasarkan perhitungan
yang dilakukan dengan rumus diatas, dapat
disimpulkan performa yang diperoleh model BNB dari keseluruhan data uji yaitu akurasi 98,5%, precision 99,1%, recall 97,8%,
dan f1-score 98,4%.
19.
Pengujian Akurasi
Setiap Label
Pengujian ini dilakukan berdasarkan nilai confusion matrix yang didapatkan
pada tabel 4.1. Pengujian akurasi ini berfokus
pada persentase akurasi dari tiap label data uji, yang dihitung dengan rumus berikut :
�
�
�
�
Hasil dari
perhitungan akurasi yang dilakukan dapat dilihat pada Tabel 4 berikut ini.
Tabel 10
Akurasi dari Setiap
Label
No |
Label
Data Uji |
Jumlah
Data |
Akurasi |
Fake (1) |
1110 |
97,8% |
|
2 |
True (0) |
1090 |
99,1% |
Kesimpulan��������������������������������������������������������������
Berdasarkan penelitian dan implementasi
yang telah dilakukan penggunaan algoritma Bernoulli Na�ve Bayes yang dikombinasikan dengan ekstraksi fitur TF-IDF mampu mengklasifikasikan berita hoax dengan baik. Model prediksi yang dibangun dengan 8800 data berita, mampu menghasilkan
nilai akurasi sebesar 98,5% dari jumlah data uji sebanyak 2.200
data berita, dimana akurasi dari prediksi
model untuk label 1 (Fake) sebesar 97,8%, dan akurasi untuk label 0 (True) sebesar
99,1%. Nilai precision menunjukan berapa persen berita yang benar Fake dari keseluruhan berita yang diprediksi Fake, nilai precision yang didapatkan
sebesar 99,1%. Nilai recall menunjukan berapa persen berita� yang diprediksi Fake dibandingkan keseluruhan berita yang sebenarnya Fake, nilai recall yang didapatkan
sebesar 97,8%,�
dan terakhir nilai f1-score
sebesar 98,4% yang menunjukan
perbandingan nilai
rata-rata precision dan recall yang dibobotkan.
Dari implementasi tersebut penggunaan ekstraksi fitur TF-IDF pada algoritma Bernoulli
Naive Bayes mampu meningkatkan
akurasi sebesar 16,08%, precision
15,7%, recall 16,22%, dan f1-score 15,92% bila
dibandingkan dengan hasil penelitian sebelumnya (M. Singh et al., 2020).
Saran dari penelitian ini diharapkan untuk mengoptimalkan kombinasi dari algoritma dan ekstraksi fitur yang digunakan, dengan menambahkan deteksi berita hoax untuk bahasa yang berbeda serta dataset yang berbeda. Kemudian dari sistem
yang dibangun sebagai pendukung penelitian ini, diharapkan dalam penelitian lain dapat menambahkan fungsi untuk melakukan
integration, reduction, dan cleaning data karena
perangkat lunak yang dibangun pada penelitian ini belum mampu
menangani proses tersebut.
Agarwal, V., Sultana, H. P., Malhotra, S.,
& Sarkar, A. (2019). Analysis of
Classifiers for Fake News Detection. Procedia
Computer Science, 165 (2019),
377�383. https://doi.org/10.1016/j.procs.2020.01.035. Google
Scholar
Ahmed, H., Traore, I., & Saad, S.
(2018). Detecting opinion spams and fake
news using text classification. Security
and Privacy, 1 (1), e9.
https://doi.org/10.1002/spy2.9. Google
Scholar
Ajao, O., Bhowmik, D., & Zargari, S.
(2018). Fake news identification on Twitter with hybrid CNN and RNN models. ACM
International Conference Proceeding Series, 226�230.
https://doi.org/10.1145/3217804.3217917. Google Scholar
Bondielli, A., & Marcelloni, F. (2019).
A survey on fake news and rumour detection techniques. Information Sciences,
497, 38�55. https://doi.org/10.1016/j.ins.2019.05.035. Google
Scholar
Budiman, A., Young, J. C., &
Suryadibrata, A. (2021). Implementasi Algoritma Na�ve Bayes untuk Klasifikasi
Konten Twitter dengan Indikasi Depresi. Jurnal Informatika: Jurnal
Pengembangan IT, 6(2), 133�138. Google
Scholar
Granik, M., & Mesyura, V. (2017). Fake
News Detection Using Naive Bayes Classifier. 900�903. Google
Scholar
Gravanis, G., Vakali, A., Diamantaras, K.,
& Karadais, P. (2019). Behind the cues: A benchmarking study for fake news
detection. Expert Systems with Applications, 128, 201�213.
https://doi.org/10.1016/j.eswa.2019.03.036. Google
Scholar
Mulyani, E., Muhamad, F. P. B., &
Cahyanto, K. A. (2021). Pengaruh N-Gram terhadap Klasifikasi Buku menggunakan
Ekstraksi dan Seleksi Fitur pada Multinomial Na�ve Bayes. JURNAL MEDIA
INFORMATIKA BUDIDARMA, 5(1), 264�272. Google
Scholar
Poddar, K., Amali, G. B. D., & Umadevi,
K. S. (2019). Comparison of Various Machine Learning Models for Accurate
Detection of Fake News. 2019 Innovations in Power and Advanced Computing
Technologies, i-PACT 2019, 1�5. https://doi.org/10.1109/i-PACT44901.2019.8960044.
Google
Scholar
Prasetijo, A. B., Isnanto, R. R., Eridani,
D., Soetrisno, Y. A. A., Arfan, M., & Sofwan, A. (2017). Hoax detection
system on Indonesian news sites based on text classification using SVM and SGD.
Proceedings - 2017 4th International Conference on Information Technology,
Computer, and Electrical Engineering, ICITACEE 2017, 2018-Janua,
45�49. https://doi.org/10.1109/ICITACEE.2017.8257673. Google
Scholar
Prasetyo, A., Septianto, B. D., Shidik, G.
F., & Fanani, A. Z. (2019). Evaluation of feature extraction TF-IDF in
Indonesian hoax news classification. Proceedings - 2019 International
Seminar on Application for Technology of Information and Communication:
Industry 4.0: Retrospect, Prospect, and Challenges, ISemantic 2019, 1�6.
https://doi.org/10.1109/ISEMANTIC.2019.8884291. Google
Scholar
Rahutomo, F., Pratiwi, I. Y. R., &
Ramadhani, D. M. (2019). Eksperimen Na�ve Bayes Pada Deteksi Berita Hoax
Berbahasa Indonesia. Jurnal Penelitian Komunikasi Dan Opini Publik, 23(1).
https://doi.org/10.33299/jpkop.23.1.1805. Google
Scholar
Singh, G., Kumar, B., Gaur, L., &
Tyagi, A. (2019). Comparison between Multinomial and Bernoulli Na�ve Bayes for
Text Classification. 2019 International Conference on Automation,
Computational and Technology Management, ICACTM 2019, 593�596.
https://doi.org/10.1109/ICACTM.2019.8776800. Google
Scholar
Singh, M., Wasim, M., Singh, H., & Mishra,
U. (2020). Materials Today : Proceedings Performance of bernoulli � s
naive bayes classifier in the detection of fake news. Materials Today:
Proceedings, xxxx. https://doi.org/10.1016/j.matpr.2020.10.896. Google
Scholar
Wongso, R., Luwinda, F. A., Trisnajaya, B.
C., Rusli, O., Wongso, R., Luwinda, F. A., Trisnajaya, B. C., & Rusli, O.
(2017). ScienceDirect ScienceDirect News Article Text Classification in
Indonesian Language News Article Text Classification in Indonesian Language. Procedia
Computer Science, 116, 137�143.
https://doi.org/10.1016/j.procs.2017.10.039. Google
Scholar
Copyright holder: Agri Yodi
Prayoga, Asep Id Hadiana, Fajri Rakhmat Umbara (2021) |
First publication right: |
This article is licensed under: |