Klasifikasi Email Spam Dengan Metode Naˇve Bayes Classifier Menggunakan .

1y ago
6 Views
2 Downloads
664.79 KB
11 Pages
Last View : 2m ago
Last Download : 3m ago
Upload by : Milo Davies
Transcription

View metadata, citation and similar papers at core.ac.ukbrought to you byCOREprovided by EEPIS RepositoryKLASIFIKASI EMAIL SPAM DENGAN METODE NAÏVE BAYES CLASSIFIERMENGGUNAKAN JAVA PROGRAMMINGPrasetyo Anugroho1, Idris Winarno2., S.ST M.Kom, Nur Rosyid M2., S.Kom1Mahasiswa, 2 Dosen PembimbingPoliteknik Elektronika Negeri SurabayaInstitut Teknologi Sepuluh Nopember Kampus ITS Keputih Sukolilo Surabaya 60111, IndonesiaTel: 62-31-7669770Email: prara@student.eepis-its.eduAbstrakInternet telah menjadi salah satu hal yang penting dalam perkembangan sarana komunikasi.Salah satu fasilitas yang terdapat pada internet adalah surat elektronik atau yang lebih dikenalsebagai e-mail. Fasilitas e-mail yang mudah digunakan dan murah mengakibatkan banyaknya e-mailyang berisi iklan dan promosi bisnis masuk ke dalam inbox pengguna email. E-mail iklan inilah yangdisebut sebagai spam mail. Untuk mencegah hal ini, dibuatlah software yang berguna sebagai spamfilter untuk menyaring e-mail yang masuk ke dalam inbox pengguna fasilitas e-mail. Pemrogramanspam filter pada tugas akhir ini menggunakan algoritma yang dinamakan Naive Bayes Classifier.Metode ini dipilih selain karena merupakan pengembangan terbaru dari pemrograman spam filter,juga karena algoritma ini memiliki tingkat keakuratan yang lebih tinggi dibandingkan denganalgoritma sebelumnya (contoh: NN Classifier).Dengan menggunakan Pemrograman Java, programspam filter dengan algoritma Naive Bayes Classifier telah berhasil dibuat. Dengan program inidilakukan beberapa percobaan yang berhasil membuktikan bahwa algoritma ini mampumengidentifikasikan spam, dengan beberapa syarat dan kondisi, secara lebih akurat.Pembuatan program untuk sistem klasifikasi email dapat dilakukan 2 cara yaitu systemklasifikasi dapat beroperasi pada mail client (offline) dan dapat beroperasi pada mail server (online).Kata Kunci: spam, spam filter, naive bayes classifier, online, offline, mail server, mail client.spam- mail yang masuk ke dalam inboxpengguna e-mail.Spam-mail dapat didefinisikan sebagai“unsolicited bulk e-mail” yaitu e-mail yangdikirimkankepadaribuanpenerima(recipient). Spam-mail biasanya dikirimkanoleh suatu perusahaan untuk mengiklankansuatu produk, hal ini menyebabkan semakinpadatnya queue atau antrian dari mail serveryang telah digunakan. Pada survey yangdilakukan oleh Cranor & La Macchia (1998),ditemukan bahwa 10% dari mail yang diterimaoleh suatu perusahaan adalah spam-mail.Tahun lalu, Spamcop, yang menjalankanservis untuk menerima laporan tentang spam,menerima lebih dari 183 juta laporan spam.[6]1. PENDAHULUAN1.1.LATAR BELAKANGPerkembangan teknologi dewasa ini telahberkembang dengan pesat, khususnyadibidang internet. Dengan adanya internet,segala informasi dan berita dapat diterima dandiakses oleh setiap orang. Bahkan denganinternet, setiap orang dapat mengirim danmenerima pesan dari orang satu ke oranglainnya, yang lebih dikenal sebagai email.Tetapi tidak semua orang menggunakanfasilitas email dengan baik dan benar, bahkandapat menyebabkan kerugian bagi orang lain.Hal ini dikarenakan fasilitas e-mail yangmurah dan mudah digunakan oleh setiaporang, sehingga mengakibatkan banyaknya1

Terlepas dari waktu yang terbuang untukdan tidak dapat melakukan pengecekanmenghapus spam-mail dari inbox, spam jugaterhadap sebuah attachment atau file.merupakan pemborosan uang bagi user yang3.Jika sistem klasifikasi email sudah dapatmenggunakan koneksi dial-up. Selain itu spambekerja dengan baik maka akanjuga membuang bandwidth dan dapatdiharapkan dapat bekerja pula pada mailmenyebabkan penerima di bawah umurserver.mengakses situs-situs yang tidak seharusnya.Pada proyek akhir ini, akan dibangun1.4.TUJUANsebuah aplikasi mailclient yang salah satuProyek akhir yang mempunyai inifiturnyadapatmenggolongkanataubertujuan untuk membuat sebuah aplikasimengklasifikasikan suatu email mana yangyang dapat mengklasifikasikan email yangtermasuk email spam, bukan spam ataupunspam dan bukan spam(ham) secara otomatisemail yang ragu-ragu antara spam atau bukandengan tingkat akurasi yang tinggi.spam. Pemilihan terhadap metode naïve bayespada sistem dalam melakukan klasifikasi, 2. TEORI PENUNJANGdiharapkan sistem dapat mengklasifikasikan2.1.MAILdengan tingkat keakuratan yang tinggiElectronic-Mail (E-Mail) merupakan sebuahsehingga spam email dapat teridentifikasimetode untuk mengirimkan pesan dalamdengan baik. Jika metode klasifikasi berhasilbentuk digital. Pesan ini biasanya dikirimkanditerapkan pada mail client, maka selanjutnyamelalui medium internet. Sebuah pesanakan diterapkan metode tersebut pada mailelektronis terdiri dari isi, alamat pengirim, danserver.alamat-alamat yang dituju. Sistem e-mail yangberoperasi di atas jaringan berbasis padamodel store and forward. Sistem ini1.2.RUMUSAN MASALAHBerdasarkan uraian di atas, makamengaplikasikan sebuah sistem server e-mailpermasalahan yang timbul dalam pengerjaanyang menerima, meneruskan, mengirimkan,proyek akhir ini antara lain adalah:serta menyimpan pesan-pesan user, dimanauser hanya perlu untuk mengkoneksikan pc1. Bagaimana mendapatkan sebuah katamereka ke dalam jaringan. E-mail dapatkunci yang mewakili content dari email?dianalogikan dengan kotak surat yang ada di2. Bagaimana membangun sistem yang dapatkantor POS sedangkan server e-mail dapatmenghasilkan output email yang sudahdiibaratkan sebagai kantor POS. Denganterklasifikasi secara akurat dengan nilaianalogi ini sebuah mail server dapat memilikierror sekecil mungkin?banyak account e-mail yang ada didalamnya.3. Bagaimana membangun sistem jaringanPenulisan e-mail dan e-mail sama saja. Namunyang klasifikasi email secara otomatis padalebih direkomendasikan untuk menuliskannyamail server?sebagai e-mail. Pada RFC, spelling e-mailyang digunakan adalah mail, dan sebuah email dinamakan sebagai sebuah message. RFC1.3.BATASAN MASALAHBatasan masalah dalam pembuatan emailyang baru dan grup IETF membutuhkanclient ini antara lain :penulisan e-mail yang konsisten dari segi1.Mengklasifikasikan email yang spamkapitalisasinya, penggunan underscorenya,dan bukan (ham) pada email client yangserta ejaannya.telah dibangun.2.KlasifikasiSpamemailhanyamemperhatikan header dan body dariemail yang dalam bentuk bahasa inggris2

folder spam atau sekadar tidak konsistenmembukanya, maka itu dianggap spam olehISP - terlepas dari apakah itu melekat padamasing-masing dan setiap CAN-SPAM aturan.Berikut adalah tipe-tipe e-mail spam [2]:a.Untuk Iklan: Spam dapat digunakanuntuk mempromosikan suatu produkataupun layanan, mulai dari produksoftware, perumahan real estate hinggaproduk kesehatan dan produk vitamin.b. Untuk Mengirimkan Malware: Spamadalah salah satu cara utama untukmendistribusikan virus dan malware.Dengan target yang bersifat individual,akan memperdaya korban untukmempercayai bahwa mereka menerimadokumen penting atau file tertentu, yangsebenarnya mengandung malware.c.Phishing: Bersembunyi dibalik namanama besar perusahaan besar, lembagakeuangan, lembaga pemerintah, lembagaamal, para phisher mencoba memikatkorban untuk mengunjungi websitepalsu, dimana melalui website tersebutmereka dapat mencuri data keuanganpribadi atau informasi dengan mengenaiidentitas korbannya.d. Scam: Mengirimkan e-mail sebagaipangeran dari Nigeria, pegawai bank dariSwiss, seorang anak kecil yang sakitkeras, dan beberapa tipe lainnya, parascammer berusaha memperoleh simpati.e.Pesan yang tak berarti: Sebuah potonganpesan sampah seperti ini dapatmemenuhi inbox mail kita. Bahkanbeberapa pesan seperti ini dapatmengkelabui teknologi spam filter,banyak pesan tak berarti ini dikirimkantanpa tujuan yang jelas.Gambar 1. Cara kerja e-mailCara kerja e-mail yang dapat dilihat padaGambar 2.1 menunjukkan bahwa e-mail yangdikirim belum tentu akan diteruskan kekomputer penerima (end user), tapidisimpan/dikumpulkan dahulu dalam sebuahkomputer server (host) yang akan onlinesecara terus menerus (continue) dengan mediapenyimpanan (storage) yang relatif lebih besardibanding komputer biasa. Hal ini bisadiibaratkan dengan sebuah kantor pos, jikasesorang mempunyai alamat (mailbox), makadia dapat memeriksa secara berkala jika diamendapatkan surat. Komputer yang melayanipenerimaan e-mail secara terus-menerustersebut biasa disebut dengan mailserver ataumailhost.2.2.SPAM MAILPendefinisian spam e-mail berbeda-beda.Undang-undang CAN-SPAM memberikandefinisi utama spam dengan menjelaskan apayang (dan apa yang tidak) diperbolehkan bilamengirim e-mail komersial pemasaran.Undang-undang tersebut disahkan pada tahun2004 oleh Federal Trade Commission, yangdiperbarui tahun 2008. Selain FTC terdapatbadan-badan lain yang mengklasifikasikanspam, yaitu Internet Service Provider (ISP).Internet Service Provider juga memiliki bagianbesar dalam menentukan apa yang dianggapspam. ISP tidak mengandalkan CAN-SPAMsendirian untuk mendefinisikan spam karenadi mata mereka spam ‘didefinisikan olehpengguna’.Jikapenerimae-mailmengelompokkan pesan e-mail sebagai spamdengan cara meletakkan di daftar pengirimyang diblokir mereka, menjatuhkannya diPerbedaan Spam dan Ham (bukan n sebagai berikut: HeaderEmail header menunjukkan informasiperjalanan setiap email. Secara umum,3

email header terdiri dari pengirim,jaringan dan penerima email [9].SubjectSubjectsuatue-mailmailbiasanyamerupakan suatu judul topic yangmewakili isi pada e-mailmail. Subject email dapat dijumpai pada header setiape-mail. Maka dapat dilihat padagambar header spam e--mail, terdapatsuatu kata “VIAGRA”. KataKata-katatersebut sering dijumpai pada subjsubjectspam e-mail.BodyPada e-mail,, body adalah isi dari suatupesan e-mail,, dan dengan adanya bodye-mail,,pengirim(sender)menyampaikan maksud yang akandisampaikan kepada penerima. Padaproyekakhiriniselainmengklasifikasikan e-mailmail spam dariheader, dapat pula diklasifikasikanmelalui bodynya. Karena dengan bodye-mail,, dapat ditentukan bahwa e-mailtersebut e-mail yang penting atautidak.2.4.ALGORITMA NAÏVE BAYESBayesian filter atau Naïve Bayes Classifiermerupakan metode terbaru yang digunakanuntukmengklasifikasikansekumpulandokumen. Algoritma ini memanfaatkanmetode probabilitas dan statistik yangdikemukakan oleh ilmuwan Inggris ThomasBayes, yaitu memprediksiksi probabilitas di masadepan berdasarkan pengalaman di masasebelumnya. Dua kelompok peneliti, satu olehPantel dan Lin, dan yang lain oleh MicrosoftResearch memperkenalkan metode statistikBayesian ini pada teknologi anti spam filter.Tetapi yang membuatat algoritma Bayesianfiltering ini popular adalah pendekatan yangdilakukan oleh Paul Graham [4].Dasar dari teorema naive Bayes [4] yangdigunakan dalam pemrograman adalah rumusBayes berikut ini:P (A B) (P(B A) * P(A))/P(B) . (1)Peluang kejadian A sebagai B ditentukandari peluang B saat A, peluang A, dan peluangB. Pada pengaplikasiannya nanti rumus iniberubah menjadi :P(Ci D) (P(D Ci)*P(Ci)) / P(D) .(2)2.3.TEXT MININGText mining mempunyai definisi sebagaimenambang data yang berupa teks dimanasumber data biasanya didapat dari suatudokumen dan tujuannya adalah mencari katakatakata yang dapat mewakili isi dari dokumensehinggadapatdilakukananalisaketerhubungan antar dokumen.Tahapan dari text mining :Naïve Bayes Classifier atau bisa disebutsebagai multinomial naïve bayes merupakanmodelel penyederhanaan dari algoritma bayesyang cocok dalam pengklasifikasian text ataudokumen [14].Persamaannya adalah :vMAP arg max P(vj a1 , a2, . an) . (3)menurut persamaan (3), maka persamaan (1)dapat ditulis .(4)Gambar 2. Bagan tahapan text mining4

P(a1 , a2, . an) konstan, sehingga dapatdihilangkan menjadidapat mengambil keputusan. Langkah-langkah:a. Step 1 : Bentuk vocabulary pada setiapdokumen data trainingb. Step 2 : Hitung probabilitas padasetiap kategori P(vj)c. Step 3 : Tentukan frekuensi setiap katawk pada setiap kategori P(wk vj) . (5)Karena P(a1 , a2, . an vj) sulit untukdihitung, maka akan diasumsikan bahwasetiap kata pada dokumen tidak mempunyaiketerkaitan.2.Classify (Pengklasifikasian)a. Step 1 : Hitung P(vj)Ð P(ai vj) untuksetiap kategorib. Step 2 : Tentukan kategori dengannilai P(vj)Ð P(ai vj) maksimal . (6)Keterangan : .(7)Dimana untuk :P(vj)P(wk vj) docs Contoh yang adankkosakata :dokumen test3. PERANCANGAN DAN IMPLEMENTASISystem klasifikasi pada mail client dibuat sepertihalnya mail client pada umumnya, seperti .(8)Microsoft Office Outlook, Thunderbird dan lain: Probabilitas setiap lain. Metode naïve bayes classifier yang telahdokumenterhadap dibangun sebelumnya, akan diletakkan padaprogram dari mail client itu sendiri. Seperti yangsekumpulan dokumen.:Probabilitas ditunjukan pada gambar 3.kemunculan kata wkpada suatu dokumendengan kategori class vj: frekuensi dokumenpada setiap kategori: jumlah dokumen: frekuensi kata ke-kpada setiap upenambahan 1 pada pembilang, hal inidilakukan untuk mengantisipasi jika terdapatGambar 3. Blog Diagram system offlinesuatu kata pada dokumen uji yang tidak adapada setiap dokumen data training.Jika system klasifikasi pada email pada mail clientsudah dapat bekerja dengan baik, maka metodeAlgoritma Naïve Bayes Classifier :algoritma naïve bayes classifier akan diterapkan1.Learning (Pembelajaran)kedalam mail server atau bisa dikatakan denganNaïve Bayes adalah algoritma yang nama online. Dapat diilustrasikan seperti padatermasuk ke dalam supervised learning, maka gambar 4.akan dibutuhkan pengetahuan awal untuk5

Gambar 4. Blog Diagram System OnlineUse-Case Utama (Architecturally Significant) pada gambar5 di atas adalah gambaran sistem secara garis besar yangdibedakan menjadi empat proses utama, yaitu proses header,proses text mining, proses pengklasifikasian dengan metodenaïve bayes classifier dan bagaimana menampilkan hasildari klasifikasi termasuk kategori spam atau regular email.Proses HeaderGambar 7. Use Case Diagram Text MiningText MiningBodyKlasifikasidengan NBCTampilkan HasilGambar 5. Use Case UtamaGambar 8. Use Case Diagram Proses NaïveBayesGambar 6. Use Case Diagram Proses Header6

HasilklasifikasiGambar 9. Use Case Diagram Tampilkan hasilGambar 11. Hasil pengiriman emailpercobaan 14. UJI COBA DAN ANALISA4.1.Percobaan 1Pada percobaan ke-1 diilustrasikan dengancara mengirimkan email yang mempunyaisubject “Big sale for Viagra”. sifikasikantersebut.Hasilperhitungan probabilitas maksimum dariemail, hasil klasifikasinya dan tampilannyaadalah sebagai berikut :Hal ini dapat juga dilihat pada gambar 12yaitu header email, bahwa header email telahmengalami perubahan. Jika email tersebuttelah terklasifikasi sebagai spam, maka subjectpada header email akan ditambahi dengan kata“****spam****”.Gambar 10. Kirim email percobaan1Pada gambar 10. merupakan suatu interfacedari mail client pada system offline untukmengirimkan email dengan isi subject yangmengandung kata “Viagra”. Dan ternyata hasilyang didapat setelah mengalami prosesklasifikasi adalah email tersebut merupakanSPAM. Hal ini dapat dibuktikan pada gambar11.Gambar 12. Isi email percobaan 1Perubahan HeaderAnalisa Percobaan 1Dari hasil yang telah ditampilkan padapercobaan 1 diatas dapat diketahui bahwaemail tersebut telah diklasifikasikan sebagaiSPAM. Menurut algoritma yang telahdioperasikan pada proyek akhir ini bahwasebelum email memasuki program metodenaïve bayes, subject email tersebut dicekterlebih dahulu. Jika mengandung kata“Viagra” maka dapat dipastikan bahwa emailadalah spam dan tidak akan menjalani proses7

klasifikasi dengan metode naïve bayes. Makadengan begitu perhitungan probabilitas padaemail tidak perlu dilakukan. Dengan segerasubject pada header email akan diubah.4.2.Percobaan 2Dan pada percobaan 3 akan dicobamengirimkan email dengan subject yangkosong dan email body yang kosong juga. Halini kadang dilakukan seorang user sewaktuuser tersebut lupa dalam mengisikan bagianbagian email yang akan dikirim. Denganadanyahalsepertidemikian,makadikhawatirkan program tidak dapat memfilteremail dengan format yang kosong seperti padagambar 13. Untuk email pada percobaan 3 inidikirim melalui squirrelmail karena pada mailclient pada system offline tidak akan dapatmengirim email dalam bentuk kosongan.Gambar 14 Hasil pengiriman emailpercobaan 3HasilklasifikasiDengan dinyatakannya email sebagai SPAM,maka header pada email tersebut jugamengalami perubahan. Perubahan header inibersifat permanen, dan jika terdapat mailclient yang melakukan pop up dari servermaka akan subject sudah diubah.Gambar 13 Kirim email percobaan 3Setelah dikirim, ternyata email telah dianggapsebagai spam, hal ini dapat terlihat padagambar 14. Dan berhubung subject email tidakterisi, maka secara langsung email subjectemail bertuliskan “****spam****”.Gambar 15. Header email percobaan 3Analisa Percobaan 3Setelah email dikirim, email akan masukterlebih dahulu pada system klasifikasi secaraonline, dan yang pertama perlu diperiksaadalah subject email. Berhubung subject emailyang dikirim berupa kosongan, maka systemakan mengecek isi dari email, apakah dalamformat bahasa Indonesia atau bahasa inggris.Tetapi seperti pada gambar 13, isi dari emailkosong, maka menurut perhitungan :8

error dalam menyeleksi atau mengklasifikasiemail (data uji).Jumlah kata pada database bukan spam(nk) 5710Jumlah kata pada database spam(nk) 5531P(spam) 60/120 0.5P(bukan spam) 60/120 0.5Karena isi dari email adalah kosong, makaP(w spam) 0.5P(w bukan spam) 0.5P(w bukan spam) P(w spam) makahasilnya adalah SPAMEmail yangMasukSpam 1Spam 2Spam 3Spam 4Spam 5Spam 6Spam 7Spam 8Spam 9Spam 10Spam 11Spam 12Spam 13Spam 14Spam 15Spam 16Spam 17Spam 18Spam 19Spam 20Spam 21Spam 22Spam 23Spam 24Spam 25Spam 26Spam 27Spam 28Spam 29Spam 30Spam 31Spam 32Spam 33Spam 34Spam 35Spam 36Spam 37Spam 38Spam 39Spam 40Spam 41Spam 42Spam 43Spam 44Spam 45Spam 46Spam 47Bukan Spam 14.3.Analisa secara umumBerikut merupakan suatu percobaan secaraumum untuk perhitungan nilai error denganjumlah data training yang berbeda beda dantable 1 merupakan 1415874067504357108227Nilaierror1123333Tabel 1. Data training dan tingkat errorDan table 2 merupakan hasil dari klasifikasiemail secara terperinci untuk 120 data trainingyang telah diklasifikasi. Terdapat 3 kesalahan(error) yang telah dihasilkan yaitu 2 data yangmerupakan spam, diklasifikasi sebagai bukanspam dan 1 data bukan spam diklasifikasisebagai spam. Maka prosentase kesalahannyamencapai,error 3/120 * 100% 2.5 %Dengan banyaknya data training dengantingkat kesalahan error seperti demikian, maka120 data training tersebut akan dijadikansebagai database sebagai keyword untukmenyeleksi email data uji pada proyek akhirini. Dan diharapkan dapat mengecilkan tingkat9HasilKlasifikasiEmailSPAMBUKAN SPAMSPAMSPAMSPAMSPAMSPAMBUKAN AMSPAMSPAMBUKAN narBenar

BUKAN SPAMBukan Spam 2BUKAN SPAMBukan Spam 3BUKAN SPAMBukan Spam 4BUKAN SPAMBukan Spam 5BUKAN SPAMBukan Spam 6BUKAN SPAMBukan Spam 7BUKAN SPAMBukan Spam 8BUKAN SPAMBukanSpam9EBUKAN SPAMBukanSpam10RBUKAN SPAMBukanSpam 11RBUKAN SPAMBukanSpam 12OBUKAN SPAMBukanSpam 13RBUKAN SPAMBukan Spam 14BUKAN SPAMBukan Spam 15BUKAN SPAMBukan Spam 16BUKAN SPAMBukan Spam17Data trainingBUKAN SPAMBukan Spam 18BUKAN SPAMBukan Spam 19BUKAN SPAMBukan Spam 20BUKAN SPAMBukan Spam 21BUKAN SPAMBukan Spam 22BUKAN SPAMBukan Spam 23BUKAN SPAMBukan Spam 24BUKAN SPAMBukan Spam 25BUKAN SPAMBukan Spam 26BUKAN SPAMBukan Spam 27BUKAN SPAMBukan Spam 28BUKAN SPAMBukan Spam 29BUKAN SPAMBukan Spam 30BUKAN SPAMBukan Spam 31BUKAN SPAMBukan Spam 32BUKAN SPAMBukan Spam 33BUKAN SPAMBukan Spam 34BUKAN SPAMBukan Spam 35BUKAN SPAMBukan Spam 36SPAMBukan Spam 37BUKAN SPAMBukan Spam 38BUKAN SPAMBukan Spam 39BUKAN SPAMBukan Spam 40BUKAN SPAMBukan Spam 41BUKAN SPAMBukan Spam 42BUKAN SPAMBukan Spam 43BUKAN SPAMBukan Spam 44BUKAN SPAMBukan Spam 45BUKAN SPAMBukan Spam arBenarBenarBenarBenarBenarTabel 2. Hasil Klasifikasi 93 Data trainingerror value (%)403020error value (%)1002040608093 120Gambar 16. Grafik dari tingkat errorMenurut yang telah ditampilkan pada table 4.1dan grafik pada gambar 16 bahwa tingkat errorlebih banyak ditunjukkan pada percobaanyang kedua disaat data training yang dipakaimencapai 40. Karena dapat dilihat pada kolomkeyword untuk database spam dan yang bukanspam, selisih dari banyaknya keyword padakedua kategori terlalu banyak. Sehinggamemicu tingkat error yang lebih besardibandingkan yang lainnya. Ini merupakansuatu kelemahan dari metode naïve bayesclassifier dalam mengklasifikasikan databerupa string. Karena metode tersebutmembutuhkan selisih dari jumlah keywordpada database data training yang tidak terlalubanyak.5. PENUTUP5.1.KESIMPULANDari hasil percobaan dan analisa yangdilakukan maka dapat diambil kesimpulan:1. Klasifikasi email spam dengan metodenaïve bayes classifier yang dilakukansecara offline dan online tidak memilikiperbedaan dalam mengklasifikasikanemail spam secara tepat dengan tingkaterror yang kecil.2. System klasifikasi email spam denganmetodenaïvebayesclassifiermempunyai tingkat error yang besar jikaterdapat selisih pada jumlah keywordyang ada di data training.10

5.2.SARAN1.2.3.4.6. DAFTAR PUSTAKAKarena pendataan kata untuk prosesstoplist masih dilakukan secara manual,maka untuk pengembangan program iniselanjutnya diharapkan daftar kata dalamstoplist dapat dibakukan agar hasil textminingnya lebih optimal.Pada proses steming dengan metodeporter masih terdapat kesalahan dalampembakuan kata yang berbahasa inggrisdan diharapkan dapat dibakukan lagi.Proses klasifikasi pada proyek akhir inidapat diintegrasi dengan software laindalam hal mengklasifikasikan emailmisalnya clamav.Pada system online dari proyek akhir initerdapat kelemahan metode dalammenangkap email dari mail server yangmengirim dan membutuhkan waktu yangcukup lama. Oleh karena itu dibutuhkansebuah metode atau pola dalammenangkap email yang tepat p://lecturer.eepisits.edu/ iwanarif/kuliah/dm/ 6Text%20Mining.pdf[3]Roderick, W, Smith.2002. Pull Mail Protocols : IMAPand POP3. 257-282[4]Rachli, Muhamad.2007. Email Filtering menggunakanNaïve Bayesian. Bandung : Tugas Akhir JurusanTeknik Elektro Institut Teknologi Bandung[5]Tapen, Panji. 2008. Email Spam 27/emailspam-filtering [12 Januari 2010][6]Arief .2004. Spam: Dampak dan Resikonya.http://www.ebizzasia.com [12 Januari annya. http://www.tnial.mil.id [17 Juli2009][8]Magdalena, Merry. 2008. Mengapa Alamat E-mailKita Dicintai Spam. http://www.netsains.com [17 Juli2009][9]-------. 2007. How to Read Email ail.html[17 Juli 2009][10] Spykerman, Mike. 2007. How to Effectively Stop Spamand Junk Mail: Identifying The Most Common SpamCharacteristics. http://www.policypatrol.com[11] -------. 2007. Email Headers Comparison: er.com/tips/email.html[12] -------. 2002. The English Porter StemmningAlgorithm. http://snowball.tartarus.org [[13] : An Application of Naïve BayesClassifier. Departement of Computer Science SUNYStony Brook[14] JavaMailTMAPI Design Specification.Microsystems USA, Desember 200511Sun

E-mail iklan inilah yang disebut sebagai spam mail. Untuk mencegah hal ini, dibuatlah software yang berguna sebagai spam filter untuk menyaring e-mail yang masuk ke dalam inbox pengguna fasilitas e-mail. Pemrograman spam filter pada tugas akhir ini menggunakan algoritma yang dinamakan Naive Bayes Classifier.

Related Documents:

Anti‐Spam 3 10 Anti‐Spam Email Security uses multiple methods of detecting spam and other unwanted email. This chapter reviews the configuration information for Anti‐Spam: Spam Management Anti‐Spam Aggressiveness Languages Anti‐Spam Aggressiveness Spam Management

Anti-spam scanning relates to incoming mail only , and in volv es chec king whether a message needs to be categorised as spam or suspected spam (depending on the spam rating of the message) and taking appropr iate action. A spam digest email and w eb based spam quar antine enables end users to manage their quarantined spam email.

Spam related cyber crimes, including phishing, malware and online fraud, are a serious threat to society. Spam filtering has been the major weapon against spam for many years but failed to reduce the number of spam emails. To hinder spammers' capability of sending spam, their supporting infrastructure needs to be disrupted.

PENELITIAN Metode penelitian yang digunakan dapat dipilih sesuai dengan masalah dan tujuan penelitian yang hendak dicapai. Secara umum, metode yang digunakan dalam penelitian yaitu (a) metode deskriptif, (b) metode eksperimen, (c) metode historis, (d) metode pengembangan, (e) metode tindakan, dan (f) metode kualitatif.

7. Metode Exstended Quadratic Interior Point (EQIP) Sama dengan metode Karmakar, metode EQIP merupakan salah satu metode untuk menyelesaikan masalah program linier. Metode EQIP adalah metode deterministik yang merupakan pengembangan metode Karmakar. Metode EQIP dikembangakan oleh James A. Momoh. Metode EQIP bisa digunakan untuk

learn to identify spam e-mail after receiving training on messages that have been manually classified as spam or non-spam. A spam filter is a program that is mainlyemployed to detect unsolicited and unwanted email and prevent those messages from reaching a user's inbox. Just like other types of filtering programs, a spam filter looks for certain

To reduce the false detection rate. To classify between the spam and ham (non-spam) tweets. 2. Related Works [5] For detecting the spam existing in the social media platform of Twitter, a framework of semi-supervised spam detection (i.e., S3D) was proposed in the research work. Two different modules namely spam detection module

3 Lorsqu’un additif présent dans un arôme, un additif ou une enzyme alimentaire a une fonction technologique dans la denrée alimentaire à laquelle il est adjoint, il est considéré comme additif de cette denrée alimentaire, et non de l’arôme, de l’additif ou de l’enzyme alimentaire ajouté et doit dès lors remplir les conditions d’emploi définies pour la denrée en question .