BAB II LANDASAN TEORI 2.1 Text Mining - UMM

1y ago
4 Views
2 Downloads
793.95 KB
13 Pages
Last View : 1m ago
Last Download : 3m ago
Upload by : Callan Shouse
Transcription

BAB IILANDASAN TEORI2.1Text MiningText Mining merupakan proses otomatis atau sebagian proses otomatisuntuk teks. Ini melibatkan pembentukan text yang lebih terstruktur danpenggalian informasi yang relevan dari teks ( Miller, 2005;104 ).Text Mining selalu berurusan dengan kata – kata, jutaan kata – kata yang disimpan dalam bentuk file elektronik. File elektronik ini biasa berbentukbeberapa dokumen yang akan diproses, namun tentu saja dokumen –dokumen ini belum dalam bentuk yang terstruktur. Butuh mekanisme untukmenambang teks - teks yang ada dalam koleksi dokumen sehingga didapatkan informasi – informasi yang lebih bernilai dan terstruktur.Mekanisme tersebut dibagi dalam beberapa tahapan (fase pre-processing).Tahapan-tahapan yang dilakukan secara umum dalam text mining, yaitu :Tokenizing, Filtering, Stemming, Tagging, dan Analyzing (Riza, 2008).Gambar 2.1. Tahapan Text Mining (Riza, 2008)2.2Text PreprocesingProses ekstraksi ini bertujuan untuk menghasilkanterm-term yangakan digunakan sebagai prototype bagi setiap dokumen. Tiap term tersebutdicari bentuk kata dasar-nya berdasarkan kamus kata dasar BahasaIndonesia. Hal ini untuk menghindari tersimpannya kata-kata yang memilikikata dasar yang sama namun berimbuhan berbeda. Disamping itu dilakukanpenyaringan (filtering) terhadap kata-kata yang tidak layak untuk dijadikansebagai pembeda. Kelompok kata ini biasanya disebut sebagai stoplist. Olehkarena belum tersedia maka penelitian ini juga berusaha mencari stoplist6

tersebut secara manual.2.3Text TransformationPada tahap ini dilakukan penyaringan (filtration). Penyaringandilakukan dengan menentukan term mana yang akan digunakan untukmerepresentasikan dokumen sehingga dapat mendiskripsikan isi dokumendan membedakan dokumen tersebut dengan dokumen lain dalam koleksi.Term yang sering dipakai tidak dapat digunakan untuk tujuan ini, setidaknyakarena dua hal. Pertama, jumlah dokumen yang relevan terhadap suatuquery kemungkinan besar merupakan bagian kecil dari koleksi. Term yangefektif dalam pemisahan dokumen yang relevan dari dokumen tidak relevankemungkinan besar adalah term yang muncul pada sedikit dokumen. Iniberarti bahwa term dengan frekuensi kemunculan tinggi bersifat poordescriminator. Kedua, term yang muncul dalam banyak dokumen tidakmencerminkan definisi dan topik atau sub-topik dokumen. Karena itu, termyang sering digunakan dianggap sebagai stop-word dan dihapus.Stop-word didefinisikan sebagai term yang tidak berhubungan(irrelevant) dengan subjek utama dari database meskipun kata tersebutsering kali hadir di dalam dokumen (Cios, 2007). Stopword merupakan anmemperhitungkan kata-kata yang dianggap penting. Penghapusan stop-worddari dalam suatu koleksi dokumen pada satu waktu membutuhkan banyakwaktu. Solusinya adalah dengan menyusun suatu pustaka stop-word ataustop-list dari term yang akan dihapus.Konversi term ke bentuk akar (stemming) juga merupakan tindakanyang dapat dilakukan pada tahap ini. Stemming merupakan proses untukmereduksi kata ke bentuk dasarnya. Kata-kata yang muncul di dalamdokumen sering mempunyai banyak varian morfologik. Karena itu, setiapkata yang bukan stop-words direduksi ke bentuk stemmed word yang cocok.Dengan cara ini, diperoleh kelompok kata yang mempunyai makna serupatetapi berbeda wujud sintaksis daru dengan lainnya. Kelompok tersebut7

dapat direpresentasikan oleh satu kata tertentu. Pembahasan lanjut tentangstemming dipaparkan di pembahasan sebelumnya (Tala, 2003).2.4Stemming Bahasa IndonesiaStemming dapat dikatakan sebagai proses membentuk suatu katamenjadi kata dasarnya. Misalnya :berkata katamengakatakan kataperkataan kataBeberapa algoritma dasar dalam stemming antara lain:1) Brute force stemming. Algoritma ini adalah algoritma yang palingsederhana. Bermodalkan database kata dengan kata dasarnya, komputerdengan mudah mencari kata dasar. Namun metode ini mempunyaikelemahan yaitu jumlah database kata dan kata dasarnya harus besar.Kesalahan terjadi bila kata tidak ditemukan di database dan kemudiandianggap kata dasar, padahal bukan.2) menggunakan metode ini harus tahu terlebih dahulu aturan bahasanya.Kata akan dipotong imbuhannya berdasar aturan bahasanya. Kesalahanterjadi bila kata tersebut adalah kata dasar yang dipotong, misalnya:perawan awan.3) Porter Stemmer. Algoritma ini terkenal digunakan sebagai stemmeruntuk bahasa Inggris. Porter Stemmer dalam bahasa Indonesia akanmenghasilkan keambiguan karena aturan morfologi bahasa Indonesia(Tala, 2003).4) Nazief & Adriani Stemmer. Algoritma ini paling sering dibicarakandalam stemming bahasa Indonesia. Algoritma ini merupakan hasilpenelitian internal UI (Universitas Indonesia) dan tidak dipublish secaraumum (Nazif, 1996). Algoritma ini merupakan gabungan antaraalgoritma menghilangkan imbuhan dan brute force stemming. Namunalgoritma ini mempunyai dua masalah, yang pertama kemampuannyatergantung dari besarnya database kata dasar, dan yang kedua, hasil8

stemming tidak selalu optimal untuk aplikasi information retrieval(Tala, 2003).5) Dan masih banyak algoritma-algoritma dasar lainnya, seperti gabunganalgoritma di atas, stokastik, lematasi, dll.Bila dibandingkan, untuk teks berbahasa Indonesia, Porter stemmerlebih cepat prosesnya daripada Nazief & Adriani stemmer namunalgoritma Nazief & Adriani memilki tingkat keakuratan lebih tinggidaripada Porter stemmer (Ledy, 2009).2.5Tata Bahasa Baku Bahasa IndonesiaTata bahasa Indonesia terdiri dari 3 unsur, yaitu fonologi, morfologi,dan sintaksis. Dalam Tugas Ahir ini hanya akan dibahas mengenaimorfologi.2.5.1 MorfologiMorfologi disebut juga ilmu bahasa yang mempelajari seluk belukkata. Morfologi adalah bidang linguistik yang mempelajari hubungan antaramorfem yang satu dengan morfem yang lain untuk membentuk sebuah kata.Morfologi adalah bidang linguistik yang mempelajari hubungan antaramorfem yang satu dengan morfem yang lain untuk membentuk sebuah kata.Berikut ini pembahasannya.1. KataKata adalah satuan bentuk terkecil (dari kalimat) yang dapat berdirisendiri dan mempunyai makna. Kata yang terbentuk dari gabungan hurufatau gabungan morfem; atau gabungan huruf dengan morfem, barudiakui sebagai kata bila bentuknya mempunyai makna.Kata merupakan unsur yang paling penting di dalam bahasa. Tanpa katamungkin tidak ada bahasa, sebab kata itulah yang merupakan perwujudanbahasa. Setiap kata mengandung konsep makna. Konsep dan peran apayang dimiliki tergantung dari jenis atau macam kata-kata itu, sertapenggunaanya di dalam kalimat. Dilihat dari konsep makna yang dimilikidan atau perannya, kata-kata dibedakan atas beberapa jenis :9

1) Kata benda9) Kata depan2) Kata ganti10)Kata penghubung3) Kata kerja11)Kata keterangan4) Kata sifat12)Kata tanya5) Kata sapaan13)Kata seru6) Kata penunjuk14)Kata sandang7) Kata bilangan15)Kata partikel8) Kata enyangkal2. ImbuhanImbuhan terdiri dari:a) Awalan (prefiks)Awalan adalah suatu unsur struktural yang diikatkan di depan sebuahkata dasar atau bentuk dasar. Yang termasuk di dalam awalan adalahber-, me-, pe-, per-, di-, ke-, ter- dan se-. Untuk awalan ber- terdapattiga macam bentuk variasi yaitu be-, ber-, dan bel-. Awalan me- danpe- memiliki bentuk variasi yang lebih banyak lagi karena mengalamiproses nasalisasi. Bentuk variasi awalan me- antara lain me-, mem-,men-, meng-, meny-, dan menge. Sedangkan bentuk variasi awalanper- antara lain adalah pe-, per-, pem-, pen-, peng-, peny-, dan penge-.Untuk awalan lainnya tidak mengalami perubahan bentuk setelahditambahkan pada kata dasar.b) Sisipan (infiks)Sisipan adalah semacam morfem terikat yang disisipkan pada sebuahkata antara konsonan pertama dengan vokal pertama. Jenis morfem inipemakaiannya terbatas pada beberapa kata saja. Sisipan yang terdapatdalam bahasa Indonesia adalah –el-, -er-, dan –em- .c) Akhiran (sufiks)Akhiran adalah semacam morfem terikat yang dilekatkan di belakangsuatu morfem dasar. Macam-macam ahiran –an, -kan, dan –I.d) KonfiksKonfiks adalah gabungan prefiks dan sufiks yang mengapit kata dasar10

dan membentuk satu kesatuan, awalan dan akhiran dilekatkan secaraserentak pada kata dasar, selain itu pemenggalan salah satu afiks tidakakan meninggalkan bentuk kata yang maknanya masih dapatditelusuri. Yang termasuk konfiks adalah ke-an dan per-an.e) Gabungan ImbuhanGabungan imbuhan adalah pemakaian beberapa imbuhan sekaliguspada suatu kata dasar, yang masing-masing mempertahankan arti danfungsinya. Imbuhan-imbuhan yang biasanya dipakai bersama-samaadalah me-kan, di-kan, me-i, di-i, mem-per-kan, di-per-kan, mem-peri, di-per-i, ber-kan, dan ber-an .3 KalimatKalimat adalah satuan bahasa terkecil, dalam wujud lisan atau tulisanyang mengungkapkan pikiran yang utuh. Dalam wujud lisan kalimatdiucapkan dengan suara naik turun, dan keras lembut, disela jeda, dandiakhiri dengan intonasi akhir. Dalam wujud tulisan berhuruf latinkalimat dimulai dengan huruf kapital dan diakhiri dengan tanda titik. (.),tanda tanya (?) dan tanda seru (!).Kalimat itu harus lengkap, lengkap berarti di dalam satuan bahasa yangdisebut kalimat itu terdapat:1) Unsur atau bagian yang menjadi pokok pembicaraan, yang lazimdisebut dengan istilah subjek (S).2) Unsur atau bagian yang menjadi “komentar” tentang subjek, yanglazim disebut dengan istilah predikat (P).3) Unsur atau bagian yang merupakan pelengkap dari predikat, yanglazim disebut dengan istilah objek (O).4) Unsur atau bagian yang merupakan “penjelasan” lebih lanjut terhadappredikat dan subjek, yang lazim disebut dengan istilah keterangan (K).Unsur keterangan ini dapat memberi penjelasan tentang tempat,waktu, sebab, akibat, syarat, alat, dan sebagainya.Kalimat Tanya adalah kalimat yang isinya mengharapkan reaksi ataujawaban berupa pengakuan, keterangan, alasan, atau pendapat dari11

pihak pendengar atau pembaca. Kalimat tanya dibedakan menjadi 4(empat):a. Kalimat tanya yang meminta jawaban dalam bentuk pengakuan ya– tidak, atau ya – bukan.Contoh : P : Apakah suaminya guru SMP?J : Bukan, suaminya bukan guru SMP.b. Kalimat tanya yang meminta jawaban berupa keterangan mengenaisalah satu unsur kalimat dibentuk dengan bantuan kata Tanya siapa,apa, apa, mana, berapa, dan kapan dan lazim pula disertai denganpartikel tanya –kah.Contoh : P : Siapa orang yang duduk di sana itu?J : Orang yang duduk disana itu adalah Bapak Lurah.c. Kalimat tanya yang meminta jawaban berupa ‘alasan’ dibentukdengan bantuan kata tanya mengapa atau kenapa yang biasanyadiletakkan pada awal kalimat dan boleh pula diberi partikel tanya –kah. Kalau kata tanya mengapa atau kenapa diletakkan pada akhirkalimat, maka partikel tanya –kah tidak dapat digunakan.Contoh: P : Mengapa kamu sering terlambat?J : Karena rumah saya jauh.d. Kalimat tanya yang menanyakan proses atau menanyakan pendapatdibentuk dengan bantuan kata tanya bagaimana, yang biasanyadiletakkan pada awal kalimat, dan boleh pula diberi partikel tanya –kah. Tetapi kalau kata tanya bagaimana ini diletakkan pada akhirkalimat, maka partikel tanya –kah itu tidak perlu digunakan.Contoh: P : Bagaimana cara mengangkut batu sebesar ini?J:Denganbantuanmesinkatrol.12

2.6Pembobotan Tf-IdfMetode pembobotan yang paling sederhana terhadap suatu term (termwighting) adalah dengan menggunakan frekuensi kemunculan term (kata) /term frequency (TF) yang bersangkutan pada suatu dokumen. Eksperimeneksperimen pre-processing dokumen berbasiskan frekuensi term, telah banyakdilakukan dalam bidang information retrieval. Namun, dalam kaitannyadengan performa recall dan precision, penggunaan frekuensi term saja ternyatahanya dapat memenuhi fungsi recall. Fungsi precision yang baik sayangnyatidak dapat dicapai dengan representasi frekuensi term saja pada puanuntukmembedakan suatu dokumen dengan dokumen yang lain untuk mencegahretrieval yang tidak diinginkan. Frekuensi term yang tinggi dapat digunakandalam pre-processing, hanya jika frekuensi kemunculan term bersangkutantidaklah tinggi pada dokumen – dokumen yang lainnya. Nilai precision yangbaik pada kenyataannya dihasilkan oleh term-term yang kemunculannyatergolong jarang pada suatu dokumen, karena term-term bersangkutanseringkali menjadi pembeda signifikan antara dokumen-dokumen yangmemiliki term-term tersebut dengan dokumen yang tidak memiliki term-termbersangkutan. (Mahendra, 2008)Untuk meningkatkan precision, digunakanlah representasi InverseDocument Frequency (IDF) untuk term-term, yang didefinisikan sebagailogaritma dari rasio jumlah keseluruhan dokumen yang diproses denganjumlah dokumen yang memiliki term bersangkutan. Ini berarti bahwa termterm yang tingkat kemunculannya jarang akan memiliki nilai IDF yang tinggi.Eksperimen yang dilakukan oleh Spärck Jones membuktikan bahwapenggunaan IDF akan menghasilkan performa retrieval yang lebih efektif jikadibandingkan dengan penggunaan frekuensi term saja. Ini yang kemudianmenginspirasi Salton untuk mengkombinasikan kedua metode pembobotantersebut, dengan mempertimbangkan frekuensi inter-dokumen dan frekuensiintra-dokumen dari suatu term. Dengan menggunakan frekuensi term padasuatu dokumen dan distribusinya pada keseluruhan dokumen, yaknikemunculan pada dokumen-dokumen lain (IDF). Salton menarik suatukesimpulan melalui eksperimennya bahwa term-term dengan total frekuensimenengah, lebih berguna dalam retrieval jika dibandingkan dengan term-term13

yang total frekuensinya terlalu tinggi atau terlalu rendah. Konsep frekuensiintra-dokumen dan inter-dokumen ini kemudian dikenal sebagai metode TFIDF. (Mahendra, 2008)Rumus yang digunakan untuk menyatakan bobot (w) masing-masing dokumenterhadap kata kunci adalah:Wd,t tf d,t IDFt . . . (1)Dimana:d dokumen ke-dt kata ke-t dari kata kunciWd,t2.7 bobot dokumen ke-d terhadap kata ke-tPenghitungan Tingkat Kemiripan (Cosine Similarity)Perbandingan kemiripan (similarity) yang digunakan disini adalahstandard cosine similarity dengan rumus :. . . . (2)SDiDj : Similarity Dokumen ke I dan ke j2.8AndroidAndroid merupakan Operating System (OS) Mobile yang tumbuh ditengah OS lainya yang berkembang pada masa dewasa ini yang bergerak padasistem operasi telepon selular yang berbasis linux. OS lainnya seperti WindowsMobile, I-Phone OS, Symbian dan masih banyak lainnya. Akan tetapi, OSyang ada ini berjalan dengan memprioritaskan aplikasi inti yang dibangunsendiri tanpa melihat potensi yang cukup besar dari aplikasi pihak ketiga.(Hermawan, 2011)Android memiliki empat karakteristik sebagai berikut :1. TerbukaAndroid dibangun untuk benar- benar terbuka sehingga sebuah aplikasidapat memanggil salah satu fungsi inti ponsel, seperti membuat panggilan,14

mengirim pesan teks, menggunakan kamera, dll.2. Semua aplikasi dibuat samaAndroid tidak memberikan perbedaan terhadap aplikasi utama dari telepondan aplikasi pihak ketiga. Semua aplikasi dapat dibangun untuk memilikiakses yang sama terhadap kemampuan sebuah telepondalam menyediakanlayanan dan aplikasi yang luas terhadap para pengguna.3. Memecahkan hambatan pada aplikasiAndroid memecahkan hambatan untuk membangun aplikasi yang baru daninovatif. Misalnya, pengembang dapat menggabungkan informasi yangdiperoleh dari web dengan data pada ponsel seseorang seperti kontakpengguna, kalender atau lokasi geografis.4. Pengembangan aplikasi yang mudah dan cepatAndroid menyediakan akses yang sangat luas kepada pengguna untukmenggunakan aplikasi yang semakin baik. Android memiliki sekumpulantools yang dapat digunakan sehingga membantu para pengembang dalammeningkatkan produktivitas pada saat membangun aplikasi yang dibuat.Agar bisa membuat aplikasi dengan baik, tentunya harus mengetahuiarsitektur OS Android beserta elemen-elemennya. Berikut ini adalah skemaarsitektur android.15

Gambar 2.2. Arsitektur AndroidBerdasarkan gambar 2.2, secara garis besar, arsitektur android terdiri dariempat layer komponen, yaitu :1. Layer Aplication and WidgetInilah layer pertama pada OS Android. Layer ini merupakan layer yangberhubungan dengan aplikasi-aplikasi inti yang berjalan pada Android OS.Seperti klien e-mail, program SMS, kalender, browser, peta, kontak, danlain-lain. Semua aplikasi ini dibuat dengan menggunakan bahasa Java.Dalam pembuatan aplikasi, maka aplikasi tersebut berada di layer ini.2. Layer Aplication FrameworkAplication Framework merupakan layer dimana para pembuat aplikasimenggunakan komponen- komponen yang ada disini untuk membuataplikasi. Beberapa contoh komponen yang termasuk di dalam AplicationFramework adalah sebagi berikut :a. Viewb. Content Providerc. Resource Manager16

d. Notification Managere. Activity Manager3. Layer LibrariesLibraries merupakan layer tempat fitur-fitur android berada. Pada umumnyalibraries diakses untuk menjalankan aplikasi. Beberapa libraries edia untukmenjalankan tampilan, libraries graphic, libraries SQLite untuk dukungandatabase, dan masih banyak libraies lainnya.4. Android RuntimeAndroid Runtime merupakan layer yang membuat aplikasi android bisadijalankan. Android Runtime dibagi menjadi dua bagian,yaitu :a. Core Libraries : berfungsi untuk menerjemahkan bahasa Java/C.b. Dalvik Virtual Machine : sebuah mesin virtual berbasis register yangdioptimalkan untuk menjalankan fungsi- fungsi pada android secaraefisien.5. Linux KernelLinux Kernel merupakan layer tempat keberadaan inti dari OS Android.Layer ini berisi file-file sistem yang mengatur processing system, memory,resource, drivers dan sistem android lainnya. Inilah yang membuat filesistem pada android mirip dengan file sistem operasi berbasis Linux. Kernelyang digunakan adalah Kernrl Linux versi 2.6 dan versi 3.x pada androidversi 4.0 ke atas. Kernel ini berbasis monolithic.2.9Android Software Development Kit (Sdk)Android SDK adalah tool API (Application Programming Interface) yangdiperlukan untuk mulai mengembangkan aplikasi pada platform android.Android merupakan subset perangkat lunak untuk ponsel yang meliputi SistemOperasi, Middle Ware dan aplikasi kunci yang release oleh Google. (Safaat,2011)2.10 Android Development Tools (Adt)Android Development Tools (ADT) lebih dikenal dengan plugin Eclipse.Plugin ini yang dapat membuat Eclipse dapat membuat project yang berbasisAndroid. ADT adalah plugin di Eclipse yang harus kita instal sehingga Android17

SDK dapat digabungkan dengan IDE Eclipse yang diguakan sebagai tempatcoding aplikasi android nantinya. (Safaat, 2011)2.11 Android Virtual Device (Avd)AVD merupakan emulator untuk menjalankan program aplikasi Androidyang kita buat. AVD ini nantinya yang kita jadikan sebagai tempat tes danmenjalankan aplikasi Android yang kita buat AVD berjalan di Virtual Machine.(Safaat, 2011)18

2.1 Text Mining. Text Mining merupakan proses otomatis atau sebagian proses otomatis . untuk teks. Ini melibatkan pembentukan text yang lebih terstruktur dan penggalian informasi yang relevan dari teks ( Miller, 2005;104 ). Text Mining . selalu berurusan dengan kata - kata, jutaan kata - kata yang di simpan dalam bentuk file elektronik.

Related Documents:

tentang teori-teori hukum yang berkembang dalam sejarah perkembangan hukum misalnya : Teori Hukum Positif, Teori Hukum Alam, Teori Mazhab Sejarah, Teori Sosiologi Hukum, Teori Hukum Progresif, Teori Hukum Bebas dan teori-teori yang berekembang pada abad modern. Dengan diterbitkannya modul ini diharapkan dapat dijadikan pedoman oleh para

BAB II Landasan Teori Dan Pengembangan Hipotesis A. Teori Agency (Agency Theory) . agent (yangmenerima kontrak dan mengelola dana principal) mempunyai kepentingan yang saling bertentangan.3 Aplikasi agency theory dapat terwujud dalam kontrak kerja yang akan mengatur proporsi hak dan kewajiban masing-masing pihak dengan tetap memperhitungkan kemanfaatan secara keseluruhan.4 Teori agensi .

BAB II KAJIAN PUSTAKA, KONSEP, LANDASAN TEORI DAN MODEL PENELITIAN 2.1 Kajian Pustaka Beberapa tulisan yang dapat digunakan sebagai tolok ukur seperti tesis, . teori manajemen, dan teori analisis SWOT. Perbedaan penelitian tersebut di atas adalah perbedaaan

BAB II LANDASAN TEORI A. Deskripsi Teori 1. Nilai Nilai berasal dari bahasa Latin vale’re yang artinya berguna, mampu akan, berdaya, berlaku, sehingga nilai diartikan sebagai sesuatu yang dipandang baik, bermanfaat dan paling benar menurut keyakinan seseorang atau sekelompok orang.1

BAB II LANDASAN TEORI 2.1. Tinjauan Pustaka Untuk menyelesaikan masalah-masalah dalam penyusunan skripsi ini dibutuhkan tinjauan pustaka yang berisi teori-teori atau konsep-konsep yang digunakan sebagai kajian dan acuan bagi penulis 2.1.1. Pengertian Sistem Suatu sistem t

17 BAB II LANDASAN TEORI A. Teori Stakeholder (Stakeholder Theory) Ramizes dalam bukunya Cultivating Peace, mengidentifikasi berbagai pendapat mengenai stakeholder.Friedman mendefinisikan stakeholder sebagai: “any group or individual who can affect or is affected by the achievment of the organi

BAB II . URAIAN TEORI . 1.1. Landasan Teori . Kerangka teoritis adalah konsep-konsep yang sebenarnya merupakan abstraksi dari ha

6 BAB II LANDASAN TEORI . A. Kajian Teori. 1. Konstruktivisme a. Pengertian Konstruktivisme Konstruktivis