Contoh Sederhana Koefisien Jaccard Pada Dokumen Teks
Daftar Isi “Contoh Sederhana Koefisien Jaccard Pada Dokumen Teks“
1. Contoh Perhitungan Koefisien Jaccard (1)
2. Contoh Perhitungan Koefisien Jaccard (2)
Salah satu teknik termudah untuk menghitung skor ranking hasil searching antara query dengan dokumen adalah Koefisien Jaccard. Hal ini mudah karena kita tinggal mencari item mana saja yang sama dibagi dengan total item keduanya.

Persamaan Jaccard Distance
1. Contoh Perhitungan Koefisien Jaccard (1)
Jika diketahui A={1,2,3,4}, B={1,2,4}, dan C={1,2,4,5}, berapakah Jaccard (A,B), Jaccard(B,C), dan Jaccard(A,C). Berikut ini penyelesaiannya.

Contoh Jaccard
2. Contoh Perhitungan Koefisien Jaccard (2)
Berikutnya untuk kasus query dan document. Misalnya kita punya:
- query: ides of march
- doc1: caesar died in march
- doc2: the long march
Cari Koefisien Jaccard antara query dengan doc1 dan doc2.

Contoh Jaccard (2)
2 contoh perhitungan diatas menggunakan teknik n-gram bernilai n=1, untuk pembahasan lebih lengkap tentang n-gram ada pada artikel lain berjudul Apa itu N-gram?
Sedangkan untuk contoh perhitungan menggunakan n-gram bernilai n=2 atau bisa disebut dengan bigram sebagai berikut:
Diketahui 3 dokumen :
- d1: “Jack London traveled to Oakland”
- d2: “Jack London traveled to the city of Oakland”
- d3: “Jack traveled from Oakland to London”
Nilai dari Koefisian Jaccard J(d1,d2) dan J(d1,d3) adalah:
- J(d1, d2) = 3/8 = 0.375
Dimana nilai bigram dari dokumen d1 adalah {Jack London, London traveled, traveled to, to Oakland} dengan jumlah (n) anggota himpunan 4, sedangkan nilai bigram dari dokumen d2 adalah {Jack London, London traveled, traveled to, to the, the city, city of, of Oakland} dengan jumlah (n) anggota himpunan 7. - J(d1, d3) = 0/9 = 0
Dimana nilai bigram dari dokumen d3 adalah {Jack traveled, traveled from, from Oakland, Oakland to, to London} dengan jumlah (n) anggota himpunan 5
Perhatikan bahwa nilai Koefisian Jaccard yang dihasilkan sangat sensitive dan cenderung menuju dissimilarity meskipun sebenarnya jika dilihat secara secara sekilas nilai d1 dan d3 memiliki sedikit kemiripan atau tidak bernilai 0.
Koefisien jaccard memiliki kelemahan dimana koefisien ini tidak memperhatikan term frequency (berapa kali suatu term terdapat di dalam suatu dokumen). Perlu diketahui, bahwa terms yang jarang muncul dalam suatu koleksi sangat bernilai dari sisi informasi, tetapi Jaccard tidak mempertimbangkan hal ini.
Untuk cara lain yang lebih komprehensif dimana memperhitungkan frekuensi atau kemunculan masing-masing term baik pada suatu dokumen ataupun keseluruhan dokumen dapat dibaca pada artikel lain berjudul Pembobotan Kata atau Term Weighting TF-IDF.
Semoga artikel berjudul “Contoh Sederhana Koefisien Jaccard Pada Dokumen Teks” bisa bermanfaat dan silahkan jika masih ada yang kurang jelas dapat ditanyakan di kolom komentar dibawah ini.
Silahkan Like Fanspage dan Share artikel ini jika menurut kamu bermanfaat untuk kamu dan orang lain.