Resume Jurnal “Studi
Penggunaan Data Exif Untuk Mengukur Pengaruhnya
Terhadap Peningkatan
Kinerja Image Search Engine”
Jurnal ini akan
menjelaskan tentang masalah yang kita sering temui sebagai pengguna internet yaitu
cara untuk menemukan data yang kita perlukan diantara milyaran data yang
terdapat di Internet bila data yang kita cari berhubungan dengan data nontext, misalnya gambar, suara dan
video.Salah satu masalah tersulit yang dihadapi oleh search engine dalam menemukan data non-text terutama adalah karena dokumen yang tidak berupa string, sedangkan query yang dimasukkan oleh pengguna
adalah berupa string. Dalam
makalah ini akan dibahas mengenai penggunaan data EXIF (Exchangeable Image File Format) untuk membantu peningkatan kemampuan
search engine tersebut. Inti
permasalahan dari sebuah information
retrieval system adalah
bagaimana menentukan apakah suatu dokumen relevan dengan query yang dimasukkan oleh user.
Secara manual, manusia memiliki kemampuan intelektual untuk menentukan
relevansi antara dokumen dengan query pada
domain yang dikuasainya. Namun untuk pencarian dengan komputer, perlu dibuat
suatu model sehingga relevansi dapat dihitung dan ditentukan secara kuantitas.
Salah satu model yang cukup efektif dan banyak digunakan adalah model ruang vektor. Pada model ruang vektor, kata – kata pada dokumen dan query (index term) dimodelkan sebagai suatu ruang vektor berdimensi n dengan n adalah jumlah term yang berbeda pada dokumen dan query tersebut. Relevansi dihitung dengan membandingkan perbedaan arah atau sudut yang terbentuk oleh vektor – vektor tersebut. Secara matematis, relevansi pada model ini dihitung dengan nilai cos dari sudut yang terbentuk. Model ruang vektor mengasumsikan bahwa baik dokumen maupun query berbentuk string, sehingga dapat dibandingkan dengan mudah. Model ruang vektor tidak dapat digunakan jika dokumen atau query memiliki bentuk selain string, misalnya gambar. Untuk pencarian gambar, dapat digunakan beberapa model khusus yang diciptakan untuk mengenali bentuk dari gambar, dengan teknologi image recognition. Namun teknologi image recognition masih bersifat experimental dan dirasa kurang sesuai dengan kebutuhan image search engine dimana user lebih menyukai memasukkan query dalam bentuk string. Karena alasan tersebut, maka image search engine yang akan dibangun akan mencoba menerapkan teknik pencarian yang diterapkan pada dokumen teks pada dokumen gambar, yaitu dengan model ruang vektor.
Dalam image search engine dimana dokumen berbentuk gambar, term yang digunakan dalam pengukuran relevansi diambil dari beberapa teks yang berhubungan dengan gambar tersebut, misalnya nama file, atribut ALT pada tag <img>, judul halaman web, link menuju gambar tersebut, kata – kata di sekitar gambar dan sebagainya. Komponen teks yang paling akurat menunjukkan content dari suatu image adalah nama file dan atribut ALT. Pada makalah ini, komponen teks yang digunakan untuk mengetahui content dari suatu image adalah Nama file, Atribut ALT pada tag <img>, Metadata EXIF yang tersimpan di dalam image.Dalam pencarian, suatu term yang digunakan mungkin lebih penting / signifikan dibandingkan dengan term yang lain. Pada image search engine yang akan dibangun, term yang digunakan berasal dari beberapa komponen teks gambar seperti yang telah disebutkan. Teks yang dihasilkan sederhana dan cukup pendek sehingga tidak memerlukan normalisasi serta penghitungan TF cukup menggunakan teknik Raw TF. Agar penghitungan relevansi dokumen lebih cepat, maka perlu dilakukan proses indexing. Pada image search engine yang akan dibangun, proses indexing akan dilakukan terhadap suatu data deskripsi yang diekstrak dari image tersebut. Ketika suatu image diproses, maka komponen teks dari image tersebut diambil dan dijadikan “deskripsi” dari image. Deskripsi ini mewakili dokumen image tersebut dan dapat dipandang sebagai suatu dokumen teks biasa. Term yang digunakan dalam proses indexing diambil dari deskripsi ini. Indexing dilakukan dengan membuat suatu inverted index yang menyimpan term, dokumen image yang mengandung term tersebut, dan jumlah kemunculan term pada dokumen (TF).
Pada saat proses pencarian, relevansi dihitung dengan TF dari index ini, dan IDF dihitung dari jumlah dokumen dengan term tersebut. Pada proses searching, relevansi dihitung dengan menggunakan index yang telah dibuat denganruang vektor. Jika dokumen relevan dengan query, maka akan dimasukkan ke dalam hasil pencarian. Data EXIF (kecuali image description) akan digunakan dalam proses filtering. User dapat menentukan beberapa parameter, sehingga hasil pencarian akan di filter menggunakan parameter tersebut sebelum ditampilkan kepada user. Pada makalah ini, hanya akan digunakan beberapa tag saja yang dapat dimanfaatkan dalam proses image searching, yaitu ,Date/Time, Exif Image Width, Exif Image Height, Software,Make, Artist, Orientation, Image Description.Copyright Perangkat lunak yang akan dibangun adalah sebuah image search engine berbasis web yang selanjutnya akan disebut dengan “ExifSearch”. ExifSearch dapat digunakan untuk mencari dokumen dalam bentuk image JPEG dengan menggunakan data EXIF untuk membantu pencarian. ExifSearch memiliki dua mode pencarian, yaitu Normal Search dan Advanced Search. ExifSearch memiliki suatu webcrawler dimana user dapat memasukkan URL dari sebuah web yang kemudian akan diproses dengan diambil data image pada web tersebut. Image yang ditemukan kemudian diambil nama file, atribut ALT, dan data EXIF yang diperlukan untuk kemudian disimpan dalam database.vkecil) dan link menuju image tersebut. ExifSearch merupakan aplikasi berbasis web yang dikembangkan dengan framework Ruby On Rails. Bahasa pemrograman yang digunakan adalah Ruby dengan menggunakan interpreter Jruby yang berjalan di atas Java Virtual Machine.
Aplikasi yang dibangun pada memiliki batasan Indexing dan relevansi Pengujian perangkat lunak yang dilakukan memiliki beberapa tujuan, yaitu:
Salah satu model yang cukup efektif dan banyak digunakan adalah model ruang vektor. Pada model ruang vektor, kata – kata pada dokumen dan query (index term) dimodelkan sebagai suatu ruang vektor berdimensi n dengan n adalah jumlah term yang berbeda pada dokumen dan query tersebut. Relevansi dihitung dengan membandingkan perbedaan arah atau sudut yang terbentuk oleh vektor – vektor tersebut. Secara matematis, relevansi pada model ini dihitung dengan nilai cos dari sudut yang terbentuk. Model ruang vektor mengasumsikan bahwa baik dokumen maupun query berbentuk string, sehingga dapat dibandingkan dengan mudah. Model ruang vektor tidak dapat digunakan jika dokumen atau query memiliki bentuk selain string, misalnya gambar. Untuk pencarian gambar, dapat digunakan beberapa model khusus yang diciptakan untuk mengenali bentuk dari gambar, dengan teknologi image recognition. Namun teknologi image recognition masih bersifat experimental dan dirasa kurang sesuai dengan kebutuhan image search engine dimana user lebih menyukai memasukkan query dalam bentuk string. Karena alasan tersebut, maka image search engine yang akan dibangun akan mencoba menerapkan teknik pencarian yang diterapkan pada dokumen teks pada dokumen gambar, yaitu dengan model ruang vektor.
Dalam image search engine dimana dokumen berbentuk gambar, term yang digunakan dalam pengukuran relevansi diambil dari beberapa teks yang berhubungan dengan gambar tersebut, misalnya nama file, atribut ALT pada tag <img>, judul halaman web, link menuju gambar tersebut, kata – kata di sekitar gambar dan sebagainya. Komponen teks yang paling akurat menunjukkan content dari suatu image adalah nama file dan atribut ALT. Pada makalah ini, komponen teks yang digunakan untuk mengetahui content dari suatu image adalah Nama file, Atribut ALT pada tag <img>, Metadata EXIF yang tersimpan di dalam image.Dalam pencarian, suatu term yang digunakan mungkin lebih penting / signifikan dibandingkan dengan term yang lain. Pada image search engine yang akan dibangun, term yang digunakan berasal dari beberapa komponen teks gambar seperti yang telah disebutkan. Teks yang dihasilkan sederhana dan cukup pendek sehingga tidak memerlukan normalisasi serta penghitungan TF cukup menggunakan teknik Raw TF. Agar penghitungan relevansi dokumen lebih cepat, maka perlu dilakukan proses indexing. Pada image search engine yang akan dibangun, proses indexing akan dilakukan terhadap suatu data deskripsi yang diekstrak dari image tersebut. Ketika suatu image diproses, maka komponen teks dari image tersebut diambil dan dijadikan “deskripsi” dari image. Deskripsi ini mewakili dokumen image tersebut dan dapat dipandang sebagai suatu dokumen teks biasa. Term yang digunakan dalam proses indexing diambil dari deskripsi ini. Indexing dilakukan dengan membuat suatu inverted index yang menyimpan term, dokumen image yang mengandung term tersebut, dan jumlah kemunculan term pada dokumen (TF).
Pada saat proses pencarian, relevansi dihitung dengan TF dari index ini, dan IDF dihitung dari jumlah dokumen dengan term tersebut. Pada proses searching, relevansi dihitung dengan menggunakan index yang telah dibuat denganruang vektor. Jika dokumen relevan dengan query, maka akan dimasukkan ke dalam hasil pencarian. Data EXIF (kecuali image description) akan digunakan dalam proses filtering. User dapat menentukan beberapa parameter, sehingga hasil pencarian akan di filter menggunakan parameter tersebut sebelum ditampilkan kepada user. Pada makalah ini, hanya akan digunakan beberapa tag saja yang dapat dimanfaatkan dalam proses image searching, yaitu ,Date/Time, Exif Image Width, Exif Image Height, Software,Make, Artist, Orientation, Image Description.Copyright Perangkat lunak yang akan dibangun adalah sebuah image search engine berbasis web yang selanjutnya akan disebut dengan “ExifSearch”. ExifSearch dapat digunakan untuk mencari dokumen dalam bentuk image JPEG dengan menggunakan data EXIF untuk membantu pencarian. ExifSearch memiliki dua mode pencarian, yaitu Normal Search dan Advanced Search. ExifSearch memiliki suatu webcrawler dimana user dapat memasukkan URL dari sebuah web yang kemudian akan diproses dengan diambil data image pada web tersebut. Image yang ditemukan kemudian diambil nama file, atribut ALT, dan data EXIF yang diperlukan untuk kemudian disimpan dalam database.vkecil) dan link menuju image tersebut. ExifSearch merupakan aplikasi berbasis web yang dikembangkan dengan framework Ruby On Rails. Bahasa pemrograman yang digunakan adalah Ruby dengan menggunakan interpreter Jruby yang berjalan di atas Java Virtual Machine.
Aplikasi yang dibangun pada memiliki batasan Indexing dan relevansi Pengujian perangkat lunak yang dilakukan memiliki beberapa tujuan, yaitu:
1. Mengetahui
kualitas hasil pencarian serta dampak dari penggunaan data EXIF (precission dan recall sebelum dan sesudah penggunaan
data EXIF). Terdapat beberapa kasus uji yang digunakan dalam pengujian
perangkat lunak ini, yaitu: Kasus uji untuk pengujian fungsional dan pencarian
2. Mengetahui
apakah perangkat lunak yang diimplementasikan telah sesuai dengan kebutuhan
utama perangkat lunak yang dispesifikasikan pada tahap analisis.
3. Mengetahui
apakah keluaran perangkat lunak berupa hasil pencarian telah sesuai dengan aturan
yang diterapkan.
Kesimpulan yang
dapat diambil dari jurnal ini antara lain:
1. Penggunaan
data EXIF tidak memiliki pengaruh yang terpola terhadap perubahan nilai precission dan recall, sehingga belum dapat
disimpulkan bahwa penggunaan data EXIF akan
meningkatkan
kinerja image search engine yang
diukur menggunakan precission dan
recall.
2. Penggunaan
data EXIF pada pencarian cenderung menurunkan jumlah image hasil pencarian. Hal ini disebabkan query yang digunakan oleh user akan lebih spesifik, serta
banyaknya image yang ada di
Internet yang tidak memiliki data EXIF.
3. Data EXIF dapat
diterapkan pada image search engine dengan
metode pencarian yang menggunakan
proses filtering. Proses filtering bertujuan menyaring hasil
pencarian sehingga sesuai
dengan parameter pencarian yang dimasukkan
oleh user. Pada proses filtering,
parameter yang
dimasukkan oleh user akan dibandingkan
dengan data EXIF yang dimiliki
image tersebut.
4. Keuntungan
utama dari penggunaan data EXIF pada image
search engine adalah memungkinkan user
untuk membentuk query pencarian
yang lebih spesifik.
0 komentar:
Posting Komentar