Jurnal SISFO : Inspirasi Profesional Sistem Informasi Volume 5, Number 2, 2014 page.159-163 PENERAPAN TEKNIK WEB SCRAPING PADA MESIN PENCARI ARTIKEL ILMIAH

Jurnal SISFO : Inspirasi Profesional Sistem Informasi Volume 5, Number 2, 2014 page.159-163

PENERAPAN TEKNIK WEB SCRAPING PADA MESIN PENCARI ARTIKEL ILMIAH

DOWNLOAD PENERAPAN TEKNIK WEB SCRAPING PADA MESIN PENCARI ARTIKEL ILMIAH

COVER JURNAL SISFO Volume 5, Number 2, 2014 page.159-163

http://eprints.binadarma.ac.id/2557/

PENERAPAN TEKNIK WEB SCRAPING
PADA MESIN PENCARI ARTIKEL ILMIAH
Ahmat Josi1), Leon Andretti Abdillah2), Suryayusra3)
1,3Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Bina Darma
2Program Studi Sistem Informasi, Fakultas Ilmu Komputer, Universitas Bina Darma
Jl. Ahmad Yani No. 12, Palembang, 30264
Telp : (0711) 515679, Fax : (0711) 515581
E-mail : ahmat_josi@yahoo.com1), leon.abdillah@yahoo.com2*), suryayusra@binadarma.ac.id3)
Abstract
Search engines are a combination of hardware and computer software supplied by a particular company through the website which has been determined. Search engines collect information from the web through bots or web crawlers that crawls the web periodically. The process of retrieval of information from existing websites is called “web scraping.” Web scraping is a technique of extracting information from websites. Web scraping is closely related to Web indexing, as for how to develop a web scraping technique that is by first studying the program makers HTML document from the website will be taken to the information in the HTML tag flanking the aim is for information collected after the program makers learn navigation techniques on the website information will be taken to a web application mimicked the scraping that we will create. It should also be noted that the implementation of this writing only scraping involves a free search engine such as: portal garuda, Indonesian scientific journal databases (ISJD), google scholar.
Key words: Web scraping, search engine, scientific article.
Abstrak
Search engine yaitu kombinasi perangkat keras dan perangkat lunak komputer yang disediakan oleh perusahaan tertentu melalui website yang telah ditentukan. Search engine mengumpulkan informasi dari web melalui program bot atau web crawler yang secara periodik menelusuri web. Proses pengambilan informasi dari website-website yang ada ini disebut dengan “web scraping”.Web Scraping adalah suatu teknik penggalian informasi dari situs web. Web Scraping berkaitan erat dengan pengindeksan web, adapun cara mengembangkan teknik web scraping yaitu dengan cara pertama Pembuat program mempelajari dokumen HTML dari website yang akan diambil informasinya untuk di tag HTML tujuannya ialah untuk mengapit informasi yang diambil setelah itu pembuat program mempelajari teknik navigasi pada website yang akan diambil informasinya untuk ditirukan pada aplikasi web scraping yang akan kita buat. Perlu pula diperhatikan bahwa implementasi scraping pada tulisan ini hanya melibatkan mesin pencari yang gratis seperti: portal garuda, Indonesian scientific journal database (ISJD), google scholar.
Kata kunci: Pengumpul jaringan, mesin pencari, artikel ilmiah.
1. PENDAHULUAN
Meningkatnya kebutuhan akan informasi mendorong manusia untuk mengembangkan teknologi-teknologi baru agar pengolahan data dan informasi dapat dilakukan dengan mudah dan cepat. Salah satu teknologi yang sedang berkembang dengan pesat saat ini adalah teknologi informasi/komputer (Abdillah & Emigawaty, 2009), teknologi internet. Dengan adanya internet akan mempermudah dan mempercepat proses pengolahan data, mencari informasi dan lain-lain. Salah satu fasilitas pendukung perkembangan internet adalah search engine (mesin pencarian).
Search engine (mesin pencarian) yaitu kombinasi perangkat keras dan perangkat lunak komputer yang disediakan oleh perusahaan tertentu melalui website yang telah ditentukan. Banyak peneliti dan survey menunjukkan bahwa Google adalah search engine nomor satu diikuti oleh Yahoo (Abdillah, Falkner, & Hemer, 2010). Search engine mengumpulkan informasi dari web melalui program bot (robot) atau web crawler yang secara periodik menelusuri web. Proses pengambilan informasi dari website-website yang ada ini disebut dengan “web scraping”. Web Scraping (Turland, 2010) adalah proses pengambilan sebuah dokumen semi-terstruktur dari internet, umumnya berupa halaman-halaman web dalam bahasa markup seperti HTML atau XHTML, dan menganalisis dokumen tersebut untuk diambil data tertentu dari halaman tersebut untuk digunakan bagi kepentingan lain. Web scraping sering dikenal sebagai screen scraping. Web Scraping tidak dapat dimasukkan dalam bidang data mining karena data mining menyiratkan upaya untuk memahami pola semantik atau tren dari sejumlah besar data yang telah diperoleh. Aplikasi web scraping (juga disebut intelligent, automated, or autonomous agents) hanya fokus pada cara memperoleh data melalui pengambilan dan ekstraksi data dengan ukuran data yang bervariasi. A. Josi, L.A. Abdillah, Suryayusra, Penerapan teknik web scraping pada mesin pencari artikel ilmiah 160
Web scraping memiliki sejumlah langkah, sebagai berikut: 1) Create Scraping Template: Pembuat program mempelajari dokumen HTML dari website yang akan diambil informasinya untuk tag HTML yang mengapit informasi yang akan diambil, 2) Explore Site Navigation: Pembuat program mempelajari teknik navigasi pada website yang akan diambil informasinya untuk ditirukan pada aplikasi web scraper yang akan dibuat, 3) Automate Navigation and Extraction: Berdasarkan informasi yang didapat pada langkat 1 dan 2 di atas, aplikasi web scraper dibuat untuk mengotomatisasi pengambilan informasi dari website yang ditentukan, dan 4) Extracted Data and Package History: Informasi yang didapat dari langkah 3 disimpan dalam tabel atau tabel-tabel database. Cara kerjanya lihat gambar 1 (The Computer Advisor).
Gambar 1. Ilustrasi Cara Kerja Web Scrapper Manfaat dari web scraping ialah agar informasi yang dikeruk lebih terfokus sehingga memudahkan dalam melakukan pencarian sesuatu, adapun cara mengembangkan teknik web scraping yaitu dengan cara pertama Pembuat program mempelajari dokumen HTML dari website yang akan diambil informasinya untuk di tag HTML tujuannya ialah untuk mengapit informasi yang diambil (Create Scraping Template), setelah itu pembuat program mempelajari teknik navigasi pada website yang akan diambil informasinya untuk ditirukan pada aplikasi web scraping yang akan dibuat (Explore Site Navigation), kemudian aplikasi web scraping akan mengotomatisasi informasi yang didapat dari website yang telah ditentukan (Automate Navigation and Extraction), informasi yang didapat tersebut akan disimpan ke dalam tabel basisdata (Extracted Data and Package History) (Juliasari & Sitompul, 2012). Sejumlah penelitian terkait web srcapping, antara lain: 1) Aplikasi Search Engine Paper Karya Ilmiah Berbasis Web (Darmadi, Intan, & Lim, 2006), 2) Penghasil konten otomatis halaman web (Utomo, 2012), 3) Aplikasi Search Engine dengan Metode Depth First Search (DFS) (Juliasari & Sitompul, 2012), dan 4) Web Scraping pada Situs Wikipedia (Utomo, 2013).
Berdasarkan latar belakang di atas penulis tertarik untuk meneliti, merancang dan mengimplementasikan sebuah aplikasi pencarian dengan menggunakan bahasa pemrograman PHP dan database MySQL sebagai medium penyimpanan datanya yang akan dimanfaatkan secara spesifik untuk mengumpulkan informasi mengenai artikel pada dokumen ilmiah. Dokumen ilmiah (Abdillah, 2012) yang paling populer adalah artikel jurnal ilmiah dari suatu bidang atau topik. Apalagi saat ini, peningkatan volume literatur ilmiah yang dipublikasikan baik dalam format naskah dan juga tersedia secara elektronik (Abdillah, Falkner, & Hemer, 2011).
2. METODOLOGI
Waktu penelitian dimulai dari awal bulan Desember 2013 sampai dengan akhir bulan Januari 2014 (dua bulan). Penelitian penerapan teknik web scraping dilakukan dengan observasi pada sejumlah portal gratis, sebagai berikut: 1) Portal Garuda, 2) Portal Indonesian Scientific Journal Database (ISJD), dan 3) Portal Google Cendekia (Google Scholar).
Gambar 2. Linear Sequential Model Metode pengembangan sistem yang digunakan adalah linear sequential model (Pressman, 2001) model atau classic life cycle atau waterfall model, yang melibatkan fase-fase: 1) Analysis, 2) Design, 3) Coding, dan 4) Testing.
2.1 Analisis
Kegiatan analisis melibatkan 4 aktivitas, yang terdiri atas: 1) Initiating the Process, 2) Facilitated Application Specification Techniques, 3) Quality function deployment (QFD): a) Normal requirements, b) Expected requirements, c) Exciting requirements, dan 4) Use-Cases. Gambar 3. Use-Case Diagram PENERAPAN TEKNIK WEB SCRAPING PADA MESIN PENCARI ARTIKEL ILMIAH User Administrator Browsing Website Mencari Artikel Ilmiah Login Validasi Admin «uses» Ubah Password Kelola Data Administrator Kelola Data Hasil Pencarian Logout A. Josi, L.A. Abdillah, Suryayusra, Penerapan teknik web scraping pada mesin pencari artikel ilmiah 161
Pada use-case (gambar 3) memperlihatkan uraian kegiatan yang melibatkan administrator dan user. Administrator mengelola data admin (jika diperlukan) sekaligus mengelola data hasil pencarian. Sementara user hanya diperbolehkan untuk melakukan pencarian (searching).
2.2 Perancangan Basisdata (Database Design)
Pada bagian desain, penulis fokus pada desain tabel data scrape (tabel 1). Desain database merupakan salah satu cara untuk merancang dan membangun sistem, dalam hal ini web scraping. Table 1. Tabel Data_Scrape

No Nama Field Type Notes
01 id int(4) unsigned zerofill ID Pencarian (primary Key)
02 website varchar(200) Alamat website yang di-scrape
03 keyword varchar(400) Keyword yang dicari
04 hasil text Hasil Pencarian
06 file download varchar(400) File yang di-download (Jika Ada)
07 tgl jam_update timestamp Tanggal dan Jam update