Semalt Berkongsi Cara Mudah Mengekstrak Maklumat Dari Laman Web

Pengikisan Web adalah kaedah popular untuk mendapatkan kandungan dari laman web. Algoritma yang diprogramkan khas datang ke halaman utama laman web ini dan mula mengikuti semua pautan dalaman, menyusun bahagian dalaman yang anda tetapkan. Hasilnya - fail CSV siap yang mengandungi semua maklumat yang diperlukan dengan tertib. CSV yang dihasilkan dapat digunakan untuk masa depan membuat konten yang hampir unik. Dan secara umum, sebagai jadual, data tersebut sangat bernilai. Bayangkan bahawa keseluruhan senarai produk kedai pembinaan ditunjukkan dalam jadual. Lebih-lebih lagi, untuk setiap produk, untuk setiap jenis dan jenama produk, semua bidang dan ciri dipenuhi. Mana-mana penyalin yang bekerja di kedai dalam talian dengan senang hati akan mempunyai fail CSV seperti itu.

Terdapat banyak alat untuk mengekstrak data dari laman web atau pengikisan web dan jangan risau jika anda tidak biasa dengan bahasa pengaturcaraan apa pun, dalam artikel ini saya akan menunjukkan salah satu cara termudah - menggunakan Scrapinghub.

Pertama sekali, pergi ke scrapinghub.com, daftar, dan log masuk.

Langkah seterusnya mengenai organisasi anda boleh dilangkau.

Kemudian anda sampai ke profil anda. Anda perlu membuat projek.

Di sini anda perlu memilih algoritma (kami akan menggunakan algoritma "Portia") dan memberikan nama untuk projek tersebut. Mari kita menyebutnya entah bagaimana tidak biasa. Contohnya, "111".

Sekarang kita masuk ke ruang kerja algoritma di mana anda perlu menaip URL laman web yang ingin anda ekstrak data. Kemudian klik pada "Labah-labah Baru".

Kami akan pergi ke halaman yang akan dijadikan contoh. Alamat dikemas kini dalam tajuk. Klik "Anotasi Halaman Ini".

Gerakkan kursor tetikus anda ke kanan yang akan menjadikan menu muncul. Di sini kami berminat dengan tab "Item yang diekstrak", di mana anda perlu mengklik "Edit Item".

Namun senarai kosong ladang kami dipaparkan. Klik "+ Medan".

Semuanya mudah di sini: anda perlu membuat senarai bidang. Untuk setiap item, anda perlu memasukkan nama (dalam hal ini, judul dan kandungan), tentukan sama ada bidang ini diperlukan ("Wajib") dan adakah ia boleh berbeza-beza ("Vary"). Sekiranya anda menentukan bahawa item "diperlukan", algoritma hanya akan melangkau halaman di mana ia tidak dapat mengisi medan ini. Sekiranya tidak dibenderakan, prosesnya dapat berlangsung selama-lamanya.

Sekarang cukup klik pada bidang yang kita perlukan dan nyatakan apa itu:

Selesai? Kemudian pada tajuk laman web klik "Simpan Sampel". Selepas itu, anda boleh kembali ke tempat kerja. Sekarang algoritma tahu bagaimana mendapatkan sesuatu, kita perlu menetapkan tugas untuknya. Untuk melakukan ini, klik "Terbitkan Perubahan".

Pergi ke papan tugas, klik "Run Spider". Pilih laman web, keutamaan dan klik "Jalankan".

Nah, mengikis kini dalam proses. Kelajuannya ditunjukkan dengan mengarahkan kursor anda pada jumlah permintaan yang dihantar:

Kepantasan membuat rentetan dalam CSV - dengan menunjukkan nombor lain.

Untuk melihat senarai barang yang sudah dibuat, klik nombor ini. Anda akan melihat sesuatu yang serupa:

Setelah selesai, hasilnya dapat disimpan dengan mengklik butang ini:

Itu sahaja! Sekarang anda boleh mengekstrak maklumat dari laman web tanpa pengalaman dalam pengaturcaraan.