Semalt URL-da ishlab chiqaruvchilar tomonidan ishlab chiqilgan - Juda ajoyib veb-skript va ma'lumotlarni yig'ish vositasi

URLitor - bu yangi, ammo samarali veb-varaqlash va ma'lumotlarni yig'ish vositasi. URLitor-dan foydalanish uchun siz taqdim etilgan shablonda Internetda qirqib tashlamoqchi bo'lgan barcha URL-larning ro'yxatini qo'shishingiz kifoya. Keyin veb-sahifalardan ajratib olishni istagan HTML elementini belgilab, topshirish tugmasini bosing. Bu xuddi shunday oson. Ushbu vosita bilan boshqa nusxa ko'chirishingiz yoki brauzerdan nusxa ko'chirishingiz shart emas.
xPath - bu XML fayllaridan ma'lumot qidirishda foydalaniladigan til. U XML fayllaridagi tugunlarni yoki tugunlarni tanlash uchun muayyan iboralarni ishlatadi. XPath tushunadigan iboralar oddiy kompyuter fayllari yoki hujjatlarida ishlatiladigan so'zlarga juda o'xshash.

XPath bir nechta dasturlash tillarida ishlatilgan bo'lsa ham, ushbu vosita hech qanday dasturiy bilimga ega bo'lmagan foydalanuvchilar uchun yaratilgan. Shunday qilib, undan foydalanish uchun dasturchi bo'lish shart emas. Ushbu vosita yordamida siz bir nechta HTML va XML sahifalaridan ma'lumotlarni chiqarib olishingiz mumkin.
Foydalanishning soddaligi uchun tez-tez ishlatiladigan bir nechta XPath iboralari ochiladigan menyuda oldindan belgilanadi, shunda foydalanuvchilar maqsadlaridan kelib chiqib ulardan istalganini tanlashlari kerak bo'ladi. Biroq, XPath-ning yuqori tajribali foydalanuvchilari o'zlarining xohlagan joylarida o'zlarining shaxsiy iboralarini ishlatish huquqiga egadirlar.
Asbob bitta kesish sessiyasida 100 ta URL-manzil sig'imiga ega bo'lib, bir vaqtning o'zida eng ko'pi bilan 10 ta ifodani oladi. Boshqacha qilib aytganda, u bir vaqtning o'zida maksimal 100 URL-dan ma'lumotlarni o'chirib tashlashi mumkin.
O'zgartirish yoki qo'shilishi mumkin bo'lgan ba'zi muhim XPath maxsus iboralari quyida keltirilgan:
1. // div [2] - bu ibora ikkinchi divni ierarxik ravishda tanlaydi;
2. // link [@ rel = 'canonical'] / @ href - Ushbu ibora tebranish atributini kanonik bilan tenglashtirish uchun ishlatiladigan yorliqni tanlaydi;
3. / html / head / meta [@ name = 'description'] / @ content - Bu ibora tarkibni tanlash uchun ishlatiladi;
4. // * [@ class = 'class-name'] - Siz ushbu iborani CSS sinfi sifatida 'class-name' bo'lgan barcha elementlarni tanlash uchun ishlatishingiz mumkin;
5. // h2 | // sarlavha - Bu ibora birinchi H2 va sahifa sarlavhasini tanlash uchun ishlatilishi mumkin;
6. // * [name () = 'h1' yoki name () = 'title'] - bu ibora yuqoridagi kabi ishlaydi. Biroq, yuqorida keltirilgan ibora yaxshiroq, chunki u qisqa;
7. // * [o'z ichiga oladi (@class, 'thumb')] - bu ibora CSS klassiga ega bo'lgan har bir elementni tanlaydi va shuningdek ajratib olish uchun "bosh barmog'ini" o'z ichiga oladi;
8. // parent :: * [text () = 'Welcome'] - Bu ibora 'Welcome' matni bo'lgan har qanday elementning ota-onasini tanlaydi;
Ushbu vosita beta-versiya bo'lib, ba'zi xatolar bilan ishlashi mumkin. Biroq, u hali ham dasturiy bilimga ega bo'lmagan yoki umuman bo'lmagan foydalanuvchilar uchun juda yaxshi vositadir, chunki tez-tez ishlatiladigan barcha iboralar avval aytib o'tilganidek menyuga oldindan kiritilgan.