Web Scrapping؛ جمعآوری اطلاعات یا فرآیندی غیرمجاز
قطعا همه کسانی که در زمینه امنیت سرویسهای تحت وب فعالیت میکنند، عبارت “web scrapping” به گوششان خورده است؛ اما واقعا این عبارت به چه مفهومی اشاره میکند و چرا باید به عنوان یک ترم امنیتی مراقبت آن باشیم؟
Web scrapping به اپلیکیشنی اشاره دارد که به منظور شبیه سازی رفتار انسانی در browsing وبسایتها برنامهنویسی شده است. چنین اپلیکیشنی، حجم زیادی از دیتا را – که نوعا برای یک end user دسترسی به آنها سخت است – جمعآوری میکند. Web scrapper ها اطلاعات ساختار نیافته یا نیمه ساختار یافته از صفحات وب سایت هدف را پردازش کرده و آن ها را در قالب یک فرمت ساختار یافته تبدیل خواهد کرد؛ در این صورت است که اتکر می تواند اطلاعات مورد نظر از وب سایت هدف را براحتی استخراج یا دستکاری نماید. .
Web scrapping بسیار شبیه به web indexing – که مورد استفاده بسیاری از موتورهای جستجو است – می باشد؛ با این تفاوت که انگیزه نهایی در انجام آنها خیلی متفاوت است. Web indexing به موتورهای جستجو کمک میکند تا عملیات جستجو بهینه تر انجام شود در حالی که web scrapping با دلایل مختلفی مثل پیچیدهسازی تشخیص ترافیک غیرمجاز، تحقیق در رابطه با کسب و کار، مانیتورینگ اطلاعات و در برخی موارد با هدف سرقت اطلاعات صورت میپذیرد.
چه نیازی به انجام web scrapping است؟
دلایل زیادی وجود دارد که بنا به آن مردم ( یا شرکتها) تمایل به scrape کردن وبسایتها دارند؛ از طرفی وجود اپلیکیشنهای متنوعی که امروزه کار web scrapping را انجام میدهند، میتواند مزید بر علت باشد. یک جستجوی سریع در اینترنت ابزارهای مختلف web scrapping را که به زبانهای مختلف نوشته شدهاند، را نشان خواهد داد. امروزه شرکتها، افراد و یا محیطهایی که طمع جمعآوری اطلاعات در زمینههای مختلف را دارند، زیاد شده است. به عنوان مثال شرکت گوگل یکی از بزرگترین آنهاست.
مشکلی که در رابطه با Web Scrapping وجود دارد
Web scrapping در مرز بین جمعآوری اطلاعات و سرقت اطلاعات قرار دارد. بسیاری از وبسایتها تحت قانون کپیرایت قرار دارند که بسیله آن بصورت قانونی از اطلاعات وبسایت خود محافظت میکنند. بنابراین مهم است که قبل از اقدام به scrapping اطلاعات یک وبسایت، در این مورد اطمینان حاصل کرد.
مانا باشید
احسان امجدی / کارشناس و مدرس دورههای تحلیل امنیت
“اگر بر این باورید که با نقض قانون کپیرایت، وضعیتی بهتر در انتظارمان خواهد بود، بدون ذکر نامِ نویسنده و منبع، مجاز به انتشار مطالب هستید. “