Non capisco perché vi ostiniate a provare a risolvere i problemi solo con le mani pronte sulla tastiera, usare la testa non se ne parla proprio. È chiaro che tu non abbia una minima idea di come funzioni un crawler (usato dai motori di ricerca) altrimenti ti saresti posto la seguente domanda prima di proporre questo metodo: come trova le pagine un crawler?
Solo dopo aver capito come funzioni avresti prima consigliato di controllare (prima di dorkare) il file
robots.txt onde evitare di fare ricerche invano (dai un’occhiata pure all’URL del sitemap). Il crawler etico va a carponi per tutti i file del sito di cui non hai proibito l’accesso attraverso questo file.
Poi puoi pure proibirlo lì, ma se c’è qualche leak degli URL di quei PDF nel contenuto di qualche pagina è fatta.
E se non c’è nemmeno questo, se trovo una possibile Directory Traversal li prendo ugualmente. Crawlati o meno.
@Ruvido: nessuno ti hackera il sito web gratis. Vai su Offerte di Lavoro e posta, se mi va bene magari mi propongo io (a differenza di alcuni sono una persona che dimostra con i fatti se è possibile, dato che mi reputo abbastanza skillato in questo campo).