首页 > 问答 > 有什么办法爬抓该目录下所有的网页URL

有什么办法爬抓该目录下所有的网页URL

[导读]:我想将这个目录下的所有URL链接爬抓出来, 这样我可以检测哪些网页收录了, 哪些没有收录的。 求助方法, 谢谢 我要抓取的是我们网站的/Trade/下面的 让建设网站的程序猿回...

我想将这个目录下的所有URL链接爬抓出来,
这样我可以检测哪些网页收录了,
哪些没有收录的。
求助方法,
谢谢

我要抓取的是我们网站的/Trade/下面的



让建设网站的程序猿回答,我感觉是最合适的回复

1、查找URL生成规则,读取数据库表的每一条数据,因为无论是品牌页面还是产品页面都是一个独立的数据。只要读取相应数据库表的数据总数就是URL的数量。
2、笨方法,如果有相关后台权限,直接找目录一个个数吧,会得到一个大致数据
3、二次开发定制功能

我之前用的PHPCMS 因为URL有规律
列表页:内容页:TAG页:
所以每次都是我人为用EXCEL统计,后来就是我让我们家程序猿定制,我和我们家程序猿配合的很好,他也懂得我的意思,2天就给弄出来了。

每天生成多少新的链接,导出下载功能,自动提交百度,判断是否抓取。其实这种功能很简单。

回答的比较笼统,勿见怪

###

火车头写规则直接抓!

###

找个采集程序写规则,应该很容易得到url量。
然后分别批量提交和查询 。不想开发一个的话,提交方面试试用百度站长工具里的批量提交,查询可以借助站长工具或者下个软件等方法。

本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/43760.html