[导读]:我对采集不太熟悉 最近在研究采集站 像百度文库 一般的列表页只显示几十页 绝大部分文章是不显示的 只能是搜索相关关键词才能看到几十页 三亿文库这种几亿采集量的网站...
我对采集不太熟悉 最近在研究采集站 像百度文库 一般的列表页只显示几十页 绝大部分文章是不显示的 只能是搜索相关关键词才能看到几十页 三亿文库这种几亿采集量的网站 是用什么方法采集的呢
python,爬虫抓取。多线程
###三亿文库
###火车头好像就可以,自己写写规则应该可以
###火车头当然可以,难道你非要从列表采集吗?百度文库每篇文章都有“相关推荐”,“搜索推荐”等模块,顺着那个扒,然后去重,你就肯定能扒下3亿的文章。
本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/88197.html