首页 > 问答 > 请问用什么采集工具 能像三亿文库这样几乎把百度文库全部采集

请问用什么采集工具 能像三亿文库这样几乎把百度文库全部采集

[导读]:我对采集不太熟悉 最近在研究采集站 像百度文库 一般的列表页只显示几十页 绝大部分文章是不显示的 只能是搜索相关关键词才能看到几十页 三亿文库这种几亿采集量的网站...

15

我对采集不太熟悉 最近在研究采集站 像百度文库 一般的列表页只显示几十页 绝大部分文章是不显示的 只能是搜索相关关键词才能看到几十页 三亿文库这种几亿采集量的网站 是用什么方法采集的呢

python,爬虫抓取。多线程

###


三亿文库

###

火车头好像就可以,自己写写规则应该可以

###

火车头当然可以,难道你非要从列表采集吗?百度文库每篇文章都有“相关推荐”,“搜索推荐”等模块,顺着那个扒,然后去重,你就肯定能扒下3亿的文章。

本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/88197.html