搜索引擎爬虫 (又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。
爬虫类型
根据不同的应用,爬虫系统在许多方面存在差异,大体而言,可以将爬虫划分为如下三种类型:
1、批量型爬虫(Batch Crawler)
2、增量型爬虫(Incremental Crawler)
3、垂直型爬虫(Focused Crawter)
常见搜索引擎
- Google爬虫
- 百度爬虫
- 好搜爬虫
- 搜狗爬虫
- 新浪爱问爬虫
- 有道爬虫
- Alexa爬虫
- 雅虎爬虫
- 必应爬虫
常见搜索引擎爬虫IP地址段
以下是祁劲松博客整理收集的一些常见搜索引擎的IP地址段,以便加入白名单中:
Googlebot:
- 66.249.
- 203.208.60.
- 216.239.
- 66.102.
- 64.233.
- 72.14.
Baiduspider:
- 123.125.
- 220.181.108.
- 220.181.124.
- 220.181.125.
- 111.206.
Msnbot:
- 207.46.13.
- 157.55.39.
- 40.77.167.
Sogouspider:
- 106.120.173.
- 106.38.241.
- 111.202.100.
- 123.126.113.
Yandex:
- 37.9.113.
- 37.9.87.
- 93.158.161.
- 178.154.244.
- 213.180.203.
- 141.8.142.
- 5.255.250.
网上也看到其它一些帖子有类似的搜索引擎爬虫IP段收集,但可能有些过时了。我这上面都是在自己的服务器apache日志中看到的,供大家参考,以后还会更新。
网站对搜索引擎蜘蛛不友好的因素:
1、robots.txt文件
2、nofollow标签
3、flash
4、图片
5、JavaScript
6、网站游览权限
7、强制使用cookies
8、HTTP返回码
9、服务器
10、域名解析
11、网站程序完善
12、动态URL
13、框架结构
14、session id
80%的人都看过的文章
- 分析:网站不收录,Baiduspider每次抓取耗时长
课后答案张九龄《望月怀远》阅读答案及全诗翻译赏析
望月怀远张九龄海上生明月,天涯共此时。情人怨遥夜,竟夕起相思。灭烛怜光满,披衣觉露滋。不堪盈手赠,还寝梦佳期。注释⑴怀远:怀念远方的亲人。⑵最前面两句:辽阔无边的大海上升起一轮明月,使人想起了远在天涯……
课后答案王安石《次韵唐公三首其三旅思》阅读答案
次韵唐公三首其三旅思王安石此身南北老,愁见问征途。地大蟠三楚,天低入五湖。看云心共远,步月影同孤。慷慨秋风起,悲歌不为鲈②。注:①张壤,字唐公,北宋嘉佑六年契丹国母生辰使,王安石友人。②《晋书&mid……
笔记心得各级干部学习执法为民心得体会
“各级干部都要牢固树立全心全意为人民服务的思想和真心实意对人民负责的精神,做到心里装着群众,凡事想着群众,工作依靠群众,一切为了群众。要坚持权为民所用,情为民所系,利为民所谋,为群众诚……
笔记心得寒假大学生社会实践心得体会
自从走进了大学,就业问题就似乎总是围绕在我们的身边,成了说不完的话题。在现今社会,招聘会上的大字报都总写着“有经验者优先”,可还在校园里面的我们这班学子社会经验又会拥有多少……
协议书济南市某美容院转让协议第2篇
__________美容院根据中华人民共和国国务院劳动法规和________市私营企业劳动管理实施办法,结合本美容院经营的具体所需今制订此劳动合同书。 双……
剧本劳模宣传短剧剧本《阿咪也想当劳模》
1、机械厂门卫处,日,外。 清早,机械厂班长李玉伟开着别克赛欧小汽车驶进厂区,门卫室内的保安一边按开电动门,一边朝李玉伟摆手。 李玉伟:(摇下车窗,笑着打招呼)小秦,早。 保安小秦:(笑着)……
教程灰雀说课稿
灰雀说课稿 灰雀说课稿(一): 《灰雀》说课稿 一、说教材 《灰雀》是义务教育课程标准实验教科书,小学语文第五册第二单元的一篇讲读课文。这篇课文记叙了列宁在莫斯科郊外养病期间爱护灰雀的故事。列……
课件“吴隐之字处默,濮阳鄄城人”阅读答案及原文
吴隐之字处默,濮阳鄄城人。美姿容,善谈论,博涉文史,以儒雅标名。弱冠而介立,有清操,虽儋石无储,不取非其道。事母孝谨,及其执丧,哀毁过礼。与太常韩康伯邻居,康伯母,贤明妇人也,每闻隐之哭声,辍餐投箸,……