1、nofollow和robots.txt 错误认识。
Robots:禁止收录、允许收录
Nofollow:不是屏蔽某个网址的收录,搜索引擎还是有可能会被收录。禁止权重的传递。rel=”nofollow” 蜘蛛会去抓取这个网址,但不计算权重。先抓取,后投票
计算权重和爬取不是同时的,马上爬取,统计下来,不会放入外链统计。没加Nofollow的链接可以统计下来,
Robots和nofollow他们之间不可代替,
Nofollow做多了既没有好处,也没有坏处。不会给你排名的好处。
对搜索引擎有好处,对用户到搜索引擎找寻信息也有好处,对站长没有好处也没有坏处
页面的权重是他们的外链和内链对于他们的链接影响的
Nofollow减低了这个链接的权重输出值,对百度来说不确定。
Nofollow对百度来说减少垃圾链接对于排名的影响,排名的公正性就会越高。博客评论都有 nofollow
robots.txt的操作
2、如何建立robots.txt(用FTP传到根目录。)
会预示一个问题。404 状态码 (搜索引擎会默认进行爬取)
3、robots.txt有那些常见的误区和误会。
1)我们把他当初命令了。(以及网站的纯净。)
2)隐私协议(只是一个协议而已。协议并不是马上生效。还在那里收录,24小时就生效并不是24小时。最长时间是1个月。)
3)尽量不要去用robots.txt去全站禁止网站收录。(网站还没有做好,不想要蜘蛛爬取。)
网站没有做好之前不要用robots.txt解决方法:
(1)只要不发链接就行了。
(2)三级域名也行。
4、404页面到底需不需要屏蔽。
屏蔽他有没有意义?
404分类(1、站内存在。2、/屏蔽目录/)
5、robots.txt 语法
#
# robots.txt for Discuz! X2
#
#是注释的意思
User-agent:是定义搜索引擎的(User-agent: (你要对谁负责))
User-agent: *是对所有搜索引擎负责
googles机器人:googlebot 百度蜘蛛:baiduspider yahoo蜘蛛:Yahoo!slurp alexa蜘蛛:ia_archiver bing蜘蛛:MSNbot altavista蜘蛛:scooter lycos蜘蛛:lycos_spider_(t-rex) alltheweb蜘蛛:fast-webcrawler
Disallow是禁止的意思
User-agent: /baiduspider
disallow: /(禁止百度抓取我们整个网站。)
disallow: /admin/(在/admin/这个目录下面,我们不知道有多少路径,但是我们知道了除了以下需要抓取外/app/ admin.php index.php 其他都要屏蔽掉。?)
User-agent: *
Disallow: /admin/
Allow: /admin/app/
Allow: /admin/admin.php
Allow: /admin/index.php
Allow 是允许的意思
第五个语法运用阶段。
/admin/与/admin之间的区别
User-agent: *
Disallow: /admin/
# 这个是指屏蔽了admin 文件夹的收录
User-agent: *
Disallow: /admin
# 这个不仅仅是屏蔽了admin这个文件夹的收录,还屏蔽了这个网站所有以admin开头的文件和路径都会屏蔽。
6,通配符($与*之前的区别)
$ 是结束符(所有以他结尾的都能够进行匹配。)
* 批量匹配符(代表0)
.php$ 这个代码的意思就是所有以 .php结束的路径他全部能够代表。
.jpg$ 这个代码的意思就是所有以 .jpg结束的图片他全部能够代表。(Disallow: /*.jpg$)
Allow: /*.jpg$
禁止一定要起始符.允许不需要起始符
User-agent: *
Disallow:这是允许抓取所有内容
Allow: .htm$与Allow: /*.htm$这两种语法的意思是一样的
Disallow: /*.htm$与Disallow: .htm$这两种的语法意思是不一样的
北京网站建设推荐阅读:未来网络营销发展趋势如何?
本文由北京做网站整理,转载请注明:商视互联 地址:http://www.34178.net/
- 没有资料