在线咨询 QQ咨询
加技术微信
随时随地交流
您的位置:首页 > 新闻动态 > 域名资讯 > 百度收录网站的详细方法

百度收录网站的详细方法

日期:2016/03/01     作者:雕龙网

如何让百度谷歌快速收录自己的小站(方法大集)

收录问题一直都是大家热议的话题,对于刚做新站的站长则是特别关注。一有关于这类的文章就会密切的去关注,总想早到一条很快收录的捷径。年初的时候我也是

这样认为,一直徘徊在看文章中,而又不去实践。其实这是最忌讳的.
  其实写这篇文章的目的是想让更多的新站长知道付出总有回报,光看不做只会浪费时间。
    接下来讲正题吧。有些站长会问:为什么我的站上线都3-5周了,怎么还没被收录?其实一般正常的新站百度收录时间是2-3周,如果3周后还没被收录的话真要找

找问题了,
第一,你的站是否让搜索引擎知道?
第二,你的站是否一出来就过渡优化?
第三,你的站是否都是采集内容解决了这三个问题,我们就可以试着用以下几个方法来让搜索引擎收录新站?
1、向各大搜索引擎提交申请,这里只提供百度和GOOGLE其他的搜索引擎可以网上搜索下。http://www.baidu.com/search/url_submit.html(百度)
http://www.google.com/addurl/?hl=zh-CN&continue=/addurl(GOOGLE)。不过这个也要看运气,并不是提交了搜索引擎就会收录你。  
2、发链接,不是好无目地的向各大论坛发连接,这样的结果只会导致永远都不会被收录,可以去些权重和PR都比较好的站点发布文章也就是软文,也可以去些论坛发

帖子,适可而止,不要为了光发连接和发帖。写软文的时候可以在文章某句话的时候加上连接,比如:这个站是如果做的什么的,这样不就挺好,把连接加上去了。

  
3、友情链接,可以跟一些PR和排名都很高的站点做友情,这个貌似不太可能。但可以花钱,效果一定很好。  
4、写博客,到权值比较高的网站去开个博客,有TOM,天级等一些大的博客站。还有一点就是别忘了写篇文章带上自己的连接,不然白忙活。  大概就概括这四点

,细心的站长可以写完软文和发完连接后,可以看下IIS日志,在日志里搜索“baiduspider”如果有查到的话,那就是恭喜你了,蜘蛛光临过你的新站了,接下来不用

我说了,坚持天天更新。让蜘蛛经常来光临!估计在第一周或者第二周百度快照更新的时候就可以出来了。 
  让百度收录增加的9个技巧  淘吧*逃吧*讨吧 http://taoba.518day.com/

百度收录数量直接反映了一个站的内容和地位,虽然和流量没有直接的关系,但至少也是一个指数
,特别是当你网站的百度收录少于100或者只有一个首页的时候,你就得认真对待,否则,你的网站就面临被K无法翻身的窘境,就此本人总结了下面几点与大大家分

享下:
1、如果用相同的模板、内容严重的重复先修改。。
我做企业站都不会用同一类型的模板,内容都是来自于采集,特别是现在做小说网站的非常多,采来采
去的都是那几个程序模版,试问有几万个内容相同的站,叫百度那个SB机器怎么收录?
2、放广告是有影响的.本人也尝试过多次,被百度K掉后,去掉了阿里妈妈的广告,第2天马上重新收录,由于本人不信邪,来回试了几次都得出同样的效果。有一次

阿里妈妈广告的客户打电话给我要求我的网站做他的包月广告,我把阿里妈妈广告影响百度收录情事说了一下,他说确有此事并说了抱歉。他还告诉我此事阿里妈妈

正与百度商谈之中。不过这也得看具体的对象,如果你的站权重高,建站时间长,那一般来说影响不是很大,但如果你是个新站,对不起,估计马上被K了,所以新站

放广告一定要慎重。宁可少收点,也不要影响到整站的发展。
3、网站改版不要随意更改程序,随意修改首页分类和标题,百度就不知所措,这个风险非常非常之大,我以前修改一个网络小说站,结果本来收录3000多,马上被K

得剩下21篇。其主要原因就是你改变大,并且网站本身权重低。而如果发生这类情况,要重新恢复高数量收录,那就需要很长的时间了,至少得两三个月以上,得不

偿失。
4、网站链接 这点很重要
经常检查你的外部连接,看看有没有打不开的网站、垃圾网站、没被百度收录的网站,被百度被降权的网站,被百度K的网站仅会影响百度收录变少或没收录!这一点

太危险了,同样是看你站的权重,因为我几个朋友的网站连接了好多被K的站,但对流量没多大影响,因为他们权重高,就好比公司规定不能抽烟,但领导依然开会时

候大摇大摆的抽,谁能去说?不过SEO看的是细节,压死骆驮的是最后一根稻草。
5、关键词过多关键词不要做得太热,这点也就不多说了,太热了做上去难,而且就算做上了也很快就会被K掉,因为百度有审查机构,这岂不是天上掉馅饼?堆积标题

和关键词过多会造成百度收录变少或被K!建议选择热门词的长尾,逮住一个就几千流量,再分散几个就又是几千流量,例如小说网,小说阅读网,免费小说网,等等

,逮一个就非常牛叉了。
6、轻度SEO优化百度对SEO过分的网站惩罚制度越来越严厉,SEO优化过度会造成百度收录变少或没收录!
7、最好不用cn域名
现在cn域名较便宜,形成很多人群利用cn域名做垃圾网站,从而影响到很多cn属主网页在百度收录变少或没收录!
8、找个好虚拟主机
自己服务器的IP下站点的收录情况不良及空间隐定性差仅会影响到百度收录变少或没收录!
9、Refresh跳转刷新问题
如果你在某页面头部使用 Refresh跳转到另一个页面的话,也属于作弊行为,很容易导致收录剧减,甚至被K!
以上说的那么多,主要是想把做网站的经验与大家一起分享,让大家少走弯路。

 

新建的网站如何可以让百度快速收录呢?网站收录对于那些新入门的站长来说就有些困难了。没有有经验的网站前辈来带,没有足够强劲的链接,想让各大搜索引擎立

刻收录你的小站谈何容易呀!呵呵,万事开头难,世事似乎并非如此,但是想让百度收录你的新站却是相当容易的。下面的我来谈一些经验可以让你的网站迅速被百

度收录。

  一、网站域名。网站的域名一定要和网站主题相符,这样可以利用百度对你站的信誉评价。

  二、百度网站登录。提交百度网站登陆是让百度收录网站的的第一步骤。百度登陆的网址是http://taoba.518day.com/但自百度调整算法以后,仅靠百度登陆就

想让自己的网站被百度收录相对困难一点了。

  三、软文营销。这个是网站主要推广的方法。被各大网站转载,所以新建的站才一个月流量接近一万,外部链接达到1000。

  1、创建百度空间。一般来说,创建的百度空间一般几天就可以收录。新网站可以自己创建一个与自己网站相关的百度空间,然后在空间里添加一些文章并附上自

己网站的网址。同时,在百度空间里的友情链接也加上自己的网站地址。百度在收录空间的同时也会链接找到您的新站。通过这一方法,大概一个星期左右即可以被

百度收录。当然,如果觉得建空间十分麻烦的话,也可以到百度空间首页(hi.baidu.com)找一些推荐空间,在他们的空间里留言并加上链接也可以加快收录。这种做

法的原理还是seo常用的增加网站的外部链接。

  2、在百度知道里发帖回帖。百度知道的栏目在百度搜索里的权重非常高,在百度知道的栏目里发帖回贴也可以快速的收录。可以采用自问自答的模式将自己的回

答设置为*****,在*****里的“资料来源”处加上你自己的新站链接。如果您觉得百度知道自问自答会很麻烦容易被封,那就在一些最新的百度知道“未解决问题”中回

答别人的问题并加上自己的链接。对于这些未解决的新问题,百度蜘蛛也会经常光顾并检索的。

  在百度知道里发贴回贴的话,必须要非常的小心。务必要注意以下几点,这样会使你事半功倍:

  1)、注意要在“待解决问题”里回答,这样才能留下链接。

  2)、找相关的问题回答,可以用关键词来搜索,让你的回答看起来非常有价值,而不是为了链接而随便找个问题来乱写。

  3)、找文字内容多一点的页面:例如已经有人做了几百个字的回答,你再补充一下并带上链接,这样的页面会增加你链接的相关度。

  4)、在待回答问题页面内,没有其他导出链接:这样你加上后该页面只有一个导出链接,蜘蛛想往外爬,就只好走你这条路。

  我每次只回答完2个问题以后,每个问题要留下1~2个链接。我怕几分钟内留下太多链接,会引起百度的注意。当然这可能是我多虑了,如果找不到合适问题的话

,可以多注册个百度帐号,自问自答,页面质量就会更高。

  百度知道待解决问题的页面,百度是都没有收录的,你可以随意的找几个待解决问题的URL,到百度里搜索一下试试。当你回答完这个问题完成后,跟踪一下这个

页面的收录情况,一旦该页面被收录以后,你的页面就快了。如果再凑巧百度索引更新,收录的效率会出奇的高。

  重复以上步骤(要注意适度,自己来把握)

 

  3、在百度百科创建新词条。百度百科栏目在百度搜索的权重跟百度知道栏目差不多。您可以创建一条与新站主题差不多的新词,然后在“资料来源”里写上网站和

链接地址。此效果跟百度知道回答一样有异曲同工之效。

  4、利用热门的论坛、博客发表一些文章

  1)、热门论坛,发主题帖,夜里去修改,加上连接(那时斑竹休息了),回帖越多效果越好

  2)、去百度帖吧,注意适度。(我的经验是凌晨去发,为什么—吧主睡了贝,而且这时蜘蛛比较勤快,不要去太热的帖吧,帖子沉的快。在最新发的帖子后跟个回

帖加个连接)

  3)、在博客里进行留言,评论

 

 四、内部链接策略,链接分为外链和内链,大多数seo者注重外链对内链不是很关注,这里我告诉大家内链同样也很重要。合理的外链对于百度容易顺着内链抓取网

站的其他页面。

  五、外部链接策略,网站建设初期,如果是公司站可以发点钱购买pr值高的网站的链接,这种效果很好,对于新站公司站有利于百度的收录。当然如果你不想购

买链接,你可以尽量把你网站和高的pr值链接,这个对于新建站pr值为0的站来说有点难度。

  六、经常在百度搜素自己站点的名称和域名,这样对于百度的相关搜素很有用,容易把你站的关键词记住。

  七、口碑营销,对于新站的朋友,你可以利用人际关系,找你的朋友帮你宣传一下你的站。口碑营销也是很有用的,一但流量起来了你还怕百度不收录你站吗!

  八、利用收藏、书签、和rss订阅。这种手法也是很有实践价值的,你可以找你的朋友收藏你的站和订阅你站的rss。比如如果你的朋友用周博通订阅你站了,这

样对于百度很容易收录。百度收藏栏目(cang.baidu.com)是百度,虽然权重不是很高,也没有实例证明其对收录的有效性。但我认为,百度收藏其实就是用户的网上

收藏夹,对于用户收藏夹里的网站百度肯定会给以相应的权重,至少会去稍微拜访一下。

  当然了,如果您可以在一些好的的权重高的网站加上新网站的链接,那么效果也是相当不错的。如果想让百度经常更新你的网站,就一定要十分勤快,要定期更

新你的网站,增加些原创的内容,来吸引百度蜘蛛来爬你的网站。

 

教你如何让百度收录你
分析一下,要想百度收录自己的站,首先要让百度爬到自己的站。但是百度不来怎么办?那么我们想办法牵着他来!怎么牵?继续看!现在最简单的办法,你自己创

造个关键字,比如“八是二”,“八是不一”。千万要保证关键字的唯一性,百度搜索到的结果相关性要低。那关键字要在你首页出现,而且有相关解释,目的是围绕关

键字做相关内容。然后去百度收录快的地方,发布相关信息。 你发表的文章要围绕你创造的关键字写,关键字可以使用一两次加粗,色彩,或者下划线等,关键字连

接到你首页地址,内容里再加一两次你首页地址。不要太过分就可以。
最重要的到了,关键字加好了,信息也发布了,现在应该做的是触发百度检测数据库,从而百度会顺着那些新内容找到你首页!怎么触发?还用问吗?刚做的关键字

,具有唯一性,而且相关性低。如果有人搜索那关键字,百度检索时候会优先考虑最合适的页面,也许百度暂时没有去你站,但是百度肯定能分析到新收录的信息,

继而,从新收录的信息相关连接爬到你站,收录!
怎么触发百度搜索自己创造的关键字?方法太多了!去一些小孩子热门的论坛,发表一些容易让人回复的帖子,关键字指向你站,也可以是关键字XXX搜索地址。可以

去QQ论坛发布消息,问别人关键字XXX到底是什么意思? 送100QB啊!可以去百度知道发布,高分求关键字XXX的解释!还有其他很多方法,自己想!动动脑子!要去人

气多的地方!当然了,你也可以发布虚假消息!嘿嘿。。。比如去站长类的论坛发布“百度被黑,搜索关键字XXX连接地址全部指向GOOGLE!”也可以去其他论坛发布“

百度新闻,明天全国有大!”总之引导网友去触发你那关键字,相信不用多,十几个人足够了!骗人不好地,但是站长太辛苦,值得原谅!!!

以上方法是利用让百度用其它的关键字去收录,朋友站已经用这个方法实验了,成功!估计成功率应该在80%以上,主要是看你操作了! 至于百度收录快的地方很多

,只是这个地址在这里不方便公布。相必聪明人也想到了。当然,还有其他很多权重高的站和论坛,百度每天都去爬一次。

给大家理一下头绪,不明白的继续看,明白的就可以走人了!

一: 增加原创的文字,适当围绕关键字优化,强烈建议在title里也加一下。
二: 在百度权重高,收录快的地方发布围绕关键字相关内容的信息和你站点连接,让百度爬着找到你,牵着百度去你站!
三: 引导别人去查找这个关键字,触发百度重新检索数据库,最后根据检索结果定位到你的站。

通过三,百度会优先考虑二,通过二,找到一。然后百度会重新抓你站!收录!问题解决!目的达到!任务完成!第一步完全可行,第二部你自己根据关键字做一些

内容发十几个地方,被百度收录一个,也算成功!三是重点,看你怎么操作了!哄骗都可以啊!去人气多的地方诱导!
个人经验,百度不收录,最长的能给你拖四个月。google好点,拖的话一般不超过一个月。以上方法可以解决百度不收录,百度快照不收录的问题。对新站点,百度

没有收录的站点同样有效! 重复一下:对新站点,百度没有收录的站点同样有效!


如何让百度、Google收录你的网站

你想知道如何被百度收录?首先你可以仔细看一下以下内容,看看你的网站是否符合百度的收录要求,如果百度机器人喜欢你的网站就一定会收录你,如果有不行的

地方就要抓紧时间改正了:

百度给站长的建站指南:

如何使你的站点被百度有效收录

给每个网页加上与正文相关的标题。如果是网站首页,则标题建议使用站点名称或者站点代表的公司/机构名称;其余内容页面,标题建议做成正文内容的提炼和概括

。这可以让你的潜在用户快速的访问到你的页面。

请不要在标题中堆积与正文无关的关键词。

确保每个页面都可以通过一个文本链接到达。百度无法识别Flash中的链接,这些单元上的链接所指向的网页,百度就无法收录了。

页面间的链接,尽量使用平实的超链,而不是重定向跳转。使用自动跳转的页面,可能会被百度丢弃。

尽量少使用frame和iframe框架结构。

如果是动态网页,请控制一下参数的数量和URL的长度。百度更偏好收录静态网页。

在同一个页面上,不要有过多链接。在那些站点地图类型的页面上,请把重要的内容给出链接,而不是所有细枝末节。链接太多,也可能会导致无法被百度收录。


什么样的站点会受到百度欢迎

站点应该是面向用户的,而不是面向搜索引擎的。一个受到用户欢迎的站点,最终也会受到搜索引擎欢迎;反过来,如果你的站点做了很多针对百度的优化,但却给

用户带来大量负面体验,那么,你的站点最终可能还是会受到百度的冷落。

百度更喜欢有独特内容的网页,而不是简单抄袭和重复互联网上已有内容的网页。对于已经被重复了千百遍的内容,百度可能会不予收录。

请谨慎使用你的站点链接。与一些垃圾站点做友情链接,很可能会使你的网站受到负面影响。因此,当有人很热情的要求你为他的站点提供友情链接时,请审视以下

两点:

一,对方的站点在他那个领域是否是高质量的?站长间所谓的流量以及排名,很多都是用欺骗手段获取的,无法保持长久。

二,对方要求的链接名称是否和对方网站地位相称?用一个涵盖范围广泛的关键词来做一个内容非常局限的网站的链接名称,很可能会使你的网站受到负面影响。

经常保持内容更新。经常有新内容产生的站点,百度是会注意到,并且大力欢迎,而且会频繁造访。

返回页首

网站登录问题

我的网站更新了,可是百度收录的内容还没更新怎么办?

答:百度会定期自动更新所有网页(包括去掉死链接,更新域名变化,更新内容变化)。因此请耐心等一段时间,你的网站上的变化就会被百度察觉并修正。

怎样使我的网站被百度收录?

答:百度免费自动收录你的站点。如果你希望百度尽快收录,可以到网站登录提交你的网址;只需提交网站首页,内部页面百度会自动抓取。

从提交到被收录,大约需要多久?

答:通常需要1-4周时间。

我不想让百度收录我的站点,该怎么办?

答:百度尊重和遵守robots协议,你可以写一个robots文件限制你的网站全部或部分不被百度收录。详情参见禁止搜索引擎收录的办法。

我的站点为什么在百度中搜不到?

答:可能的原因如下:

你可能还没向百度提交你的网站;

你已经登录了网站,但由于时间短,百度还未收录;

如果百度检测到你的网站死掉,你的站点就有可能被百度暂时删除;

如果你的网站内容有不符合中国法律的地方,则无法被百度收录;

如果你的站点页面结构复杂,则可能无法被百度收录(详见如何使你的站点被百度有效收录);

如果你的网站被百度判别为垃圾站点,则可能被百度拒绝收录或者随时删除(详见百度关于垃圾网站的处理)。

百度并不允诺能收录所有站点。如果有上述回答无法说明的问题,也可以发信到webmaster@baidu.com询问。


我的站点在百度搜索结果中排名下降了,该怎么办?

答:排序变动很正常。一般情况下,只要你不断提高网站内容质量,让更多的用户喜欢你的网站,成为你的忠实用户,你的网站在百度的排名一般就不会很差。

返回页首

百度关于垃圾网站的处理

如果你的站点中的网页,做了很多针对搜索引擎而非用户的处理,使得:用户从搜索结果中看到的内容与页面实际内容完全不同,或者站点质量与站点在搜索结果中

的排名极不相称,从而导致用户产生受欺骗感觉,那么,你的网站就有可能被百度丢弃。

如果你的站点上的网页,大量都是复制自互联网上的高度重复性的内容,那么,你的站点也有可能被百度丢弃。

所以,当你的网站从百度消失,请先审视一下自己的站点有无问题。有任何意见,也可以反馈到webmaster@baidu.com

您也可以向百度投诉搜索中遇到的垃圾网站或者网页,帮助百度保持搜索结果的质量

如何让我的网页不被百度收录?
百度严格遵循搜索引擎Robots协议(详细内容,参见 http://www.robotstxt.org/ [/url])。
您可以写一个Robots文件以限制您的网站全部网页或者部分目录下网页不被百度收录。具体写法,参见:如何撰写Robots文件。
如果您的网站是在被百度收录之后再设置Robots文件,则Robots文件通常在两周内生效,被文件限制的内容,将从百度搜索结果中移除。
如果您的拒绝被收录需求非常急迫,也可以发邮件给 webmaster@baidu.com 请求处理。
为什么我的网站内一些不设链接的私密性网页,甚至是需要访问权限的网页,也会被百度收录? 百度Spider对网页的抓取,是通过网页与网页之间的链接实现的。
网页之间的链接类型,除了站点内部的页面链接之外,还有不同网站之间的互相链接。因此,某些网页即便通过您的网站内部链接无法访问到,但是,如果别人的网

站上有指向这些页面的链接,那么这些页面还是会被搜索引擎所收录。
百度Spider的访问权限,和普通用户是一样的。因此,普通用户没有权限访问的内容,Spider也没有权限访问。之所以看上去某些访问权限限制内容被百度收录,原

因有两点:
A. 该内容在Spider访问时是没有权限限制的,但抓取之后,内容的权限发生了变化
B. 该内容有权限限制,但是由于网站安全漏洞问题,导致用户可以通过某些特殊路径直接访问。而一旦这样的路径被公布在互联网上,则Spider就会循着这条路径抓

出受限内容
如果您不希望这些私密性内容被百度收录,一方面可以通过Robots协议加以限制;另一方面,也可以联系


我的网页为什么会从百度搜索结果中消失?


百度并不允诺所有网页都可从百度搜索到。
如果您的网页长时间无法从百度搜索到,或者突然从百度的搜索结果中消失,可能的原因有:
A. 您的网站所在服务器不稳定,被百度暂时性去除;稳定之后,问题会得到解决
B. 您的网页内容有不符合国家法律和法规规定的地方
C. 您的网页不符合用户的搜索体验
D. 其他技术性问题
以下的说法是错误的和毫无根据的:
A. 参与了百度竞价排名但未续费,会从百度搜索结果中消失
B. 参与了其他搜索引擎的广告项目,会从百度搜索结果中消失
C. 与百度旗下网站产生了竞争,会从百度搜索结果中消失
D. 从百度获得的流量太大,会从百度搜索结果中消失


什么样的网页会被百度认为是没有价值而不被百度收录或者从现有搜索结果中消失?
百度只收录百度认为有价值的网页。任何网页在搜索结果中的去留变化,都是机器算法计算和调整的结果。下述类型的网页,百度明确不会欢迎:
A. 网页做了很多针对搜索引擎而非用户的处理,使得用户从搜索结果中看到的内容与页面实际内容完全不同,或者使得网页在搜索结果中获得了不恰当的排名,从而

导致用户产生受欺骗感觉。
如果您的网站中有较多这种页面,那么这可能会使您的整个网站的页面收录和排序受到影响。
B. 网页是复制自互联网上的高度重复性的内容。
C. 网页中有不符合中国法律和法规的内容。

如果我的网站因为作弊行为而从百度搜索结果中消失,是否还有被重新收录可能?
凡是作出完全修正的网站,是有机会被百度重新收录的。百度会定期对被处理站点进行自动评估,并对符合条件者重新收录。
需要说明的是,百度技术和产品部门只对用户搜索体验负责。以下的说法都是错误的和毫无根据的:
A. 我成为百度的广告客户或者联盟网站,就可以重新被收录
B. 我给百度若干钞票,就可以重新被收录
C. 我认识百度的某某人,就可以重新被收录
我的网站更新了,可是百度收录的内容还没更新怎么办?
百度会定期自动更新所有网页(包括去掉死链接,更新域名变化,更新内容变化)。因此请耐心等一段时间,您的网站上的变化就会被百度察觉并修正

网页排序问题

我的网站首页被收录了,但搜索网站名称却排不到第一个,怎么办?


答:排序算法非常复杂。我们的目标,即在于通过算法改进,让用户以最小的成本,搜索到所需要的信息。这个过程中还是会有各种各样不尽如人意的地方。我们会

非常欢迎您把您遇到的困惑和问题,反馈给我们。我们的工程师,对每一个问题都会有细致的跟踪和分析,以期将之最终解决。百度搜索结果页下方的搜索框右侧,

有“与百度对话”链接,您可以在那里提交您的问题,以协助我们改进。
我们一直在改进搜索算法,以使得百度的搜索结果更加符合用户的搜索需求。


搜索某关键词,我的网页在百度搜索结果的排序短期内变化剧烈,这正常吗?

答:通常情况下,这是正常的变化。一般来说,有三类原因导致排序发生变化:
A. 特定关键词所涉及的您的网页发生了变化
B. 特定关键词所涉及的其他网页发生了变化
C. 百度的排序算法发生了变化

搜索某关键词,我的网页在百度的排序位置,和在其他搜索引擎的排序位置,差异非常大,这正常吗?


答:通常情况下,这是正常的现象。因为不同搜索引擎的算法,都是不同的。


我请一些“SEO”来为我的网站或者网页做优化,会有什么后果?

答:合理的搜索引擎优化,参见百度的“给站长的建站指南”。
外界很多打着SEO旗号的公司或者个人,也许能为您的网站带来短期的排序收益,但是,这会使您将面临更大损失的风险。在您把网站资源交托给别人之后,很多SEO

甚至会利用您的资源进行他们个人的运营项目,最终导致您的利益受损。
不要因为SEO们以下的说法,而冒险将自己的网站托付给他们随意处置:
A. 我和百度的人很熟,想怎么干就怎么干,没风险
B. 我是搜索引擎专家,对百度的算法一清二楚,玩玩火也不要紧
C. 我把xxx、yyy、zzz这些关键词都搞到第一了,所以我是牛人啊您也可以向百度投诉搜索中遇到的垃圾网站或者网页,帮助百度保持搜索结果的质量。 商业客户相

关的问题

我是百度的竞价排名客户,如果我不续费,百度是否会因此对我进行惩罚?


答:这是绝对不可能的。
百度的网页搜索策略的唯一标准,在于用户的搜索体验。竞价排名和网页搜索自然排名,是完全独立的两个技术服务系统。一个网站是否是百度竞价排名客户,对于

网页搜索自然排序无任何影响。
如果您收到任何类似威胁的说辞,请您直接发邮件至 ask@baidu.com 举报。

 

 

我的网站因为作弊而从百度消失了,是否可以通过成为百度竞价排名客户、广告客户或者联盟站点的方式重新被百度收录?


答:不可以。我们对网站的收录,唯一标准是用户搜索体验。被惩罚网站重新被百度收录的说明,见网页收录问题6中的叙述。

我的网站加入百度竞价排名、百度联盟,或者成为百度的广告客户,是否能在网页的收录和排序上获得特别的照顾?

答:不可能。给站长的建站建议
只有当搜索引擎、站长、互联网用户之间,能有一种默契的利益均衡,这个行业才会顺畅发展。竭泽而渔式的网站建设,只会使您与用户、与搜索引擎越来越远。搜

索引擎与站长之间,宜和谐发展,共同拥抱美好的愿景。


以下是我们给出的一些建站建议:

站点结构宜简洁明晰

答:不要让你的用户一进你的站点就因为纷繁芜杂而不知所措。从某种意义上来说,百度的Spider也是一个相对特殊的访客而已。每一个子域名,每一个目录,都最

好有明确的内容区隔,避免不同子域名或者目录对相同内容的互相串用。

创造属于您自己的独特内容

答:百度更喜欢独特的原创内容。所以,如果您的站点内容只是从各处采集复制而成,很可能不会被百度收录。

保持经常的更新

答:经常的更新,蜘蛛程序就会经常的光顾;而长期不更新的网站,蜘蛛到访会日趋减少。

谨慎设置您的友情链接

答:如果您网站上的友情链接,多是指向一些垃圾站点,那么您的站点可能会受到一些负面影响。参与各类以SEO为目的的自助链接活动,很可能“过犹不及”。

把自己的网站做成常青树

答:如果没有搜索引擎,你的网站仍然访客盈门,那么你的网站就属于“常青树”了。面向用户做网站,而不要面向搜索引擎做网站,这是成为常青树网站的真谛。


让百度重新收录的方法:
1,是收费我想这个大家都知道了.
2,将网站的域名绑定到,例如可以绑定到一级域名的博客,或网页,这样重新提交百度就可以收录了.http://www.baidu.com/search/url_submit.html
3,将网站的域名作跳转,跳转到百度,新浪,163,sohu等门户网站,重新提交后就可以了,http://www.baidu.com/search/url_submit.html
4,注册百度的联盟,加入百度的代码,在重新提交.
急不来的
通常的步骤是:
- 提交到百度,正常情况是1个月后将你的网站添加到搜索引擎的index
- 整理你的页面,让你的页面变得search engine friend,你可以到这个网站去看看 淘吧*逃吧*讨吧 http://taoba.518day.com/
- 到处去做你的网站的连接(提高搜索引擎访问你的网站的速度)

如何让百度收录百度给站长的建站指南
如何使您的站点被百度有效收录
给每个网页加上与正文相关的标题。如果是网站首页,则标题建议使用站点名称或者站点代表的公司/机构名称;其余内容页面,标题建议做成正文内容的提炼和概括

。这可以让您的潜在用户快速的访问到您的页面。
请不要在标题中堆积与正文无关的关键词。
确保每个页面都可以通过一个文本链接到达。百度无法识别Flash中的链接,这些单元上的链接所指向的网页,百度就无法收录了。
页面间的链接,尽量使用平实的超链,而不是重定向跳转。使用自动跳转的页面,可能会被百度丢弃。
尽量少使用frame和iframe框架结构。
如果是动态网页,请控制一下参数的数量和URL的长度。百度更偏好收录静态网页。
在同一个页面上,不要有过多链接。在那些站点地图类型的页面上,请把重要的内容给出链接,而不是所有细枝末节。链接太多,也可能会导致无法被百度收录。
什么样的站点会受到百度欢迎
站点应该是面向用户的,而不是面向搜索引擎的。一个受到用户欢迎的站点,最终也会受到搜索引擎欢迎;反过来,如果您的站点做了很多针对百度的优化,但却给

用户带来大量负面体验,那么,您的站点最终可能还是会受到百度的冷落。
百度更喜欢有独特内容的网页,而不是简单抄袭和重复互联网上已有内容的网页。对于已经被重复了千百遍的内容,百度可能会不予收录。 请谨慎使用您的站点链接

。与一些垃圾站点做友情链接,很可能会使您的网站受到负面影响。因此,当有人很热情的要求您为他的站点提供友情链接时,请审视以下两点:
一,对方的站点在他那个领域是否是高质量的?站长间所谓的流量以及排名,很多都是用欺骗手段获取的,无法保持长久。
二,对方要求的链接名称是否和对方网站地位相称?用一个涵盖范围广泛的关键词来做一个内容非常局限的网站的链接名称,很可能会使您的网站受到负面影响。
经常保持内容更新。经常有新内容产生的站点,百度是会注意到,并且大力欢迎,而且会频繁造访。

网站登录问题

我的网站更新了,可是百度收录的内容还没更新怎么办?


答:百度会定期自动更新所有网页(包括去掉死链接,更新域名变化,更新内容变化)。因此请耐心等一段时间,您的网站上的变化就会被百度察觉并修正。

怎样使我的网站被百度收录?


答:百度免费自动收录您的站点。如果您希望百度尽快收录,可以到网站登录提交您的网址;只需提交网站首页,内部页面百度会自动抓取。

从提交到被收录,大约需要多久?
答:通常需要1-4周时间。

我不想让百度收录我的站点,该怎么办?


答:百度尊重和遵守robots协议,您可以写一个robots文件限制您的网站全部或部分不被百度收录。详情参见禁止搜索引擎收录的办法。

 

我的站点为什么在百度中搜不到?

答:可能的原因如下:
您可能还没向百度提交您的网站;
您已经登录了网站,但由于时间短,百度还未收录;
如果百度检测到您的网站无法访问,您的站点就有可能被百度暂时删除;
如果您的网站内容有不符合中国法律的地方,则无法被百度收录;
如果您的站点页面结构复杂,则可能无法被百度收录(详见如何使您的站点被百度有效收录);
如果您的网站被百度判别为垃圾站点,则可能被百度拒绝收录或者随时删除(详见百度关于垃圾网站的处理)。
如果您的网站的首页在百度搜索不到,则可能是由于您的网站不稳定使首页被判别为死链接导致丢失。您的网站稳定后,首页会重新在百度中被搜索到。 百度并不允

诺能收录所有站点。如果有上述回答无法说明的问题,也可以发信到 webmaster@baidu.com 询问。

我的站点在百度搜索结果中排名下降了,该怎么办?


答:排序变动很正常。一般情况下,只要您不断提高网站内容质量,让更多的用户喜欢您的网站,成为您的忠实用户,您的网站在百度的排名一般就不会很差。


百度关于垃圾网站的处理

如果您的站点中的网页,做了很多针对搜索引擎而非用户的处理,使得:用户从搜索结果中看到的内容与页面实际内容完全不同,或者站点质量与站点在搜索结果中

的排名极不相称,从而导致用户产生受欺骗感觉,那么,您的网站就有可能被百度丢弃。
如果您的站点上的网页,大量都是复制自互联网上的高度重复性的内容,那么,您的站点也有可能被百度丢弃。
所以,当您的网站从百度消失,请先审视一下自己的站点有无问题。有任何意见,也可以反馈到 webmaster@baidu.com 。您也可以向百度投诉搜索中遇到的垃圾网站

或者网页,帮助百度保持搜索结果的质量。

让百度等搜索引擎收录您的网站
当您发现在以下搜索引擎里,无法搜索到您或者您客户的网站时,您就打开以下登录口,填好申请表提交,等这些网站的工作人员审核通过后,您的网站就可以在上

面搜索到了。

百度免费登录入口 http://www.baidu.com/search/url_submit.htm [/url]
新浪免费登录入口 http://bizsite.sina.com.cn/newbizsite/docc/index-2jifu-09.htm [/url]
搜狐免费登录入口 http://db.sohu.com/regurl/regform.asp?Step=REGFORM&class [/url]=
一搜免费登录入口 http://www.yisou.com/search_submit.html?source=yisou_www_hp [/url]
天网免费登录入口 http://bingle.pku.edu.cn/submit.htm [/url]
雅虎免费登录入口 http://cn.yahoo.com/docs/info/suggest.html [/url]
Google免费登录入口 http://www.google.com/intl/zh-CN/add_url.html [/url]
行业免费登录入口 http://202.108.33.161/web/frontward/free/free_speedlogin.asp [/url]
搜豹免费登录入口 http://search.sobao.com/Computers_and_Internet/Personal/ [/url]
焦点网免费登录入口 http://search.focus.com.cn/search/search_newurl_register.ecgi [/url]
协通免费登录入口 http://www.net2asp.com.cn/search/regform.htm [/url]
银河免费登录入口 http://search.inhe.net/navigate.asp [/url]
中国假日免费登录入口 http://www.china-holiday.com/newterms/hall/it/sort.asp?sortid=259 [/url]
山西互连网免费登录入口 http://www.shanxi.net.cn/sxhulian/addcate.asp [/url]
网络奇兵登陆入口 http://www.net7b.com/net7b_site/denglu/index.asp [/url]
6128搜索引擎免费登陆入口 http://www.6128.cn/add.htm [/url]
深圳网狐登陆入口 http://www.szfox.com/search/ [/url]
中国搜索同盟免费登录入口 http://service.chinasearch.com.cn/w...ree/free_protocol.htm [/url]
北极星免费登录入口 http://www.beijixing.com.cn/bjx01/search/regi_1.asp [/url]
亦凡信息娱乐网络-亦凡搜索 http://www.gotofind.com/opendir/ [/url]
法律网免费登录入口 http://www.law-lib.com/lawseek/wzdl.asp [/url]
银河免费登录入口 http://search.inhe.net/navigate.asp [/url]
温州信息港免费登录入口 http://www.wzonline.com.cn/ [/url]
建设免费登录入口 http://www.cnjjl.com/other/ [/url]
孙悟空免费登录入口 http://www.sunwukong.cn/add.php [/url]
http://www.owlchina.com/publish.asp?l=pub [/url]
凯希 http://www2d.biglobe.ne.jp/~kinryou/cgi/url.html [/url]
ebsee http://www.ebsee.com/cgi-bin/find/find.cgi?menu=add [/url]
focus http://search.focus.com.cn/search/search_newurl_register.ecgi [/url]
zhao5.com登陆入口 http://www.zhao5.com/deng_9.htm [/url]
三百六十行在线登陆入口 http://www.360hang.com/ [/url]
中国168免费登录入口 http://www.china168.com/chaoshi/it/regsta1.asp?sortid=242 [/url]
中国车网免费登录入口 http://www.cncar.net/search/addsite.asp [/url]
绿界免费登录入口 http://ep.sunup.net/add.php [/url]
天上人间中文搜索引擎 http://www.6mj.com/search/ [/url]
企业搜索引擎 http://www.shengdarealestate.com.cn/search/sort.asp?sortid=37 [/url]
好东西网址登陆 http://dir.haodx.com/computer/internet/search/search_egines/ [/url]
中国搜索登陆入口 http://service.chinasearch.com.cn/zhongsou/wzdl/free_protocol.htm [/url]
网讯快车 http://www.ne163.com/ [/url]
广东阳江在线 http://www.gdyj.com/ [/url]
泰达搜索引擎 http://www.tedanet.com/search/index.asp [/url]
Y28 Search http://www.y28.com/cgi-bin/link/join.pl [/url]


怎样才能让百度及时更新网站的收录数据?
你有没有发现搜索引擎已经很久没有收录你的网站了,有没有方法能让搜索引擎及时更新你的网站收录数据,不知道那么就跟我来吧!(此处以百度搜索引擎为例)
1.在百度搜索引擎输入:site:zizhong.com.cn (此处就是你网站的网址)得到网站收录数据.
百度一下,找到相关网页29600篇,用时0.001秒 2.在百度最底下找到
1 [2] [3] [4] [5] [6] [7] [8] [9] [10] 下一页 每10页点下去,一直点到最后一页,当出现
提示:为了提供最相关的结果,我们省略了一些内容相似的条目,点击这里可以看到所有搜索结果。 再点击提示上的连接. 3.最后再次输入:site:zizhong.com.cn,

是不是发现比原来少了很多页数了?不要害怕,已经达到让百度更新收录数据的目的了.一天以后就会发现重新收录更多了!
注意:如果你的网站有新的内容,而又未被收录的话,经验证会有有明显效果的。什么?没有新内容??那就增加你的网站内容吧…………


怎样避免被搜索引擎视为作弊
一个网站要想成功注册,它起码应具备两个条件,一是网站本身要有较好的内容和设计,二是网站没有作弊行为。这里所谓的“作弊”,是指采用一些特殊的、有悖常

规的网页设计手法,以期提高网站排名的行为。如何设计好网站,相关的资料很多,本文就不废话了。这里主要谈谈后者,即在提高网站排名的同时,如何避免被搜

索引擎视为作弊而拒绝注册。 那么,在搜索引擎看来,哪些行为算作弊呢?这里罗列了一下,从中你可看到,现在有些人还视为“密技”的东西,其实已经过时了。

堆砌页面关键字:为了增加某个词汇在网页上的出现频率,而故意重复它。这是有人常用的花招,不过,现在很多搜索引擎都能识破它。它们通过统计网页单词总数

,判断某个单词出现的比例是否正常。一旦超过“内定标准”,就对你的网页说“ByeBye”了。
放置隐形文本:所谓的“鬼页法”。为了增加关键字数量,网页中放一段与背景颜色相同的、包含密集关键字的文本,访客看不到,可搜索引擎却能找到,过去一度还

真能提高网站排名,但现在,主要搜索引擎都能识别出来,照样玩不通了。
安插微型文本:与“鬼页法”相似,只是文本更些更分散、更隐蔽。但是,对于敏感的搜索引擎来说,仍然是枉费心机。
网页重定向:使用META刷新标记、CGI程序、Java、Javascript或其它技术,当用户点击一个链接时,自动跳到另一个网页。有人正是用这种方法,欺骗人们进入并不

想去的地方。因此,有些搜索引擎(如Infoseek),对此类网页也很反感,一般不予登记。
滥用Meta标记关键字:有人为增加关键字的出现次数,在语句中,重复关键字,或者加入与网站内容毫不相关的热门词汇。这种作弊行为,大部分搜索引擎也能识破


滥用门户网页:门户网页(也称“桥页”),是指为了获得好的排名,而专门针对各搜索引擎排序算法设计的网页。尽管今天,多数搜索引擎并不反对这种作法。但俗

话说:“物极必反。”建立太多具有相近关键字的门户网页,会招致搜索引擎的反感而无法成功注册。
连续注册:有人为加大保险系数,在一天之内,将一个网页重复提交给同一个搜索引擎,其实,这种作法适得其反。
重复注册:有人以为,将一个网页简单复制成多个网页,然后,给它们安上不同的名字,并分别予以注册,会增大访问量,结果,搜索引擎会认为你在滥用它,而拒

绝登记你的网站。
偷换网页:是指一个网页成功注册并获得较好排名后,用另一个内容无关的网页(如产品广告)来替换它的行为。
张冠李戴:上面提到的门户网页,只适用于Altavista这类自动登录的搜索引擎,如果提交给Yahoo这类人工分类的目录式搜索引擎,它就会认为你在作弊。
突破页数限制:一些搜索引擎允许每个用户每天或每周提交的网页数量是有限制的。例如,Altavista每天允许10页;HotBot允许每天50页;Excite允许每周25页;

Infoseek允许每天50页(但使用e-mail注册,没有页数限制)。请注意,这并不是说,搜索引擎每天或每周只能为你登录以上页数,而只是允许你提交的页数。还不

明白?那就举个例吧,对于Excite而言,每周只允许你提交25页,如果你的网站有1000页,那该怎么办呢?就提交25页即可!余下的Excite会自己检查到,并将编入

索引中。如果你强行突破这个限制,那么,搜索引擎就会认为你在作弊,反而不予注册。
上�**庑┨蹩钏坪鹾苊飨浴⒑苋菀浊郑惺蔽颐侨纯赡懿恢痪醴干稀@纾阌幸桓鐾常尘笆前咨谡飧鐾成希闵杓屏艘桓霰砀瘢浔尘拔渡⑽

淖治咨庵稚杓朴Ω盟狄彩峭耆5模绻愕剿阉饕鍵nfoseek去注册,它却不理你。为什么呢?它认为你在作弊!在Infoseek看来,表格中的白色文本

,实际是置于白色的网页背景上,也就是说,网页文本与背景颜色相同,这就符合“鬼页法”的作弊特征。而这一点,可能你自己根本没有意识到。还有一例,有时因

设计需要,或者网站已迁移到其它地方,通常我们会用到网页重定向,但对于Infoseek等搜索引擎而言,这也是不可容忍的作弊行为。另外,Infoseek等搜索引擎还

要求,不要在多个网页上布置指向同一个网页的链接。例如,很多人喜欢在各个网页放上“返回主页”的链接,其实就属于这种情况。这种司空见惯的设计,居然也被

看成作弊,真是太苛刻了。不过,对此Infoseek在�**葱惺保坪跻膊⒉皇呛苎细瘢恍┱庋杓频耐常昭锹剂耍�阋才雠鲈似浚�W芴迳纤担庑┫拗贫

际俏硕愿墩**淖鞅渍撸顾阉饕娴募焖鹘峁幼既酚行В率瞪希娜芬泊砉至艘恍┖萌恕H绻蛞荒闩錾险庵智榭鲈趺窗欤阉饕娴降谆嵩跹ΨD隳

兀�
跟不少网主一样,笔者以前对此不甚了解,以为自己的某个网页违项,会导致整个网站被封杀。其实,事实并非如此!因为运作搜索引擎的人也知道,有时他们搜索

引擎判定的“作弊”,实际是一种正常合法的设计,只是因为搜索引擎自身还不够“聪明”,无法准确判断是故意作弊,还是偶然巧合。所以,他们通常不会因为某网页

象在作弊,就拒绝登记整个网站,而只是对有违规嫌疑的网页进行处罚——降低排名或不予登记,而其它的合法网页不会受到影响。此时,你只需将这个网页修改,并

重新注册即可。除非你有意作弊,肆无忌惮违反上述多项规则,或者由于你提交的大量垃圾网页,对搜索结果造成明显不良影响,那么,你的整个网站将被永远踢出

门外。当然,也有个别搜索引擎(如HotBot)政策更加宽松,甚至对故意作弊者,也没有永远拒绝登记的规定。只要它认为你没有攻击或侵害到它,一般不会删掉你

整个网站的索引,不过,这个尺度掌握在人家手里,劝你还是别去试它的耐性。


作为一名网主,明白了哪些行为是作弊,你就应该在允许范围内,去探索如何获得较高排名,以增大网站访问量,让尽可能多的人知道你的产品、服务或了解你本人

,只有这样,成功注册才有实际意义。
使百度有效收录
百度喜欢结构简单的网页,具有复杂结构的网页可能无法顺利登录百度。您在进行网页设计时应尽量:
1. 给每个网页加上标题
网站首页的标题,建议您使用您的网站名称或公司名称,其它网页的标题建议与每个网页内容相关,内容不同的网页不用相同的标题。
2. 不要把整个网页做成一个Flash或是一张图片
百度是通过识别网页源代码中的汉字来认识每一个网页的。如果您的整个网页是一个Flash或一张图片,百度在网页中找不到汉字,就有可能不收录您的网页。
3. 不对网页做重定向
重定向的网页可能不容易登录百度。
4.不在网页中使用Frame(框架结构)
5.不在网页中使用过分复杂的JavaScript
某些Java Script的内容对于搜索引擎是不可见的,所以不能被识别和登录。
5.静态网页能更顺利登录百度,动态生成的网页不容易登录百度
·如果您的网页url中含有如asp、?等动态特征,网页就可能被认为是动态网页。
·如果您的网站中有很多网页必须做成Frame结构或动态网页,那么建议您至少把网站首页做成简单的网页,并且对网站内的一些重要网页,在首页加上链接。

6. 不要对搜索引擎进行作弊
作弊的网站不能登录百度,即使登录后也随时可能被删除。
作弊网站定义
对搜索引擎作弊,是指为了提高在搜索引擎中展现机会和排名的目的,欺骗搜索引擎的行为。
以下行为都可能被认为是作弊:
· 在网页源代码中任何位置,故意加入与网页内容不相关的关键词;
· 在网页源代码中任何位置,故意大量重复某些关键词。即使与网页内容相关的关键词,故意重复也被视为作弊行为;
· 在网页中加入搜索引擎可识别但用户看不见的隐藏文字。无论是使用同背景色文字、超小字号文字、文字隐藏层、还是滥用图片ALT等方法,都属于作弊行为;
· 故意制造大量链接指向某一网址的行为;
· 对同一个网址,让搜索引擎与用户访问到不同内容的网页(包括利用重定向等行为);
· 作弊行为的定义是针对网站而不是网页的。一个网站内即使只有一个网页作弊,该网站也被认为是有作弊行为;
· 有链接指向作弊网站的网站,负连带责任,也会被认为是作弊(但是,作弊网站上链接指向的网站,不算作弊)。
作弊网站害处
根据网页的作弊情况,会受到不同程度的惩罚:
· 较轻微的惩罚,是系统在给网页排名时略为降低该网页的排名;
· 较常见的惩罚,是作弊网站的某些关键词(或所有关键词)的排名降到其它任何网站之后;
· 较严厉的惩罚,对于作弊行为和后果特别恶劣的网站,将从百度中消失;
· 特别补充,含恶意代码或恶意插件等用户极端反感内容的网页,虽然不是作弊,但只要用户投诉,一经确认也会被百度拒绝收录;
Google官方确认AdSense有助于网页收录
Google官方确认AdSense有助于网页收录
Google的网页收录的其中一种途径是通过Googlebot的爬行来实现的,也就是说,Google派出它自己的网络蜘蛛,主动去抓取有价值的网页内容。类似地,Google的

AdSense也有自己的bot,它的名字为MediaBot。它会自动去到放置了AdSense广告代码的网页,然后对网页内容进行分析,以投放与网页内容相关的广告。但一直以来

都有一个争论,那就是到底AdSense的MediaBot与Googlebot有什么区别?MediaBot在判断广告相关网页的时候,会不会也对这个网站在Google收录及排名等方面有一

定的好处呢?也就是说,投放了AdSense广告,会不会有助于改善自己的网站的Google收录及排名呢?
根据SEJ的消息,Google的一名高级工程师及主管Matt Cutts已经正式确认,AdSense派出来的MediaBot在抓取网页内容后,会把部分结果提交至BigDaddy的数据库里

。Matt解释说,这是因为两种bot都在不断地抓取网页,因此为了节省资源,MediaBot会帮Googlebot完成部分网页抓取工作。但Matt同时也给出警告,如果你的网站

提供给MediaBot的内容与提供给Googlebot的内容完全不同,那么你就会“有麻烦”。因为Google会认为你在作弊。
我认为从Matt给出的讯息里可以证明,在网站上投放了AdSense的广告,的确是有助于你的网站被Google收录。比如,收录得更快更多。但并不一定会提高你的网站排

名。有这方面经验的朋友应该会想到其它办法,从Matt的话出发。

 

搜索引擎原理-网络蜘蛛和ROBOTS

一、网络蜘蛛基本原理
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,

从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个

网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这

其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页

面的平均大小为20K计算(包含图片),100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要 340台机器不停

的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的

网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。
在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。
广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个

方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,

继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。
由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H

属于第2层, I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不

能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。
网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓

取(下小节会介绍),但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全**的让搜索者查看,这样就需要给网络蜘蛛提供相应的用

户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。
网站与网络蜘蛛
网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。今年4月,淘宝 http://www.taobao.com [/url])就因为雅虎搜索引擎

的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。网站是否就无法和网络蜘蛛交流呢?其实不然,有多种方法可以让网站和网络蜘蛛进行交流。一方面让网站管理

员了解网络蜘蛛都来自哪儿,做了些什么,另一方面也告诉网络蜘蛛哪些网页不应该抓取,哪些网页应该更新。/
每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User-

agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider, Yahoo网络蜘蛛的标识为Inktomi Slurp。如果

在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。如果网站管理员发现某个蜘蛛有问题

,就通过其标识来和其所有者联系。下面是博客中 http://www.blogchina.com [/url])2004年5月15日的搜索引擎访问日志:/
网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下, http://www.w3.org/robots.txt [/url]。网站管

理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希

望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限制,可以用以下两行来描述:
User-agent: *
Disallow:
当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协

议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。
网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可以告诉网

络蜘蛛本网页中的链接是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页内的链接需要被跟踪。
关于Robots.txt的语法和META Tag语法,有兴趣的读者查看文献[4]
现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页,因为这样可以让更多的访问者能通过搜索引�**业酱送尽N巳帽就镜耐掣姹蛔ト〉剑

竟芾碓笨梢越�⒁桓鐾镜赝迹碨ite Map。许多网络蜘蛛会把sitemap.htm文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接放在这

个文件里面,那么网络蜘蛛可以很方便的把整个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担
内容提取
搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。

这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确

跟踪其它链接有一定影响。
对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中

的文本信息和文件其它相关的信息。
HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,如:、、等,提取文本信息时需要把这些标识符都过滤

掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候,需要同步记录许多版式信息,

例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程度。同时,对于HTML网页来说,除了标题

和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。例如某个网站有“

产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内每个网页都会搜索到,无疑会带来大量垃圾信息。过

滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还需要个别处理。这就需要网络蜘蛛的设计有一定的扩

展性。
对于多媒体、图片等文件,一般是通过链接的锚文本(即,链接文本)和相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片”,其链接指向

一张bmp格式的图片,那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”。这样,在搜索“张曼玉”和“照片”的时候都能让搜索引�**业秸庹磐计A硗猓矶喽嗝

教逦募杏形募粜裕悸钦庑┦粜砸部梢愿玫牧私馕募哪谌荨�
动态网页一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网

页所占服务器的空间,但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多,动态网页的类型也越来越多,如:asp、jsp、php等。这些类型的网页对于

网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如VBScript和javascript)生成的网页,如果要完善的处理好这些网页,网络蜘蛛

需要有自己的脚本解释程序。对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓取带来很大的困难。对于这类网

站,如果网站设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内容的方法。
对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种

方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。
更新周期
由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪

些页面是新增页面,哪些页面是已经过期的死链接。
搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会

对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻

网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。
一般来说,网络蜘蛛在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取

的属性相比较,如果一样则不用更新。

 

让百度重新收录的方法:
1,是收费我想这个大家都知道了.
2,将网站的域名绑定到,例如可以绑定到一级域名的博客,或网页,这样重新提交百度就可以收录了.http://www.baidu.com/search/url_submit.html
3,将网站的域名作跳转,跳转到百度,新浪,163,sohu等门户网站,重新提交后就可以了,http://www.baidu.com/search/url_submit.html
4,注册百度的联盟,加入百度的代码,在重新提交.
急不来的
通常的步骤是:
- 提交到百度,正常情况是1个月后将你的网站添加到搜索引擎的index
- 整理你的页面,让你的页面变得search engine friend,你可以到这个网站去看看  淘吧*逃吧*讨吧 http://taoba.518day.com/
- 到处去做你的网站的连接(提高搜索引擎访问你的网站的速度)

如何让百度收录百度给站长的建站指南
如何使您的站点被百度有效收录
给每个网页加上与正文相关的标题。如果是网站首页,则标题建议使用站点名称或者站点代表的公司/机构名称;其余内容页面,标题建议做成正文内容的提炼和概括

。这可以让您的潜在用户快速的访问到您的页面。
请不要在标题中堆积与正文无关的关键词。
确保每个页面都可以通过一个文本链接到达。百度无法识别Flash中的链接,这些单元上的链接所指向的网页,百度就无法收录了。
页面间的链接,尽量使用平实的超链,而不是重定向跳转。使用自动跳转的页面,可能会被百度丢弃。
尽量少使用frame和iframe框架结构。
如果是动态网页,请控制一下参数的数量和URL的长度。百度更偏好收录静态网页。
在同一个页面上,不要有过多链接。在那些站点地图类型的页面上,请把重要的内容给出链接,而不是所有细枝末节。链接太多,也可能会导致无法被百度收录。
什么样的站点会受到百度欢迎
站点应该是面向用户的,而不是面向搜索引擎的。一个受到用户欢迎的站点,最终也会受到搜索引擎欢迎;反过来,如果您的站点做了很多针对百度的优化,但却给

用户带来大量负面体验,那么,您的站点最终可能还是会受到百度的冷落。
百度更喜欢有独特内容的网页,而不是简单抄袭和重复互联网上已有内容的网页。对于已经被重复了千百遍的内容,百度可能会不予收录。 请谨慎使用您的站点链接

。与一些垃圾站点做友情链接,很可能会使您的网站受到负面影响。因此,当有人很热情的要求您为他的站点提供友情链接时,请审视以下两点:
一,对方的站点在他那个领域是否是高质量的?站长间所谓的流量以及排名,很多都是用欺骗手段获取的,无法保持长久。
二,对方要求的链接名称是否和对方网站地位相称?用一个涵盖范围广泛的关键词来做一个内容非常局限的网站的链接名称,很可能会使您的网站受到负面影响。
经常保持内容更新。经常有新内容产生的站点,百度是会注意到,并且大力欢迎,而且会频繁造访。

网站登录问题

我的网站更新了,可是百度收录的内容还没更新怎么办?


答:百度会定期自动更新所有网页(包括去掉死链接,更新域名变化,更新内容变化)。因此请耐心等一段时间,您的网站上的变化就会被百度察觉并修正。

怎样使我的网站被百度收录?


答:百度免费自动收录您的站点。如果您希望百度尽快收录,可以到网站登录提交您的网址;只需提交网站首页,内部页面百度会自动抓取。

从提交到被收录,大约需要多久?
答:通常需要1-4周时间。

我不想让百度收录我的站点,该怎么办?


答:百度尊重和遵守robots协议,您可以写一个robots文件限制您的网站全部或部分不被百度收录。详情参见禁止搜索引擎收录的办法。

 

 

我的站点为什么在百度中搜不到?

答:可能的原因如下:
您可能还没向百度提交您的网站;
您已经登录了网站,但由于时间短,百度还未收录;
如果百度检测到您的网站无法访问,您的站点就有可能被百度暂时删除;
如果您的网站内容有不符合中国法律的地方,则无法被百度收录;
如果您的站点页面结构复杂,则可能无法被百度收录(详见如何使您的站点被百度有效收录);
如果您的网站被百度判别为垃圾站点,则可能被百度拒绝收录或者随时删除(详见百度关于垃圾网站的处理)。
如果您的网站的首页在百度搜索不到,则可能是由于您的网站不稳定使首页被判别为死链接导致丢失。您的网站稳定后,首页会重新在百度中被搜索到。 百度并不允

诺能收录所有站点。如果有上述回答无法说明的问题,也可以发信到 webmaster@baidu.com 询问。

我的站点在百度搜索结果中排名下降了,该怎么办?


答:排序变动很正常。一般情况下,只要您不断提高网站内容质量,让更多的用户喜欢您的网站,成为您的忠实用户,您的网站在百度的排名一般就不会很差。


百度关于垃圾网站的处理

如果您的站点中的网页,做了很多针对搜索引擎而非用户的处理,使得:用户从搜索结果中看到的内容与页面实际内容完全不同,或者站点质量与站点在搜索结果中

的排名极不相称,从而导致用户产生受欺骗感觉,那么,您的网站就有可能被百度丢弃。
如果您的站点上的网页,大量都是复制自互联网上的高度重复性的内容,那么,您的站点也有可能被百度丢弃。
所以,当您的网站从百度消失,请先审视一下自己的站点有无问题。有任何意见,也可以反馈到 webmaster@baidu.com 。您也可以向百度投诉搜索中遇到的垃圾网站

或者网页,帮助百度保持搜索结果的质量。

让百度等搜索引擎收录您的网站
当您发现在以下搜索引擎里,无法搜索到您或者您客户的网站时,您就打开以下登录口,填好申请表提交,等这些网站的工作人员审核通过后,您的网站就可以在上

面搜索到了。

百度免费登录入口 http://www.baidu.com/search/url_submit.htm [/url]
新浪免费登录入口 http://bizsite.sina.com.cn/newbizsite/docc/index-2jifu-09.htm [/url]
搜狐免费登录入口 http://db.sohu.com/regurl/regform.asp?Step=REGFORM&class [/url]=
一搜免费登录入口 http://www.yisou.com/search_submit.html?source=yisou_www_hp [/url]
天网免费登录入口 http://bingle.pku.edu.cn/submit.htm [/url]
雅虎免费登录入口 http://cn.yahoo.com/docs/info/suggest.html [/url]
Google免费登录入口 http://www.google.com/intl/zh-CN/add_url.html [/url]
行业免费登录入口 http://202.108.33.161/web/frontward/free/free_speedlogin.asp [/url]
搜豹免费登录入口 http://search.sobao.com/Computers_and_Internet/Personal/ [/url]
焦点网免费登录入口 http://search.focus.com.cn/search/search_newurl_register.ecgi [/url]
协通免费登录入口 http://www.net2asp.com.cn/search/regform.htm [/url]
银河免费登录入口 http://search.inhe.net/navigate.asp [/url]
中国假日免费登录入口 http://www.china-holiday.com/newterms/hall/it/sort.asp?sortid=259 [/url]
山西互连网免费登录入口 http://www.shanxi.net.cn/sxhulian/addcate.asp [/url]
网络奇兵登陆入口 http://www.net7b.com/net7b_site/denglu/index.asp [/url]
6128搜索引擎免费登陆入口 http://www.6128.cn/add.htm [/url]
深圳网狐登陆入口 http://www.szfox.com/search/ [/url]
中国搜索同盟免费登录入口 http://service.chinasearch.com.cn/w...ree/free_protocol.htm [/url]
北极星免费登录入口 http://www.beijixing.com.cn/bjx01/search/regi_1.asp [/url]
亦凡信息娱乐网络-亦凡搜索 http://www.gotofind.com/opendir/ [/url]
法律网免费登录入口 http://www.law-lib.com/lawseek/wzdl.asp [/url]
银河免费登录入口 http://search.inhe.net/navigate.asp [/url]
温州信息港免费登录入口 http://www.wzonline.com.cn/ [/url]
建设免费登录入口 http://www.cnjjl.com/other/ [/url]
孙悟空免费登录入口 http://www.sunwukong.cn/add.php [/url]
http://www.owlchina.com/publish.asp?l=pub [/url]
凯希 http://www2d.biglobe.ne.jp/~kinryou/cgi/url.html [/url]
ebsee http://www.ebsee.com/cgi-bin/find/find.cgi?menu=add [/url]
focus http://search.focus.com.cn/search/search_newurl_register.ecgi [/url]
zhao5.com登陆入口 http://www.zhao5.com/deng_9.htm [/url]
三百六十行在线登陆入口 http://www.360hang.com/ [/url]
中国168免费登录入口 http://www.china168.com/chaoshi/it/regsta1.asp?sortid=242 [/url]
中国车网免费登录入口 http://www.cncar.net/search/addsite.asp [/url]
绿界免费登录入口 http://ep.sunup.net/add.php [/url]
天上人间中文搜索引擎 http://www.6mj.com/search/ [/url]
企业搜索引擎 http://www.shengdarealestate.com.cn/search/sort.asp?sortid=37 [/url]
好东西网址登陆 http://dir.haodx.com/computer/internet/search/search_egines/ [/url]
中国搜索登陆入口 http://service.chinasearch.com.cn/zhongsou/wzdl/free_protocol.htm [/url]
网讯快车 http://www.ne163.com/ [/url]
广东阳江在线 http://www.gdyj.com/ [/url]
泰达搜索引擎 http://www.tedanet.com/search/index.asp [/url]
Y28 Search http://www.y28.com/cgi-bin/link/join.pl [/url]


Re:如何让百度谷歌快速收录自己的小站(方法大集2)
怎样才能让百度及时更新网站的收录数据?
你有没有发现搜索引擎已经很久没有收录你的网站了,有没有方法能让搜索引擎及时更新你的网站收录数据,不知道那么就跟我来吧!(此处以百度搜索引擎为例)
1.在百度搜索引擎输入:site:zizhong.com.cn (此处就是你网站的网址)得到网站收录数据.
百度一下,找到相关网页29600篇,用时0.001秒 2.在百度最底下找到
1 [2] [3] [4] [5] [6] [7] [8] [9] [10] 下一页 每10页点下去,一直点到最后一页,当出现
提示:为了提供最相关的结果,我们省略了一些内容相似的条目,点击这里可以看到所有搜索结果。 再点击提示上的连接. 3.最后再次输入:site:zizhong.com.cn,

是不是发现比原来少了很多页数了?不要害怕,已经达到让百度更新收录数据的目的了.一天以后就会发现重新收录更多了!
注意:如果你的网站有新的内容,而又未被收录的话,经验证会有有明显效果的。什么?没有新内容??那就增加你的网站内容吧…………
怎样避免被搜索引擎视为作弊
一个网站要想成功注册,它起码应具备两个条件,一是网站本身要有较好的内容和设计,二是网站没有作弊行为。这里所谓的“作弊”,是指采用一些特殊的、有悖常

规的网页设计手法,以期提高网站排名的行为。如何设计好网站,相关的资料很多,本文就不废话了。这里主要谈谈后者,即在提高网站排名的同时,如何避免被搜

索引擎视为作弊而拒绝注册。 那么,在搜索引擎看来,哪些行为算作弊呢?这里罗列了一下,从中你可看到,现在有些人还视为“密技”的东西,其实已经过时了。
堆砌页面关键字:为了增加某个词汇在网页上的出现频率,而故意重复它。这是有人常用的花招,不过,现在很多搜索引擎都能识破它。它们通过统计网页单词总数

,判断某个单词出现的比例是否正常。一旦超过“内定标准”,就对你的网页说“ByeBye”了。
放置隐形文本:所谓的“鬼页法”。为了增加关键字数量,网页中放一段与背景颜色相同的、包含密集关键字的文本,访客看不到,可搜索引擎却能找到,过去一度还

真能提高网站排名,但现在,主要搜索引擎都能识别出来,照样玩不通了。
安插微型文本:与“鬼页法”相似,只是文本更些更分散、更隐蔽。但是,对于敏感的搜索引擎来说,仍然是枉费心机。
网页重定向:使用META刷新标记、CGI程序、Java、Javascript或其它技术,当用户点击一个链接时,自动跳到另一个网页。有人正是用这种方法,欺骗人们进入并不

想去的地方。因此,有些搜索引擎(如Infoseek),对此类网页也很反感,一般不予登记。
滥用Meta标记关键字:有人为增加关键字的出现次数,在语句中,重复关键字,或者加入与网站内容毫不相关的热门词汇。这种作弊行为,大部分搜索引擎也能识破


滥用门户网页:门户网页(也称“桥页”),是指为了获得好的排名,而专门针对各搜索引擎排序算法设计的网页。尽管今天,多数搜索引擎并不反对这种作法。但俗

话说:“物极必反。”建立太多具有相近关键字的门户网页,会招致搜索引擎的反感而无法成功注册。
连续注册:有人为加大保险系数,在一天之内,将一个网页重复提交给同一个搜索引擎,其实,这种作法适得其反。
重复注册:有人以为,将一个网页简单复制成多个网页,然后,给它们安上不同的名字,并分别予以注册,会增大访问量,结果,搜索引擎会认为你在滥用它,而拒

绝登记你的网站。
偷换网页:是指一个网页成功注册并获得较好排名后,用另一个内容无关的网页(如产品广告)来替换它的行为。
张冠李戴:上面提到的门户网页,只适用于Altavista这类自动登录的搜索引擎,如果提交给Yahoo这类人工分类的目录式搜索引擎,它就会认为你在作弊。
突破页数限制:一些搜索引擎允许每个用户每天或每周提交的网页数量是有限制的。例如,Altavista每天允许10页;HotBot允许每天50页;Excite允许每周25页;

Infoseek允许每天50页(但使用e-mail注册,没有页数限制)。请注意,这并不是说,搜索引擎每天或每周只能为你登录以上页数,而只是允许你提交的页数。还不

明白?那就举个例吧,对于Excite而言,每周只允许你提交25页,如果你的网站有1000页,那该怎么办呢?就提交25页即可!余下的Excite会自己检查到,并将编入

索引中。如果你强行突破这个限制,那么,搜索引擎就会认为你在作弊,反而不予注册。
上�**庑┨蹩钏坪鹾苊飨浴⒑苋菀浊郑惺蔽颐侨纯赡懿恢痪醴干稀@纾阌幸桓鐾常尘笆前咨谡飧鐾成希闵杓屏艘桓霰砀瘢浔尘拔渡⑽

淖治咨庵稚杓朴Ω盟狄彩峭耆5模绻愕剿阉饕鍵nfoseek去注册,它却不理你。为什么呢?它认为你在作弊!在Infoseek看来,表格中的白色文本

,实际是置于白色的网页背景上,也就是说,网页文本与背景颜色相同,这就符合“鬼页法”的作弊特征。而这一点,可能你自己根本没有意识到。还有一例,有时因

设计需要,或者网站已迁移到其它地方,通常我们会用到网页重定向,但对于Infoseek等搜索引擎而言,这也是不可容忍的作弊行为。另外,Infoseek等搜索引擎还

要求,不要在多个网页上布置指向同一个网页的链接。例如,很多人喜欢在各个网页放上“返回主页”的链接,其实就属于这种情况。这种司空见惯的设计,居然也被

看成作弊,真是太苛刻了。不过,对此Infoseek在�**葱惺保坪跻膊⒉皇呛苎细瘢恍┱庋杓频耐常昭锹剂耍�阋才雠鲈似浚�W芴迳纤担庑┫拗贫

际俏硕愿墩**淖鞅渍撸顾阉饕娴募焖鹘峁幼既酚行В率瞪希娜芬泊砉至艘恍┖萌恕H绻蛞荒闩錾险庵智榭鲈趺窗欤阉饕娴降谆嵩跹ΨD隳

兀�
跟不少网主一样,笔者以前对此不甚了解,以为自己的某个网页违项,会导致整个网站被封杀。其实,事实并非如此!因为运作搜索引擎的人也知道,有时他们搜索

引擎判定的“作弊”,实际是一种正常合法的设计,只是因为搜索引擎自身还不够“聪明”,无法准确判断是故意作弊,还是偶然巧合。所以,他们通常不会因为某网页

象在作弊,就拒绝登记整个网站,而只是对有违规嫌疑的网页进行处罚——降低排名或不予登记,而其它的合法网页不会受到影响。此时,你只需将这个网页修改,并

重新注册即可。除非你有意作弊,肆无忌惮违反上述多项规则,或者由于你提交的大量垃圾网页,对搜索结果造成明显不良影响,那么,你的整个网站将被永远踢出

门外。当然,也有个别搜索引擎(如HotBot)政策更加宽松,甚至对故意作弊者,也没有永远拒绝登记的规定。只要它认为你没有攻击或侵害到它,一般不会删掉你

整个网站的索引,不过,这个尺度掌握在人家手里,劝你还是别去试它的耐性。
作为一名网主,明白了哪些行为是作弊,你就应该在允许范围内,去探索如何获得较高排名,以增大网站访问量,让尽可能多的人知道你的产品、服务或了解你本人

,只有这样,成功注册才有实际意义。
使百度有效收录


百度喜欢结构简单的网页,具有复杂结构的网页可能无法顺利登录百度。您在进行网页设计时应尽量:
1. 给每个网页加上标题
网站首页的标题,建议您使用您的网站名称或公司名称,其它网页的标题建议与每个网页内容相关,内容不同的网页不用相同的标题。
2. 不要把整个网页做成一个Flash或是一张图片
百度是通过识别网页源代码中的汉字来认识每一个网页的。如果您的整个网页是一个Flash或一张图片,百度在网页中找不到汉字,就有可能不收录您的网页。
3. 不对网页做重定向
重定向的网页可能不容易登录百度。
4.不在网页中使用Frame(框架结构)
5.不在网页中使用过分复杂的JavaScript
某些Java Script的内容对于搜索引擎是不可见的,所以不能被识别和登录。
5.静态网页能更顺利登录百度,动态生成的网页不容易登录百度
·如果您的网页url中含有如asp、?等动态特征,网页就可能被认为是动态网页。
·如果您的网站中有很多网页必须做成Frame结构或动态网页,那么建议您至少把网站首页做成简单的网页,并且对网站内的一些重要网页,在首页加上链接。
6. 不要对搜索引擎进行作弊
作弊的网站不能登录百度,即使登录后也随时可能被删除。
作弊网站定义
对搜索引擎作弊,是指为了提高在搜索引擎中展现机会和排名的目的,欺骗搜索引擎的行为。
以下行为都可能被认为是作弊:
· 在网页源代码中任何位置,故意加入与网页内容不相关的关键词;
· 在网页源代码中任何位置,故意大量重复某些关键词。即使与网页内容相关的关键词,故意重复也被视为作弊行为;
· 在网页中加入搜索引擎可识别但用户看不见的隐藏文字。无论是使用同背景色文字、超小字号文字、文字隐藏层、还是滥用图片ALT等方法,都属于作弊行为;
· 故意制造大量链接指向某一网址的行为;
· 对同一个网址,让搜索引擎与用户访问到不同内容的网页(包括利用重定向等行为);
· 作弊行为的定义是针对网站而不是网页的。一个网站内即使只有一个网页作弊,该网站也被认为是有作弊行为;
· 有链接指向作弊网站的网站,负连带责任,也会被认为是作弊(但是,作弊网站上链接指向的网站,不算作弊)。
作弊网站害处
根据网页的作弊情况,会受到不同程度的惩罚:
· 较轻微的惩罚,是系统在给网页排名时略为降低该网页的排名;
· 较常见的惩罚,是作弊网站的某些关键词(或所有关键词)的排名降到其它任何网站之后;
· 较严厉的惩罚,对于作弊行为和后果特别恶劣的网站,将从百度中消失;
· 特别补充,含恶意代码或恶意插件等用户极端反感内容的网页,虽然不是作弊,但只要用户投诉,一经确认也会被百度拒绝收录;
Google官方确认AdSense有助于网页收录
Google官方确认AdSense有助于网页收录
Google的网页收录的其中一种途径是通过Googlebot的爬行来实现的,也就是说,Google派出它自己的网络蜘蛛,主动去抓取有价值的网页内容。类似地,Google的

AdSense也有自己的bot,它的名字为MediaBot。它会自动去到放置了AdSense广告代码的网页,然后对网页内容进行分析,以投放与网页内容相关的广告。但一直以来

都有一个争论,那就是到底AdSense的MediaBot与Googlebot有什么区别?MediaBot在判断广告相关网页的时候,会不会也对这个网站在Google收录及排名等方面有一

定的好处呢?也就是说,投放了AdSense广告,会不会有助于改善自己的网站的Google收录及排名呢?
根据SEJ的消息,Google的一名高级工程师及主管Matt Cutts已经正式确认,AdSense派出来的MediaBot在抓取网页内容后,会把部分结果提交至BigDaddy的数据库里

。Matt解释说,这是因为两种bot都在不断地抓取网页,因此为了节省资源,MediaBot会帮Googlebot完成部分网页抓取工作。但Matt同时也给出警告,如果你的网站

提供给MediaBot的内容与提供给Googlebot的内容完全不同,那么你就会“有麻烦”。因为Google会认为你在作弊。
我认为从Matt给出的讯息里可以证明,在网站上投放了AdSense的广告,的确是有助于你的网站被Google收录。比如,收录得更快更多。但并不一定会提高你的网站排

名。有这方面经验的朋友应该会想到其它办法,从Matt的话出发。


搜索引擎原理-网络蜘蛛和ROBOTS
一、网络蜘蛛基本原理
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,

从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个

网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这

其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页

面的平均大小为20K计算(包含图片),100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要 340台机器不停

的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的

网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。
在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。
广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个

方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,

继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。
由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H

属于第2层, I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不

能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。
网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓

取(下小节会介绍),但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全**的让搜索者查看,这样就需要给网络蜘蛛提供相应的用

户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。
网站与网络蜘蛛
网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。今年4月,淘宝 http://www.taobao.com [/url])就因为雅虎搜索引擎

的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。网站是否就无法和网络蜘蛛交流呢?其实不然,有多种方法可以让网站和网络蜘蛛进行交流。一方面让网站管理

员了解网络蜘蛛都来自哪儿,做了些什么,另一方面也告诉网络蜘蛛哪些网页不应该抓取,哪些网页应该更新。/
每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User-

agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider, Yahoo网络蜘蛛的标识为Inktomi Slurp。如果

在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。如果网站管理员发现某个蜘蛛有问题

,就通过其标识来和其所有者联系。下面是博客中 http://www.blogchina.com/ [/url])2004年5月15日的搜索引擎访问日志:/
网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下, http://www.w3.org/robots.txt [/url]。网站管

理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希

望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限制,可以用以下两行来描述:
User-agent: *
Disallow:
当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协

议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。
网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可以告诉网

络蜘蛛本网页中的链接是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页内的链接需要被跟踪。
关于Robots.txt的语法和META Tag语法,有兴趣的读者查看文献[4]
现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页,因为这样可以让更多的访问者能通过搜索引�**业酱送尽N巳帽就镜耐掣姹蛔ト〉剑

竟芾碓笨梢越�⒁桓鐾镜赝迹碨ite Map。许多网络蜘蛛会把sitemap.htm文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接放在这

个文件里面,那么网络蜘蛛可以很方便的把整个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担
内容提取
搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。

这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确

跟踪其它链接有一定影响。
对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中

的文本信息和文件其它相关的信息。
HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,如:、、等,提取文本信息时需要把这些标识符都过滤

掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候,需要同步记录许多版式信息,

例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程度。同时,对于HTML网页来说,除了标题

和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。例如某个网站有“

产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内每个网页都会搜索到,无疑会带来大量垃圾信息。过

滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还需要个别处理。这就需要网络蜘蛛的设计有一定的扩

展性。
对于多媒体、图片等文件,一般是通过链接的锚文本(即,链接文本)和相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片”,其链接指向

一张bmp格式的图片,那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”。这样,在搜索“张曼玉”和“照片”的时候都能让搜索引�**业秸庹磐计A硗猓矶喽嗝

教逦募杏形募粜裕悸钦庑┦粜砸部梢愿玫牧私馕募哪谌荨�
动态网页一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网

页所占服务器的空间,但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多,动态网页的类型也越来越多,如:asp、jsp、php等。这些类型的网页对于

网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如VBScript和javascript)生成的网页,如果要完善的处理好这些网页,网络蜘蛛

需要有自己的脚本解释程序。对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓取带来很大的困难。对于这类网

站,如果网站设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内容的方法。
对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种

方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。
更新周期
由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪

些页面是新增页面,哪些页面是已经过期的死链接。
搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会

对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻

网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。
一般来说,网络蜘蛛在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取

的属性相比较,如果一样则不用更新。

 

此文章转载《三叶虫》。


更多>>相关文章