网站怎么才能被搜索引擎收录快速有上词,有收录?

百度搜索引擎对网站的收录与很多方面的因素有关,网站如果想要得到百度搜索引擎收录的话,站长需要不断对网站的整体结构进行调整和完善,从网站结构、内容、链接等细节方面着手优化,才能突破收录困境,循序渐进的提升网站收录。文章出自于:【“收录之家” 网站收录任务发布平台】。网站被百度收录的有效方法通常情况下来说,百度收录量是能够直接反映一个网站的内容质量以及江湖地位的,可能很多新手站长都会感到困惑,为什么网站上线三个月了,而且每天更新文章,但百度只收录了七八篇,怎样做才能够收录的又快又多呢?虽然网站收录对于老手来说轻而易举,但是新手上路毕竟还是有很多困惑的,而网站收录这个问题,想必也是大多数站长最关心的问题,1、域名选择首先一个拥有顶级域名的网站,是能够快速被百度所收录的,在百度排名首页80%以上的网站,大多都是拥有顶级域名的网页,因此如果想要自己的网站获得较好的收录,那么拥有一个顶级的域名是十分有必要的。在选择网站域名的时候,应该尽量简短一些,而且域名需要与网站的主题具有相关性,使用户或百度搜索引擎只要看到域名就能够联想到网站的具体内容,例如常见的域名可以使用公司的名称或者商标等。其次,在选择网站域名的时候,最好选择新注册的,没有被收录过内容的域名,一些老域名很有可能是被k过的,那么再想被收录就难如登天了。2、网站标题优化搜索引擎通常在判断一个网页的内容权重时,都会将网站的标题作为主要参考信息,因此我们在制作网站标题的时候,一定要清晰直观的传达给用户以及搜索引擎我们的网页具体是做什么的,包含哪些内容。由于每个网页的内容都不同,所以每个网页的浏览器标题都可以进行单独设置,并且加入一些具有相关性的关键词,这样的话,搜索引擎在搜索某个关键词时就会显示该网页,通过这种方式,还能够给我们的网站带来更多的流量和意向客户。3、关键词布局一个网站关键词的质量好坏,既能够直接影响网站在搜索引擎中的曝光率,而且还会直接影响网站推广效果及转化率,对于一些新站而言,可以通过关键词,从地域,公司名称,网站业务等方面入手,并且有规律的进行内容的更新,从而提高网站的整体水平。4、提高内容质量由于近几年来,百度搜索引擎的算法不断改变,所以对于文章的质量要求更高了,网站内容是能够直接影响搜索引擎对网站信任程度的,同时也会间接影响收录速度。5、主动提交网站网站建设完成之后,站长应该主动把网站的地址提交到百度的收录接口处,这样有利于加快网站被百度收录的速度。综上所述,其实建设网站,只是万里长征的第一步,对于如何推广和如何获取流量,如何能够给用户带来更多的价值才是值得我们深思的问题。如果把网站建设比喻成西天取经的话,那么网站收录就是九九八十一难中的其中一难,百度收录则是阻碍我们西天取经成功路上的绊脚石和考验,只有通过不断的对网站整体架构进行完善,才能突破重重阻碍,完成终极目标。网站被百度收录的前提条件百度作为全球最大的中文搜索引擎,对于中文网页的搜索技术,在一定程度上是领先于其他搜索引擎的,而百度搜索引擎最大的优势就是更懂中文,通常情况下,我们的网站留给百度的第一印象非常重要,而百度也比较重视第一次收录印象。相对于其他搜索引擎而言,百度搜索引擎的人为干预比较高,也就是说在某种层面上,可能是由人为因素来决定是否收录网站的,而不是单纯的由机器来决定,所以网站在登录到百度到时候应该做到如下要求:1、首先需要把网站内容做得丰富一些,尽量添加一些原创内容,其次关键词内容要与主题具有相关性,只有这样才能给百度留下一个正面印象。2、百度大多数时候对于网页的更新频率比较敏感,由于百度是一款本土的搜索引擎,而且每周都会更新,网站内容的更新频率也是百度搜索引擎的收录考核条件之一。3、SEO优化必须提供给目标用户所需要的高品质、独具价值和真实有效的内容,最大限度的满足用户需求。4、在内容优化过程中,切勿出现同质化和堆砌现象,以免给百度和用户造成误导,在优化过程中,我们一定要清楚,网站内容是为用户服务的, 如果网站中存在一些与内容主题不相关的关键词或隐藏链接等都会大大降低用户体验,同时也会被百度搜索引擎判定内容出现偏差,不适合展示在用户面前,所以就更难被收录了。5、在提高优质内容的基础上,如果能够被SEO用户和其他站长所认可的话,那么百度也是十分愿意收录的,因为用户的搜索以及访问行为都是百度衡量一个网站优化是否优秀的重要指标,而能否给用户提供独特且具有价值的内容,也是网站优化成功的重要前提。6、友情链接和软文链接也有利于百度找到我们的网站,在制作链接的时候,一定要保证链接得相关性以及自然度,切忌出现内容或链接泛滥,过度优化等操作现象,不然只会起到反作用。7、对于大部分用户来说,网站优化首先是用来浏览的,其次才是能够拥有良好的浏览体验,能够满足用户需求也是百度判定网站是否有收录价值的条件之一。因此网站在优化过程中一定要保证稳定快捷的速度和兼容性,能够使用户浏览起来更加的轻松和流畅,千万不能出现网页卡顿或打不开的现象。8、网站中的广告设置一定要合理,切勿出现大量的弹窗和广告,不然会严重干扰用户的访问,以至于对我们的网站产生反感,使用户逐渐失去耐性,造成访问阻碍;所以减少用户信息,获取成本的网站优化不仅能够获得用户的认可,还更容易得到百度的青睐。综上所述,SEO优化的重点实际上还是为了提高用户体验和让用户满意,而百度搜索的定位也是以用户的体验作为核心,其他站长对于SEO优化的认可同样是以是否能为用户提供价值而作为参考依据。所以用户的需求以及思维仍然是SEO优化工作过程中的重中之重,因此只有严格执行并坚持不断创新和发展,把用户的需求放在首位,才能体现网站的真正价值和意义。网站被百度收录后的注意事项优化人员在做网站优化的时候,通常都是把站内文章添加,认为只要文章收录了就可以撒手不管了,其实这样会导致网站排名增长更慢,但是在网站优化的过程中,不仅要提升网站的收录量,而且还要提升网站的索引量,才能大幅度的提升排名,那么网站被百度收录之后还需要怎样操作呢?一、确定收录率通常一个优秀的优化人员在进行确定收录时,会将自己所发布的内容进行一个统计,比如发布时间、收录时间、是否有效索引等,然后,再通过利用一些工具进行统计查询收录,这样能够更加清晰和直观的了解网站的整体收录情况,策划出更为适合的优化调整方案。二、未收录文章操作对于一些没有被收录的文章,可以进行标题或内容的小幅度修改再重新发送或更新,如果两周之后仍然没有被收录的话,还需要继续丰富和调整内容,然后主动推送给百度。在文章制作的过程中,要尽量保持文章的高度原创性以及高质量,如果发布时间不足一周的话,建议继续等待几天,观察搜索引擎的抓取情况,以确保网站的收录率能够达到80%以上。三、已收录文章操作针对一些已经被收录的文章,需要诊断收录是否为有效收录,优化人员可以去百度搜索内容标题,再来确定搜索结果的首页是否有对应的URL,如果出现在首页的话那么就说明是有效收录,反之则是无效收录。在出现无效收录的情况时,就需要对文章的内容进行一定程度的更改,通过这种方式提升页面质量,并进一步提升网站收录率。网站页面收录量的提升是每一个SEO优化人员都非常关心的数据,但是也有很多朋友为了提升收录量去做一些无用功,而这些没有意义的操作,只是单纯的为了增加收录而进行的操作,例如在一些比较传统的网站中,有很多人会通过大量采集内容来增加网站页面数量,妄图提升收录量。个人认为通过这种方式提升收录量的话,网站存活的时间并不会长久,而且还会有被k掉的风险,现在是以高质量内容作为考核标准而展开算法的更新时代,所以如果还没有注重网站内容质量的话,那么是很难获得收录机会的。总结:在这个以高质量的内容作为准则的算法更新时期,也产生了有效收录和无效收录的问题,其实这些问题并不是近几年才出现的,只不过是近几年才显现出来的。因为在进行网站内容更新的时候,一些高质量的内容比较容易在激烈的竞争中崭露头角,而且也能够大大提升用户体验度,因此被视为一种非常直接和有效的SEO操作技术,能够直接地体现网站运营优化效果,而这也是网站收录的意义所在。
网站收录就是与互联网用户共享网址,网站收录前提是网站首页提交给搜索引擎,蜘蛛才会光顾,每次抓取网页时都会向索引中添加并更新新的网站,站长只需提供顶层网页即可,不必提交各个单独的网页。抓取工具能够找到其他网页。符合相关标准提交的网址,会在短时间内按搜索引擎收录标准被处理。网站收录的理解:
其实这里有一点很多人都理解错误了,你的网站发布信息之后,只要被蜘蛛爬过了,搜索引擎就已经把你的内容收录到数据库中了,至于说啥时候在搜索引擎上展示(site数据出现,搜索有结果),这就是根据内容质量度和网站综合评分来了。
我们可以吧搜索引擎爬取的资源分为3层,底层是垃圾数据,也是最多的,一开始蜘蛛爬取的数据都是这层次;
中层是原创数据,有专门的数据接口,或者是底层数据经过初步筛选之后的数据,这部分数据会给予展示,但是排名效果不是很理想;
顶层就是高质量数据,能解决用户需求,点击率高,跳出率低,网站综合评分高的数据,搜索引擎会给较好的予展示和排名,这些数据基本上是从中层数据筛选出来的,当然也有少部分数据有专门的接口,如百度文库,百度败家等等。 1、网站收录定义
网站收录的由来:是一种网站链接的模式,具有非常重要的意义!
网站收录的含义:顾名思义就是网站已经被收录。网站收录是互联网发展到一定阶段而出现的行业产物!
网站收录多并非是优势,有时候也会变成劣势
那些大的网站有优势,他们的优势在于如何最大化的将这些内容区分到一块一块,然后整体性的再组装起来,成为了一个又一个可以传递出来的权重点,这也是行业网站那些大而全的网站所拥有的各种长尾优势,从整体上而言,这些行业网站的大而全是非常具有优势,毕竟如此多的类目整合在一起,成为了相互关联的一部分,这一点之中,一些小的网站的确是望尘莫及的,但是呢,并非所有的网站都是具有行业网站所具有的得天独厚的的前景的,很多朋友还在努力坚持着自己的小网站,想要把收录做的更多,但是也可能会遇到以下的问题。
2、网站收录的方法
站点发布优质的原创内容容易被搜索引擎收录。网站内部结构混乱对网站是致命的伤害,这一点笔者有深刻的体会。代码优化,对站内图片加上注释,定义图片大小,首页加上关键词锚文本链接等等。这些操作都是细节问题,但往往一个细节就会影响的站点收录情况。
内容原创性。原创是最受青睐的,一个网站的内容如果都是原创的,那么搜索引擎将会赋予此站很高的权重,当然收录和快照就不会有很大问题了。之前我的文章很多的是伪原创的,而且伪原创程度也不是很高,所以发了很多文章都没有被收录。
友情链接。还好有一个好心的网友说,我的网站主题和内容不一致,这样会让搜索引擎分不清你的网站是做什么的。随后,我就不在自己的网站里发布这些文章了,可以发到其它相关平台。对于新站,可以找一些相关的友情链接交换平台,每天做三四个友链,坚持一周左右,你的网站会有很大变化。友情跟外链一样,也要多样性,比如可以跟相关论坛友链,还可以找一些相关博客进行友链,再者可以找相关行业进行友链。 增加外链并被更快收录的方法
1.通过优化网站程序推广,也就是所谓的SEO2.竞价排名3.多发原创性的文章4.提升PR值。5.在高质量的网站发布带有链接的软文,引导搜索引擎前来光顾,进而实现收录。6.网站要有规律的更新,每次更新文章要不少于2篇。7.网站打开速度和空间的稳定性也是影响网站收录的因素。8.增加网站自身的权重,是更快收录的根本原因。
增加方法
采用扁平型的站点架构,也就是俗称的树状结构。可以这样说就是只有三层栏目结构,分别是首页,栏目列表,内容页,这样形成树干型的分支形状,一层一层提升每个细分栏目的权重,从而来增加收录的面积。对于网站的架构有很多站长提过这样的一个构想就是用CMS+论坛的架构形式提升站点收录,也不要小看了这种架构,很多站长试用过的效果都是很不错的,如果你细心会发现现 在大多数收录过百万的站点都是在采用这种形式。还有的站长采用百科等其他方式也产生了不错的效应。这其中免不了人力财力的大力支持,但对于其产生的效果还是很值得投入的。
制作站点地图。站点地图的效用不必多说,重要的是网站内容的每日更新,相信能如此做得站长很少,虽然说起来容易但每天去执行很难有人能坚持,在我所观察中,那些多用户博客站点,它们每日更新所带来的丰硕成果我想大家很难想的到。其实每日更新用不了多长时间的,做一个list页面相信很快大家就会完成的。在完成更新后要养成习惯,时间久了,就会自然地去做了,这对于搜索引擎的收录有很好的正面效果,那些内容展示较少的站点就更要这么去做了。
增加高质量原创内容,避免内容的高度重复。都知道搜索引擎跟人一样,喜欢新鲜的东西,所以一定要用高质量的原创内容来喂养它,把它喂养好了,收录和权重,自然而然就上来了。 整理本站结构,去除无效链接不论站长们做的是哪种类型的网站,其站内结构一定要简洁明了,这是做站的站长们必备知识之一。一般的网站在设计时页面层次不要超过三层,现 在很多的仓储货架的网站层次都超过了三层。页面文件名可以用字母或者数字,但千万不要用很长的中文转英文插件,那样做对收录没任何好处。并且做站过程中添加内容时建议大家都采用生成静态或者伪静态技术处理,这样有利网站在搜索引擎中的友好度。控制外链来源,保证链接质量
当经过我们的苦心经营之后,我们的网站基本成型了,这个时候外链就成为关键之一了。很多站长们在做外链时利用工具,有时几天不发布,有时一天发布几天的量,这些都是要不得的。外链接是需要持续,稳定的发布才有效果的。贵在坚持,我们站长任何时候都不要忘记这点。长期积累,丰富自身资源
毫无疑问,对于推广来说“人脉”是毫无疑问的重点,而网站收录就相当于向搜索引擎推广。有些人为什么做网站推广很轻松?因为他们手上有资源,有人脉!你没有怎么办?简单,慢慢积累!路不是一步就到目的地,饭也不可能一口吃成个胖子,只有长期丰富自身资源,积累久了之后,你也和那些“高人”同一个段位了。用好meta标签,强化收录保障
不管是老站长还是新站长一般都很容易忽视HTML标签META的强大功效,那就是一个好的META标签设计可以大大提高你站长被搜索到的可能性。利用好Keywords和Description的设定。编辑好语句可以让搜索引擎能准确的发现你,从而吸引更多的人访问你的站点! 确保服务器质量,维护站内空间稳定
网站使用的空间好坏直接关系到搜索引擎的拜访速度和效率从而影响到网站内容收录,这是大家应该都知道的问题之一。当你每天例行检查自己的网站快照,发现很长时间没更新或是更新进度太过缓慢时,你就有必要去查看同IP地址下别的网站的收录情况,如果收录都不好的话,你就应该果断的去换个空间了,网站的空间就好比网站最根本的基础,如果它也不好的话收录是一定不会上去的。3、禁忌
1 首页做成flash
真正的搜索引擎对图片的识别能力很差,首页做成flash,不仅不利于搜索引擎排名,而且还减慢了进入主页的速度,在一定程度上为你的客户尽快找到你又设置了一道小障碍。2 用大量的图片组成首页
任何一个搜索引擎都喜欢结构明显,而不喜欢把网站做成一张皮,让搜索引擎分不清你的重点所在。 3 把导航做成图片连接
因为搜索引擎是一个很大的数据库,而不是一个图片库,搜索引擎首页搜索引擎到的是你的标题,接着才通过你的导航系统搜索到你网站的其他内页,所以如果你的网站导航是文字连接,搜索引擎就很容易搜索到你其他的页面,使网站的整体形象得意完美展示,如果图片连接则不能达到这个效果。付费推广要注意,不要被忽悠:
4 通用网址
一个网站80%的流量来源于搜索引擎,其他的20%则通过直接输入网址和导航网站的连接,用通用网址的人不到0.5%。因为3721网络实名的成功,通用网址只不过是想借中国互联网不成熟的时机捞一把而已。你懂网络吗?懂就不要用通用网址。5 相信网络公司的承诺
如果你是公司的老板或者是网站负责人,你就会听到很多网络公司的业务人员,为了让你作一个推广,就会给你一些不切合实际的承诺,如推广在手,销售不愁,今天作了推广,一定可以给你带来数十万的销售额,有时候还会给你说,我们那个客户推广后一年在销售几百万。这些都是推广的功劳吗?这样的几率有多大,1%还是千分之一呢? 6 被中搜的廉价垃圾服务所骗
很直白的说,中搜不是搜索引擎,因为没有流量,很多个人网站的流量都要比他大的多,最关键还是技术问题一直没有很好的解决。
7 做第一页以后的广告
经常浏览百度的人就会发现,遇到一些热门的关键词,如,手机,数码相机,掌上电脑,电影,等热门关键词,前四五页就是推广的。前三可以拦截 80%的客户和流量,第一页可以拦截60%的客户和流量,第二页的点击机会只有20%到30%,更不要说第三第四页了,一句话,没效果,白花钱。 劳而无功的推广:
8 用垃圾邮件来推广你的网站
这是网络礼节的关键规则。无论何时何地、对任何人,大量不请自来的电子邮件都是让人不能容忍的。有成百上千的家伙试图卖给你数据库和用来发垃圾邮件的软件,但是不要相信他们。滥发邮件会给你招来敌人而不是朋友,它还会使你的站点被大的isp禁止,减少你的访问量。 如今没有人不讨厌垃圾邮件,因为它已经给人们的工作带来了很多负面影响,会阅读垃圾邮件的几率不到千分之一,更不会去考虑你的服务和产品了。很影响企业形象。
9 过多的友情连接.
一些人为了省钱,把希望寄托在免费资源上,更可笑的是有人想通过单纯的疯狂的友情连接希望增加自己网站的流量,提高在搜索引擎的排名,吸引一个客户。10 为难电子商务师
很多公司为了追赶电子商务浪潮,专门找一个学习电子商务专业的学生或者是一个对网络了解的人,不再花其他的钱,来成功运行公司网站,最终使网站盈利。千万不要为难那些电子商务师,他们也想把公司网站运作好,但是他们本身那也不是很懂。他们只能来维护你的网站。
4、减少原因
1、Refresh跳转刷新问题
如果你在某页面头部使用META Refresh跳转到另一个页面的话,也属于作弊行为,很容易导致收录剧减,甚至被K!
还有一个要补充的问题就是GOOGLE搜索引擎要比搜索引擎先进得多,相比就等于一辆奔驰与一辆解放牌的车。对于网站的整站更新,GOOGLE几天就能改过来,而搜索引擎那个蠢家伙几个月都缓不过来,要说数据量大GOOGLE包含了全球大多数网站的主要数据,不会比搜索引擎少吧?这也说明搜索引擎收录容量有限的原因,要说重复不能收录,那人家GOOGLE怎么又会对重复的数据照收不误呢?
2、cn域名
由于cn域名较便宜,形成很多人群利用cn域名做垃圾网站,从而影响到很多cn网页在搜索引擎收录变少或没收录!
3、空间问题
自己服务器的IP下站点的收录情况不良及空间稳定性差仅会影响到搜索引擎收录变少或没收录!4、网站改版
不要随意更改程序,随意修改首页分类和标题,搜索引擎就不知所措,如果你一定要换程序,建议你把网站完全关闭1个月再重新上传你的程序,这样搜索引擎就以为你是新站,收录起来就容易得多。 5、模板、内容严重的重复
任何一款模板拿到手,记得先修改。
大家都用同一类型的模板,内容都是来自于采集,由于现 在做电影站的特别多,采来采去的都是那十来个采集件,试问有几万个内容相同的站,叫搜索引擎那个机器怎么收录?6、关键词过多
关键词不要做得太热,有些人把自己的网站题目就是“土豆电影”或“优酷视频”,你到搜索引擎看看有多少能真正收录?就算收录了也很快就会被K掉,因为搜索引擎认为要是真的收录了你,你的流量就会变得很大,这岂不是天上掉馅饼?堆积标题和关键词过多会造成搜索引擎收录变少或没收录!
7、网站链接这点很重要
经常检查你的外部连接,看看有没有打不开的网站、垃圾网站、没被搜索引擎收录的网站,被搜索引擎被降权的网站,被搜索引擎K的网站仅会影响搜索引擎收录变少或没收录!
8、seo优化
搜索引擎对SEO过分的网站惩罚制度越来越严厉,SEO优化过度会造成搜索引擎收录变少或没收录!
6、特点分析 各大搜索引擎收录网站的特点分析 一. 百度收录
百度是全球最大的中文搜索引擎,百度收录网站的原则基本上就是原创为王,复制内容的站基本上不收录或少收录。百度已占了中国大半江山,我们做站一定要把百度给养好了,坚持原创。百度一旦把你的站拿入观察期,你可就要小心了,有可能要不了一个月就会全部给你清0。百度对网站改关键字和改版可是最敏感的,改版时可一定要小心,一点一点的改,不要一下就给全部改头换面了。百度收录网站从某种意义上来说,人为处理的因素多,有时显得不是很公平,以至搜索结果也不是那么让人感到理想。 二. 谷歌收录
谷歌收录网站原则,谷歌比较重视外链还有内页的想关性,对新站基本上能在一个星期给你收录大部分,对新站的权重相对于百度来说要重一些。谷歌是先收录后打压,减小收录。收录得快,删除收录数量也快。可能谷歌的算法和国外人的习惯有关吧,总是体现在一个效率上。谷歌我个人的感觉是对原创的内容,如果你是一个新站,在谷歌下的排名会非常差。如果你的站坚持天天更新原创的话,你就能发现这一点。在这方面谷歌给人的感觉就是等级制非常分明。所以说如果你的站是想做谷歌收录的话,大可不必的复制内容上去,让它收录个够。
三.雅虎收录
雅虎收录网站原则,基本上是在百度和谷歌中间的位置,就是不向百度那么重视原创,也不向谷歌那么的等级制收录。雅虎收录显得比较公正,人为处理搜索结果比较少。在国外占的搜索市场份额比较高,在中国好象不是很高,光有收录,能给你网站带来的流量是少之又少。但是我们可以常利用一下雅虎的收录,来衡量一个站。 四.有道收录
有道收录网站原则,基本上突出在一个快字。比如你的网站改版,基本上能在一个星期全部给你更新收录过。在其它搜索引擎是做不到的。有道对网站的一举一动比其它搜索引擎都要严格,有变化基本上能在三天内给你作出快速的反映。虽然有道不能给我们带来更多的流量,但是它的快速,可以让我们更加早的发现网站的一些问题,以便及时的作出补救。可以说是监查网站的一个首选.五.搜狗收录
搜狗搜索引擎是一个比较“懒”的搜索引擎,如果你没掌握方法,哪怕是过了3-5年乃至10年,搜狗收录一样渺渺无几,这样的案例或者企业并不在少数,很多人都不知道如何去处理搜狗收录,其实搜狗收录非常简单,只需要做到两点即可时间收录翻倍。1、搜狗站长平台去操作一番,比如提交联系,调整抓取频次等都是有帮助的。2、给自己一些搜狗流量,具体方法有很多就不在这里讲解了。 六.360(好搜)收录
360收录对于一部分人而言非常困,对于一部分人而言就和呼吸一样简单,原因就是在于HTTPS的使用,其实360收录非常简单,对于http的网站也会自动收录,只需要去360站长平台提交一个sitemap,就可以坐等收录暴涨了,但是如果是https,那就只能听天由命了,关于这点,我也询问过360的相关人员,他们给出的答案是,“没得问题”。但是行业普遍现象是https的收录都不是太理想,想要收录,当然加快收录的方法也是,给自己一些360流量。 关于如何给自己流量,后面我会专门讲到,如何正确的给自己网站刷流量来提升收录和排名。
还有一些假搜索网站,我们就不谈了,但是有一个我不得不谈,就是腾讯旗下的搜搜,这个搜搜用的是谷歌的收录数据,但是也不是照搬谷歌收录的结果,好象还是有一定的算法来处理结果,搜搜的收录结果都要比谷歌有先知先觉一些。比如谷歌要减少你的收录数量,搜搜的结果往往都要比谷歌先反映出来。所以说如果你是做谷歌收录的话,搜搜是查看谷歌收录网站数量的首选。 7、外部因素
定义
增加外部链接,能让搜索引擎有效地抓取和收录网页增加外部链接的方法
1,自己主动性地增加链接;
2,发表优质文章、内容,吸引别人主动链接。
3,交换友情链接,比较容易简单的办法;
4,提交分类目录、网络书签,简单未必十分有效;
5,购买文本链接,需要有一定成本投入,且链接不持久;
6,组建链接网络,建立网站群、博客群,投入成本高,耗时较长,后期效果明显;
7,群发链接,留言板垃圾留言、论坛签名链接……
8、收录原理
收集待索引网页
Internet上存在的网页数量绝对是个天文数字,每天新增的网页也不计其数,搜索引擎需要首先找到要索引收录的对象。
具体到Google而言,虽然对GoogleBot是否存在DeepBot与FreshBot的区别存在争议——至于是否叫这么两个名字更是众说纷纭。
主流的看法是,在Google的robots中,的确存在着相当部分专门为真正的索引收录页页准备“素材”的robots——在这里我们姑且仍称之为FreshBot吧
它们的任务便是每天不停地扫描Internet,以发现并维护一个庞大的url列表供DeepBot使用,换言之,当其访问、读取其一个网页时,目的并不在于索引这个网页,而是找出这个网页中的所有链接。当然,这样似乎在效率上存在矛盾,有点不太可信。
不过,我们可以简单地通过以下方式判断:FreshBot在扫描网页时不具备“排它性”。也即是说,位于Google不同的数据中心的多个robots可能在某个很短的时间周期,比如说一天甚至一小时,访问同一个页面,而DeepBot在索引、缓存页面时则不会出现类似的情况。
即Google会限制由某个数据中心的robots来完成这项工作的,而不会出现两个数据中心同时索引网页同一个版本的情况,如果这种说法没有破绽的话,则似乎可以从服务器访问日志中时常可以看到源自不同IP的GoogleBot在很短的时间内多次访问同一个网页证明FreshBot的存在。
因此,有时候发现GoogleBot频繁访问网站也不要高兴得太早,也许其根本不是在索引网页而只是在扫描url。
FreshBot记录的信息包括网页的url、TimeStamp(网页创建或更新的时间戳),以及网页的Head信息(注:这一点存在争议,也有不少人相信FreshBot不会去读取目标网页信息的,而是将这部分工作交由DeepBot完成。
不过,笔者倾向于前一种说法,因为在FreshBot向DeepBot提交的url列表中,会将网站设置禁止索引、收录的页面排除在外,以提高效率,而网站进行此类设置时除使用robots.txt外还有相当部分是通过mata标签中的“noindex”实现的,不读取目标网页的head似乎是无法实现这一点的),如果网页不可访问,比如说网络中断或服务器故障,FreshBot则会记下该url并择机重试,但在该url可访问之前,不会将其加入向DeepBot提交的url列表。
总的来说,FreshBot对服务器带宽、资源的占用还是比较小的。最后,FreshBot对记录信息按不同的优先级进行分类,向DeepBot提交,根据优先级不同,主要有以下几种:
A:新建网页;B:旧网页/新的TimeStamp,即存在更新的网页;C:使用301/302重定向的网页;D:复杂的动态url:如使用多个参数的动态url,Google可能需要附加的工作才能正确分析其内容。
——随着Google对动态网页支持能力的提高,这一分类可能已经取消;E:其他类型的文件,如指向PDF、DOC文件的链接,对这些文件的索引,也可能需要附加的工作;
F:旧网页/旧的TimeStamp,即未更新的网页,注意,这里的时间戳不是以Google搜索结果中显示的日期为准,而是与Google索引数据库中的日期比对;G:错误的url,即访问时返回404回应的页面;网页的索引与收录
接下来才进入真正的索引与收录网页过程。从上面的介绍可以看出,FreshBot提交的url列表是相当庞大的,根据语言、网站位置等不同,对特定网站的索引工作将分配至不同的数据中心完成。
整个索引过程,由于庞大的数据量,可能需要几周甚至更长时间才能完成。
正如上文所言,DeepBot会首先索引优先级较高的网站/网页,优先级越高,出现在Google索引数据库及至最终出现在Google搜索结果页面中的速度便越快。
对新建网页而言,只要进入到这个阶段,即使整个索引过程没有完成,相应的网页便已具备出现在Google索引库中的可能,相信许多朋友在Google中使用“site”搜索时常常看到标注为补充结果只显示网页url或只显示网页标题与url但没有描述的页面,此即是处于这一阶段网页的正常结果。
当Google真正读取、分析、缓存了这个页面后,其便会从补充结果中逃出而显示正常的信息。
——当然,前提是该网页具有足够的链接,特别是来自权威网站的链接,并且,索引库中没有与该网页内容相同或近似的记录(DuplicateContent过滤)。
对动态url而言,虽然如今Google宣称在对其处理方面已不存在障碍,不过,可以观察到的事实仍然显示动态url出现在补充结果中的几率远大于使用静态url的网页,往往需要更多、更有价值的链接才能从补充结果中逸出。
而对于上文中之“F”类,即未更新的网页,DeepBot会将其时间戳与Google索引数据库中的日期比对,确认尽管可能搜索结果中相应页面信息未来得及更新但只要索引了最新版本即可——考虑网页多次更新、修改的情况——;至于“G”类即404url,则会查找索引库中是否存在相应的记录,如果有,将其删除。以上内容纯手打,纯经验分享。希望你能分享、点赞、收藏、关注,以备不时之需,同时也不会错过其他精彩内容。

我要回帖

更多关于 网站怎么才能被搜索引擎收录 的文章

 

随机推荐