SEO-搜索引擎的数据的过滤。

通过清心醉

SEO-搜索引擎的数据的过滤。

爬虫抓取到的页面,会保存到搜索引擎的数据库中,记录已经被爬行但还没有抓取和已经抓取的页面。爬虫抓取页面后的HTML中解析出新的链接URL,与数据库中的数据进行对比,如果数据库中没有的页面,就编入索引程序列表。

还有一个就是上文说的,使用sitemap.xml提交给搜索引擎入口。引导爬虫更好的抓取想要被抓取的页面。

数据的保存,如果被抓取未编入索引,那么就是触发了搜索引擎的重复内容检测。爬虫在爬行和抓取的时候,会对页面进行重复内容的检测,如果站点权重低,却有大量转载或者原文抄袭的内容时,很可能终止掉爬虫的爬行,所以要求页面内容最好原创,如果实在写不出来是转载过来的,最好进行一定的修改。

再者就是对不良页面的过滤,如黄色页、病毒页等等,爬虫检测到有这些的内容,一般爬行一会马上再跳出网站而不再爬行。

 

关于作者

清心醉 administrator

发表评论

如果喜欢作者的文章,您可以打赏给作者:

TRC20(虚拟货币):


ERC20(虚拟货币):


Bitcoin(BTC):