许多大型网站的数据都是通过采集来做的,在前些年这确实不是什么问题,搜索引擎算法规则也没特意打压这些,收录什么的都不错,即使站内重复页面过多也问题不大,顶多排名不如人家罢了,但现在各个搜索引擎算法升级,都在严厉打击采集站及过多相似页面的问题。下面根据一个大型的外贸电商平台来说下网站相似页面过多的解决方案。
通过检测发现问题主要来源于几个方面,内容质量就不多了,完全的从外部采集而来,这方面没有预算也无法解决。其他我们能够解决的主要问题有,图片页单独做成了页面,可以说是数十万的无实质性内容高相似页面,以及标题稍有差别、描述一模一样的数十万高相似页面。根据这些做了以下的操作。
1、图片页已处理(审核中)
处理方式:入口nofollow 页面禁止抓取
2、高相似详情页
早期处理方式:增加问答内容,增加页面差异化,未达到所需效果。造成这种情况的原因可能有几个方面,页面内相似的内容超过50%,仍被判定为相似页面;谷歌能够判断页面的主要内容部分,作为判断重点,其他部分比分不大;若上述成立,那么今年http转化为https后页面重新收录,又正好赶上谷歌升级内容质量审核算法,导致网站收录量无法提升就说的通了,根据谷歌算法,低质量内容页面及重复页面抓取不放出,放出不参与排名或排名比较靠后。
现在解决有几个方式:
1、添加canonical标签,不建议用了
之前操作过这个标签,我们的判断方法不完善,并且无法判断出各个页面的收录情况及排名,添加后影响较大,生效也慢,效果不会明显。
2、删除低质量及重复页面,不可能实现
先不说公司是否同意,单纯删掉过半的产品对网站自身也是一个冲击,无法判断哪些页面收录及参与了排名,删除就意味着很大几率丢失了现有流量。
3、分离法,目前最理想的选择
分离法是指将现有网站产品根据重复度情况进行分离,通过GA、webmaster等工具统计出一年内带来流量页面的着陆页,再通过站内页面重复度的判断,优先留下有流量页面,将其他无流量、排名且重复的页面进行统一处理,新增二级域名,统一处理。
此方法要面临的问题主要有:主域产品减少、页面减少;标签页需要从新调整、并去除大量页面,预计保留50%左右,甚至更少;新增二级域名放置高相似产品,仍会设计高相似页面,或使用canonical标签或使用其他方式。
电话:15369635070
扣扣:1042551829
邮箱:1042551829@qq.com
地址:廊坊香河新华大街