20.05.2010 Дружба e107 и поисковых систем... Невозможно?

И как же заставить Google, Yandex, Rambler и иже с ними кушать ваши страницы, причем как можно быстрее? До определенного времени меня этот вопрос не сильно интересовал, но сейчас, когда все крутят счетчики, повышают рейтинги, занимаются всяческими SEO, SEF, контектстами, продвижениями и иными непонятными словами этот вопрос стал как никогда актуален...

И вот я поставил перед собой цель постараться оптимизировать свой "любимый" сайтик, ну и само собой законспектировать для Вас любимые слушатели.

Итак немного о тех непонятных словах по-подробнее:

"Что такое SEO, SEF?" - спросите Вы, мои дорогие читатели.
SEO - в переводе с забугорного транслита расшифровывается как (Search Engine Optimisation) оптимизация под поисковые системы.
SEF - впринципе похожая фигня - (Search Engine Friendly) Дружественный поисковым системам.

На самом деле эти оптимизации - это все миф, распостраняющися по сети как бесполезный мусор. Т.к. никто не может знать как заставить сайт появиться на первом месте в поиске, иначе как бы Яндекс зарабатывал деньги? ;-) Но не миф, что чем красивее сайт видится поисковиком и соответственно конечным пользователем, тем больше у него посетителей и соответственно рейтинг. Вот этим я и хочу заняться...

Вообщем поговорим про оптимизацию сайтов под поисковые системы.

В данной статье использованы переработанные материалы различных сайтов и форумов, в том числе и форумов русской поддержки CMS e107 и естественно свой личный опыт. От слов к делу.

1. Robots.txt

Нужный файлик, иногда незаслуженно бесполезно валяющийся в корне вашего сайта. Поисковики любят смотреть в этот файлик для того, чтобы определить что у вас на сайте съедобно, а что ни в коем случае кушать не надо, ибо является хламом и иже с ней - служебной информацией. Если есть - хорошо, начинает его анализировать, нету - кушает все куда сможет попасть.

В системе е107 есть куча ненужных для поисковиков файлов и папок, доступ к которым лучше закрыть. Поисковики предлагают сами сгенерить эти файлы, но это очень долго, и требует определенных усилий. И зачем если есть пример? Вот так выглядит этот файлик у меня...

Disallow: /images
Disallow: /files
Disallow: /handlers
Disallow: /languages
Disallow: /themes
Disallow: /sitedown.php
Disallow: /files/cache/
Disallow: /files/public/avatars/
Sitemap: http://gnu.su/gsitemap.php
Host: gnu.su

User-agent: Google
Disallow: /plugins/
Disallow: /admin/
Disallow: /images/
Disallow: /docs/
Disallow: /files/
Disallow: /handlers/
Disallow: /languages/
Disallow: /themes/
Disallow: /sitedown.php
Disallow: /files/cache/
Disallow: /files/public/avatars/

User-agent: Rambler
Disallow: /plugins/
Disallow: /admin/
Disallow: /images/
Disallow: /docs/
Disallow: /files/
Disallow: /handlers/
Disallow: /languages/
Disallow: /themes/
Disallow: /sitedown.php
Disallow: /files/cache/
Disallow: /files/public/avatars/



2. .htaccess

В корне сайте лежит файл e107.htaccess, этот файл не будет работать до тех пор пока вы его не переименуете в ".htaccess". В этом случае он будет просто лежать в корне сайта как бесполезный хлам. А может приносить пользу и различные вкусности... =)____

Вообще этот файл очень многогранен в него можно записать всё то, что хозяева вашего хостинга забыли написать в конфигурационном файле web-сервера (apache, ISA), и является неким дополнением к настройкам вашего сайта. Это оцень большая и всеобъемлющая тема. О ней напишу отдельно, но некоторые вкусности мы с вами включим уже сейчас.

Добавим в .htaccess строку:
DirectoryIndex news.php index.php



Эта команда переопределяет файл news.php как файл индекса index.php.
Ничего не меняв в движке сайта мы перенаправили индекс сайта на news.php - тем самым избавились от переадресации, что очень не любят поисковики, просто ненавидят!

3. Поисковый бот:

Когда поисковик обращается к сайту он видит примерно седующее:

HTTP/1.1 200 OK
Date: Wed, 24 Oct 2007 09:01:41 GMT
Server: Apache/1.3.33-Pool-070114.1 (Win32) PHP/5.1.6
X-Powered-By: PHP/5.1.6
Cache-Control: must-revalidate
ETag: 59b2cb276bd73363fbe5b243e13b9b15
Content-Length: 73584
Content-Type: text/html; charset=windows-1251
Connection: close



Все бы хорошо, но не хватает одной очень важной строчки Last-Modified, котора необходима поисковику для определения даты последнего изменения страницы. Если документ с последнего раза не изменился, так думает бот, то его индексировать не нужно - и проходит мимо.

Яндекс же вообще отсутствие этой строчки принимает в качестве отказа от индексации.

решить можно двумя способами:

Способ с изменением кода theme.php (наиболее простой и удобный способ):
В theme.php темы вашего сайта нужно после тега

if (file_exists($body)) $Last_Modified=gmdate ("D, d M Y H:i:s", filemtime($body))." GMT";
else $Last_Modified=gmdate("D, d M Y H:i:s") ." GMT";
header ("Last-Modified: " . $Last_Modified);



Способ с изменением самого кода движка (более тяжелый, для тех что любит чтобы навсегда ;-) ):

Открываем файл request.php:

Ищем следующий код:
header("Content-type: ".$binary_filetype);
header("Content-length: ".$download_filesize);
header("Content-Disposition: attachment; filename=".$binary_name);
header("Content-Description: PHP Generated Data");



И добавляем кусок кода, который мы добавляли в theme.php.

Результат:


HTTP/1.1 200 OK
Date: Wed, 24 Oct 2007 09:01:41 GMT
Server: Apache/1.3.33-Pool-070114.1 (Win32) PHP/5.1.6
X-Powered-By: PHP/5.1.6
Last-Modified: Wed, 24 Oct 2007 09:01:41 GMT
Cache-Control: must-revalidate
ETag: 59b2cb276bd73363fbe5b243e13b9b15
Content-Length: 73584
Content-Type: text/html; charset=windows-1251
Connection: close


4. Убираем дублированные страницы:

Итак, поисковики так устроены, что не любят когда к ним попадает одна и та же информация. Представьте если бы вы прочитали "Войну и мир" и тут хлоп надо снова читать "Войну и мир" и пытаться найти отличия - а их нет! Расстроились бы вы? - Вот поисковики - тоже люди ;-) и не любят читать одно и то же дважды.

Избавляемся от ссылок на так называемые «дублированные новости».

Находим файлик, который по умолчанию лежит тут: e107_files/shortcode/batch/news_shortcodes.php

Находим примерно следующее (NEWSCOMMENTS и EXTENDED) строка примерно 114 и 201.
В конце кода изменяете возвращаемый href на:

href='".e_HTTP."comment.php?comment.news.".$news_item['news_id'].".extend'



Теперь при просмотре новости в расширенном виде снизу сразу же появятся комментарии.

5. Заголовки страниц:

Очень важная тема, о которой Google посвятил целый раздел своего мануала для Веб-разработчиков. Уникальность и информативность заголовков - гарантия хорошего индексирования и качественного структурирования сайта поисковиками у себя в кеше.

Вот примерно что от нас требуют поисковики:

1) На главной: только название сайта.
2) В новостях: название сайта + слово «Новости».
3) В разделе новостей: назва раздела + слово «Новости».
4) На других страницах: только название страницы.

Решается это так:
Ищем файл header_default.php (находится по адресу: /e107_themes/templates/)
Ищем в нем такой код:

if (!defined('e107_INIT')) { exit; }
define("USER_AREA",TRUE);
define("ADMIN_AREA",FALSE);
define("e_PAGETITLE", PAGE_NAME);
$sql->db_Mark_Time('(Header Top)');


Заменяем на:

if (!defined('e107_INIT')) { exit; }
define("USER_AREA",TRUE);
define("ADMIN_AREA",FALSE);
define("e_PAGETITLE", SITENAME);
$sql->db_Mark_Time('(Header Top)');




Ищем код: (Версия e107 0.7.15 и менее)


".e_PAGETITLE.(defined("SITENAME") ? " - ".SITENAME : (defined("PAGE_NAME") ? ": ".PAGE_NAME : ""))."\n";



Заменяем на:

".e_PAGETITLE.(defined("PAGE_NAME") ? " - ".PAGE_NAME : (defined("PAGE_NAME") ? ": ".PAGE_NAME : ""))."\n";



6. Уникальность контента

Помните мы с вами говорили про "Войну и Мир"? - Примерно то же самое только не на одном сайте а на всех. Тупой копи-паст больше не катит! Нужно грамотно переписывать статьи и работать на уникальность вашего текста, и чем он будет уникальнее тем большее лакомство для поисковиков он представляет. Вот программка которая поможет вам следить за этим.
Advego Plagiatus(Плагиатус)

Вот собственно все, что я сумел найти, буду находить - буду постить, тема воистину необхатываемая.

The End!

{TAGS}




Вас также может заинтересовать:

За последние пару дней много e107-сайтов (в том числе e107.org) были под под атаками хакеров
Корпорация e107 Inc объявляет о ребрендинге компании и выпуске новой версии системы управления контентом e107 v1.0.0.
Linux занял половину рынка встраиваемых систем
7 операционных систем, которые Вы можете запустить на Raspberry Pi перевод
Tuxera: Наша реализация NTFS быстрее других файловых систем в Linux
Несмотря на спад на рынке серверов, наблюдается рост продаж Linux-систем