SEO для Чайников - страница 22
1.3. Основные понятия.
TF-IDF — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.
TF – частота слова в документе
IDF – обратная частота запроса
TF — (частота слова в документе) - отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова t>i в пределах отдельного документа.
где n>i есть число вхождений слова в документ, а в знаменателе — общее число слов в данном документе.
IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов.
где
|D| — количество документов в корпусе;
Таким образом, мера TF-IDF является произведением двух сомножителей: TF и IDF.
Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.
Вхождения в текст, TITLE, strong, H1-6 и др. считаются не только по формуле TF- IDF, но и по модифицированной формуле Okapi BM-25.
Okapi BM25 учитывает длину поля (в данном случае title, strong или h1) в котором произошел хит (встретилось слово запроса). Чем меньше длина — тем выше значение релевантности конкретного хита.
Формула расчета BM
BM25 = IDF + log ((k1+1)*TF)/(k1(1-b)+b(Dl/ArgDl)+TF)),
где b, k1 – const
Dl – длина нашего документа
ArgDl – средняя длина документа
TF считается для каждого слова, BM – для конкретного запроса.
http://ru.wikipedia.org/wiki/Okapi_BM25 - дополнительная информация
2 Техническая оптимизация сайта.
Техническая оптимизация сайта – это комплекс мер, направленных на корректировку технических аспектов сайта, с целью улучшить его взаимодействие с роботами поисковых систем.
Основная задача технической оптимизации – обеспечить максимально полную и быструю индексацию страниц сайта.
2.1 Общие правила
Грамотная техническая оптимизация позволяет роботам поисковых систем хорошо и быстро индексировать сайт, такой сайт не выдает ошибки и сбои в работе, каждой странице сайта соответствует только один адрес и др. Ниже представлены некоторые моменты на которые стоит особенно уделить внимание. Полный список параметров для проверки оптимизатором, которым должен соответствовать сайт согласно технической оптимизации, описан в чек. листе по тех. оптимизации (на портале в разделе «Документы»).
Robots.txt – файл, специально предназначеный для роботов поисковых систем. В этом файле указываются параметры индексирования сайта: какие страницы заносить в поисковую базу, а какие исключить. В нём можно указывать директивы, как для всех роботов поисковых систем сразу, так и для роботов каждой поисковой системы в отдельности.
Про составление этого файла и настройку можно подробнее узнать на сайте помощи вебмастерам от Яндекса http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml.
Карты сайта — одна из страниц сайта, информация на которой аналогична разделу «Содержание» обычной книги. Используется как элемент навигации. В карте сайта представлен полный перечень разделов и/или всех страниц, имеющихся на сайте. Нередко, заголовки страниц в списке служат ссылками на эти страницы. Карта бывает двух форматов:
HTML (для пользователя);
XML (для роботов ПС).
Редиректы (перенаправления) делаются с помощью файла .htaccess, который расположен в корне сайта и доступен только вебмастеру. Так как поисковые системы могут считать сайт с www и без www совершенно различными, то прописывается редирект c сайта без www (http://vashsait.ru) на сайт с www (http://www.vashsait.ru) или наоборот. Это автоматически переадресовывает всех, кто заходит на сайт на нужную страницу.
Настройка видов url страниц - корректный вид url также настраивается с помощью .htaccess. Важно, чтобы все внутренние ссылки на сайте имели одинаковый вид. Это можно оценить по следующим критериям: