SEO для Чайников - страница 22

стр.


1.3. Основные понятия.


TF-IDF — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.


TF – частота слова в документе

IDF – обратная частота запроса


TF — (частота слова в документе) - отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова t>i в пределах отдельного документа.

 ,

где n>i есть число вхождений слова в документ, а в знаменателе — общее число слов в данном документе.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов.

 ,

где

|D| — количество документов в корпусе;

 — количество документов, в которых встречается t>i (когда 
).

Таким образом, мера TF-IDF является произведением двух сомножителей: TF и IDF.

Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.

Вхождения в текст, TITLE, strong, H1-6 и др. считаются не только по формуле TF- IDF, но и по модифицированной формуле Okapi BM-25.

Okapi BM25 учитывает длину поля (в данном случае title, strong или h1) в котором произошел хит (встретилось слово запроса). Чем меньше длина — тем выше значение релевантности конкретного хита.

Формула расчета BM

BM25 = IDF + log ((k1+1)*TF)/(k1(1-b)+b(Dl/ArgDl)+TF)),

где b, k1 – const

Dl – длина нашего документа

ArgDl – средняя длина документа

TF считается для каждого слова, BM – для конкретного запроса.

http://ru.wikipedia.org/wiki/Okapi_BM25 - дополнительная информация


Техническая оптимизация сайта.


Техническая оптимизация сайта – это комплекс мер, направленных на корректировку технических аспектов сайта, с целью улучшить его взаимодействие с роботами поисковых систем.


Основная задача технической оптимизации – обеспечить максимально полную и быструю индексацию страниц сайта.


2.1 Общие правила


Грамотная техническая оптимизация позволяет роботам поисковых систем хорошо и быстро индексировать сайт, такой сайт не выдает ошибки и сбои в работе, каждой странице сайта соответствует только один адрес и др. Ниже представлены некоторые моменты на которые стоит особенно уделить внимание. Полный список параметров для проверки оптимизатором, которым должен соответствовать сайт согласно технической оптимизации, описан в чек. листе по тех. оптимизации (на портале в разделе «Документы»).


Robots.txt – файл, специально предназначеный для роботов поисковых систем. В этом файле указываются параметры индексирования сайта: какие страницы заносить в поисковую базу, а какие исключить. В нём можно указывать директивы, как для всех роботов поисковых систем сразу, так и для роботов каждой поисковой системы в отдельности.


Про составление этого файла и настройку можно подробнее узнать на сайте помощи вебмастерам от Яндекса http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml.


Карты сайта — одна из страниц сайта, информация на которой аналогична разделу «Содержание» обычной книги. Используется как элемент навигации. В карте сайта представлен полный перечень разделов и/или всех страниц, имеющихся на сайте. Нередко, заголовки страниц в списке служат ссылками на эти страницы. Карта бывает двух форматов:


HTML (для пользователя);

XML (для роботов ПС).


Редиректы (перенаправления) делаются с помощью файла .htaccess, который расположен в корне сайта и доступен только вебмастеру. Так как поисковые системы могут считать сайт с www и без www совершенно различными, то прописывается редирект c сайта без www (http://vashsait.ru) на сайт с www (http://www.vashsait.ru) или наоборот. Это автоматически переадресовывает всех, кто заходит на сайт на нужную страницу.


Настройка видов url страниц - корректный вид url также настраивается с помощью .htaccess. Важно, чтобы все внутренние ссылки на сайте имели одинаковый вид. Это можно оценить по следующим критериям: