мои проекты
|
блог: вебразработка и SEO
|
блог: экономика и политика
|
блог: разное и интересное
|
портфолио: дизайн
|
пресса и выступления

главная > блог: вебразработка и SEO > SEO: сервис и скрипт проверки текста на уникальность 2007

Сервис и скрипт проверки текста на уникальность

бесплатный сервис здесь: copysearch.c-laboratory.ru
скачать скрипт: copysearch.zip

Исключение копий из выдачи, по видимому, сейчас является для Яндекса более важной задачей, чем повышение релевантности. Действительно, создание контента своего сайта путем воровства или упрощенного переписывания чужого - массовая болезнь, особенно при создании сео-сайтов под продажу рекламы или размещение ссылок.

На что может ориентироваться Яндекс при выявлении копий? Сразу приходит мысль о методе шинглов, который Илья Сегалович с любовью упоминул в статье "Как работают поисковые системы".

Однако, представляется, что для выявления полных копий или поверхностных ре-райтов под SEO-задачи (сводимых, чаще всего, к перестановке местами предложений и компиляции из нескольких текстов), метод шинглов будет излишне ресурсоёмок.

Поэтому я решил взять из текста страницы случайным образом десяток длинных предложений и поискать их поиском по фразе Гуглем (поиск по фразе у Яндекса совсем никуда не годен).

По результатам поиска оценивается уникальность текста.
Коэффициент уникальности изменяется от 0 до 1.
Коэффициент уникальности вычисляется по формуле: K = 1 / (S/P), где:
P - количество предложений исходного текста найденных в гугле.
S - сумма всех найденных в гугле предложений.
Таким образом, если каждое из выбранных предложений найдено только по одному разу - текст абсолютно уникален и его коэффициент уникальности равен 1.
Чем чаще отдельные предложения текста найдены в других текстах - тем ниже будет его коэффициент уникальности.

Пример 1:
В исходном тексте найдено 10 предложений длина которых более 50 символов.
Для всех предложений найдено только по 1 копии.

Вычисляем коэффициент уникальности:
P = 10;
S = 10 * 1 = 10;
K = 1 / ( 10 / 10 ) = 1

Пример 2:
В исходном тексте найдено 7 предложений длина которых более 50 символов.
Для первого предложения в гугле найдено 6 копий. Для второго предложения копий не найдено (гугль не знает такой цитаты). Для остальных предложений по 2 копии.

Вычисляем коэффициент уникальности:
P = 7 - 1 = 6;
S = 6 + 0 + 2 + 2 + 2 + 2 + 2 = 16;
K = 1 / ( 11 / 6 ) = 0,38
2009-12-04

SEO: старые статьи
SEO: мои инструменты для поисковой оптимизации 2000
Маркетинг: Удаляем конкурентов из Яндекса 2005
SEO: Нелинейная выдача на Яндексе 2006
SEO: скрипт для перелинковки сайтов 2007
SEO: Уникальность изображений, как статический фактор 2007
SEO: сервис и скрипт проверки текста на уникальность 2007
UX: Поведение - смотрим глазами посетителя
SEO: Истинное ранжирование Яндекса
SEO: Оценка рисков поискового продвижения
UX: Яндекс повторил мои "тропинки" в 2009
UX: Google повторил мои "тропинки" в 2011
SEO: Закладки вместо ссылок
SEO: Качество текста по Яндексу
UX: быстродействие браузера
SEO: Конверсии поисковых запросов в лиды
SEO: Как бруазеры следят за пользователями
Веб-разработка: Заказчик и студия
UI: интерфейс и угол зрения
SEO: Атака ботов поведенческими
Маркетинг: Поведение на сайте и персональная реклама
SEO: сносим Аналитикс и Метрику
UI и адаптивная верстка
UX и UI ошибки в примерах
SEO: мой бесплатный курс обучения