|
главная > блог: вебразработка и SEO > SEO: сервис и скрипт проверки текста на уникальность 2007
Сервис и скрипт проверки текста на уникальность
бесплатный сервис здесь: copysearch.c-laboratory.ru скачать скрипт: copysearch.zip
Исключение копий из выдачи, по видимому, сейчас является для Яндекса более важной задачей, чем повышение релевантности. Действительно, создание контента своего сайта путем воровства или упрощенного переписывания чужого - массовая болезнь, особенно при создании сео-сайтов под продажу рекламы или размещение ссылок.
На что может ориентироваться Яндекс при выявлении копий? Сразу приходит мысль о методе шинглов, который Илья Сегалович с любовью упоминул в статье "Как работают поисковые системы".
Однако, представляется, что для выявления полных копий или поверхностных ре-райтов под SEO-задачи (сводимых, чаще всего, к перестановке местами предложений и компиляции из нескольких текстов), метод шинглов будет излишне ресурсоёмок.
Поэтому я решил взять из текста страницы случайным образом десяток длинных предложений и поискать их поиском по фразе Гуглем (поиск по фразе у Яндекса совсем никуда не годен).
По результатам поиска оценивается уникальность текста. Коэффициент уникальности изменяется от 0 до 1. Коэффициент уникальности вычисляется по формуле: K = 1 / (S/P), где: P - количество предложений исходного текста найденных в гугле. S - сумма всех найденных в гугле предложений. Таким образом, если каждое из выбранных предложений найдено только по одному разу - текст абсолютно уникален и его коэффициент уникальности равен 1. Чем чаще отдельные предложения текста найдены в других текстах - тем ниже будет его коэффициент уникальности.
Пример 1: В исходном тексте найдено 10 предложений длина которых более 50 символов. Для всех предложений найдено только по 1 копии.
Вычисляем коэффициент уникальности: P = 10; S = 10 * 1 = 10; K = 1 / ( 10 / 10 ) = 1
Пример 2: В исходном тексте найдено 7 предложений длина которых более 50 символов. Для первого предложения в гугле найдено 6 копий. Для второго предложения копий не найдено (гугль не знает такой цитаты). Для остальных предложений по 2 копии.
Вычисляем коэффициент уникальности: P = 7 - 1 = 6; S = 6 + 0 + 2 + 2 + 2 + 2 + 2 = 16; K = 1 / ( 11 / 6 ) = 0,38
2009-12-04
|
|