мои проекты
|
блог: вебразработка и SEO
|
блог: экономика и политика
|
блог: разное и интересное
|
портфолио: дизайн
|
пресса и выступления

главная > блог: вебразработка и SEO > SEO: Уникальность изображений, как статический фактор 2007

Гипотеза об уникальность изображений на странице, как статическом факторе при ранжировании

Авторитетность страницы сайта (PageRank по Гуглю) - первый статичный фактор, влияющий на ранжирование выдачи.

Потом заговорили о новом статичном факторе - TrustRank - значении доверия поисковой системы документу.

Далее появились намеки на наличие у Яндекса статичного значения, оценивающего отношение некоторого документа к некоторой теме.

Очередной сюжет - уникальность информации, как фактор ранжирования. Может ли поисковая система присвоить каждому документу некоторое статичное числовое значение, показывающее уникальность документа? Чтобы поднимать уникальные документы и понижать копии?
Может, и не только текст страницы, но и уникальность имеющихся на странице изображений, что в совокупности может давать статичный индекс уникальности документа.

1. Уникальность текста на странице. Одна из возможных методик определения уникальности текста - метод шинглов - упомянута в статье Ильи Сегаловича "Как работают поисковые системы". Но возможно, поисковые системы могут обойтись и более примитивными решениями. Здесь я публикую скрипт и сервис, дающий каждому тексту значение уникальности, расчитываемое на основе выявления повторов целых предложений (помнится, в Яндексе, в расширенном поиске, есть возможность искать слова в рамках одного предложения - значит, предложение, как единица уникального контента вполне подходит). Как аргумент - написанный мной скриптец вполне эффективно выявляет грубо рерайченные оптимизаторами тексты.

2. Уникальность изображении на странице. Имеющиеся на Яндексе инструменты поиска по изображениям показывают, что Яндекс легко находит копии изображений с измененными размерами. А значит, Яндекс может присвоить каждому документу статичное числовое значение - показатель уникальности размещенных на странице изображений, а не только текста.
скачать php скрипт проверки двух изображений на подобие

Например, как может работать технология, выявляющая копии изображения независимо от их размера (тестируемые изображения - портреты В.В.Путина - внизу этой страницы):



Первые три окошка фотошопа содержат три портрета В.В.Путина (полные изображения внизу этой страницы), сжатые в фотошопе до размера 5х10 пикселей.
Окошко во втором ряду - те же три изображения, но все 50 пикселов в них расположены в одну строку. Как вы видите - три строки, практически, идентичны.
Последнее окошко - те же строки, из которых убран цвет. Идентичность не исчезла. Теперь можно каждому серому пикселу присвоить цифровое значение. И представить любое изображение в виде короткого цифрового кода с одинаковым количеством цифр. Далее сравниваем коды между собой для выявления копий.

Считаем коэффициент уникальности изображений на странице:
- из 3 изображений на странице только 1 уникальное - коэффициент уникальности 33%;
- из 3 изображений на странице 2 уникальных - коэффициент уникальности 66%;
и т.д. Уникальным документам даем бонусы в выдаче.

Вывод для вебмастеров: блюсти не только уникальность текста, но и картинок. Для этого картинки, взятые с другого сайта - кропировать.

P.S. Использованные выше три изображения, идентифицированные Яндексом как копии:

2010-01-14