Наскільки важливо співвідношення тексту на сторінці до розміру HTML коду?
Чому статті із великим розміром тексту найчастіше правильно обробляються пошуковиками?
Чому наявність великої кількості зовнішніх та внутрішніх посилань збиває з толку пошукові роботи?
Чому на Ваш сайт заходять по словам, які відсутні в тексті статей?
Наскільки просто роботам знайти на Вашій сторінці текст, що несе в собі суть самого тексту?
Wordpress vs Wordpress - чи насправді однакові сторінки при використанні різних тем?
Давно задався метою дослідити і відповісти на ці запитання.
Дещо, що може допомогти в розумінні тексту цієї статті можна почитати в моїй ідеалізації щодо створення вебсторінок, спробі аналізу видачі пошуковиками україномовних запитів, а також в деяких частинах великого дослідження відсутності насправді українських вебсайтів в уанеті.
Ідея статті виникла під час розмови між masterpiecer (aka Олександр Фурман) та Ярославом Федораком (aka jarofed ) під час обговорення майбутнього каталогу блогів і не тільки, а саме моменту щодо співвідношення текстової частини самої статті і загальної кількості тексту на сторінці, а також співвідношення текстової частини та загального розміру html коду сторінки. Крім того було підняте питання схожості коду, що генерується CMS, якщо ця система є одного типу.
Для яскравості прикладу я обрав кілька сторінок з блогів, відвідуваність яких найвища. Враховуючи те, що розмова стосувалась wordpress, його і буду гнобити 8). Хоча ні... Вордпрес тут точно ні при чому.
- Спроба розповісти про себе від Letrodectus
- стаття/html - 2,23%
- стаття/текст - 4,67%
- стаття+коментарі/текст - 80,18%
Виходячи з теорії ймовірності, із досить малою похибкою можна сказати, що входи з пошуковиків будуть на 5% відповідати тексту самої статті, в той час як після знайчної кількості коментарів і повторної переіндексації сторінки саме з коментарями пошуковики будуть на (80-5)=75% ототожнювати сторінку з текстом коментарів і тільки на 5% з текстом самої статті.
- Стаття про найкращі записи від Електрика
- стаття/html - 2,9%
- стаття/текст - 15,25%
- стаття+коментарі/текст - 50,31%
На старті аналогічно до попередного прикладу, але через значно більшу кількість паразитного тексту на сайті, кількість корисного тексту лише трошки більше 15 відсотків. Така буде і видача від пошуку.
- Приклад статті із фотоблогу "Гучні Імена"
- стаття/html - 10,38%
- стаття/текст - 41,53%
Для прикладу я взяв чи не найбільшу за кількістю тексту статтю з цього блогу, тому показник і виявився таким значним. Для фотоблогів дуже суттєвим показником, що покращує віддачу від пошукових систем - це наявність атрибутів alt та title для кожної фотографії, тоді тексти з цих атрибутів рахуються за корисний матеріал статті і примножують показники.
- Баян від Механіка щодо історії виникнення електронної пошти
- стаття/html - 32,78%
- стаття/текст - 73,84%
Це чи не найвищий показник в тесті. Ну воно й зрозуміло - стаття досить велика і реально на сайті відсутня велика кількість "лівого матеріалу".
- Федорак розмірковує про статистику
- стаття/html - 10,37%
- стаття/текст - 25,80%
- стаття+коментарі/текст - 42,94%
Досить яскравий приклад, бо в даному випадкі я обрав найпопулярнішу статтю з всього вебсайту. Враховуючи, що на даному блозі досить значна кількість коментарів і вони несуть в собі дійсно релевантну інформацію, - можна зробити висновок, що коментарі вносять собою в значиму частину сторінки рівно стільки, скільки є сам текст статті. Тому дуже важливим фактором є наявність великої кількості правильних коментарів.
- Найпопулярніша стаття на моєму блозі "про спам"
- стаття/html - 26,44%
- стаття/текст - 63,76%
- стаття+коментарі/текст - 72,81%
Це точно не ідеал! Працюю над переробкою теми і виводом всіх блоків засобами зовнішнього javascript, бо хочу наблизитись до показника в 90-95% тексту статті до тексту загалом.
- Новина від M.P.C.R про вихід нової версії нестійкого вордпресу
- стаття/html - 2,19%
- стаття/текст - 10,13%
- стаття+коментарі/текст - 25,1%
Дуже низький показник. Спасають коментарі. Погіршує показник наявність великої кількості різноманітних блоків.
- Що можна сказати з вищеприведеного і не тільки
- Розмір статті самим прямим чином впливає на співвідношення корисного матеріалу до розміру сторінки
- Наявність великої кількості різноманітних текстових блоків та інформерів знижує цей показник, погіршуючи "чистоту" Ваших сторінок та ускладнюючи роботу пошуковим роботам
- Переведення блоків, що повторюються на всіх сторінках в javascript видачу дуже сильно покращує дане співвідношення
- Застосування складної HTML верстки ваших статей із великою кількістю вбудованих стилів погіршує показник співвідношення тексту статті до ваги сторінки в цілому
Порівняння двох вордпресів.
Я спеціально не виділяв цю частину статті окремою статтею, бо не рахував за потрібне розводити демагогію.
Отже - M.P.C.R проти Української Блогосфери.
В розмові було закинуто клич, що пошуковики однаково впізнають вордпреси і дуже легко визначають що на сторінці є корисним матеріалом, а що - паразитним грузом.
Враховуючи те, що точної інформації про це я не зустрічав, буду робити аналіз згідно того, що є в коді сторінок цього вебсайту, наводячи приклади що є схожим, а що відмінним. Для цього я взяв дві різних сторінки із приблизно однаковою кількістю матеріалу (про співвідношення читайте на початку статті).
Структура сайту згідно HTML
- M.P.C.R - У.Б.
- заголовки однотипні в обох - Назва Статті / Ім'я Вебсайту
- Блок Мета інформації - генератор в обох Вордпрес(різниця в версіях, що несуттєво), але метаінформація різна, через різницю в конфігураціях вордпресу - в M.P.C.R відсутні теги rel щодо архіву, в той час як в У.Б. - наявність цілого блоку з 11 посилань на місячні архіви за останній рік
- Далі йде блок-меню головних посилань вебсайтів - він в обох однаковий практично - посилання на інформацію про сайти, контакнту інформацію тощо
- А далі починається блок матеріалу, який суттєво відмінний. Ну нічого дивного - шаблони ж різні, та й конфігурація блоків також різна.
M.P.C.R - наявні блоки популярних записів, останніх записів, блок контактів. Вже в цих блоках присутні теги h1(назва сайту) h2(заголовки блоків), які можуть бути сприйняті як заголовки статей.
У.Б. - Заголовок статті(h1) і далі текст статті.
Це тільки людина, окинувши оком вебсайт, може зрозуміти, що тут текст статті, а тут - блок, який не має відношення до контексту матеріалу статті. Робот же читає HTML код, по якому дуже важко зрозуміти де саме той текст, по якому варто формувати стратегію майбутної видачі в пошукових системах. -
M.P.C.R - h3 тег оголошує блоки коментарів, які виводяться в вигляді пронумерованого ( ol тег) списка ( li теги )
У.Б. - h4 тег оголошує блоки коментарів, які виводяться в вигляді багаторівневих div блоків для кожного коментаря.Висновок: Різниця дуже суттєва, і беручи до уваги лише два сайти практично нереально визначити де ж саме в тексті всієї сторінки знаходяться коментарі.
-
M.P.C.R - h3 заголовок попереджає про форму додавання коментаря
У.Б. - h6 заголовок попереджає про форму додавання коментаря
Ідентифікатори форм в HTML розмітці різні і впізнати схожість досить складно. -
M.P.C.R - блоки div із назвами та текстом всередині кожного з блоків ( Завантажити Український Вордпрес, Підписка, Хмарка Тегів, Рубрики, Календар, Архів, Останні коментарі, Найсвіжіше з українських Блогів, Мета, Блогролл )
У.Б. - блоки div із зовсім іншою розміткою та ідентифікаторами ( Свіжі Коментарі, Найпопулярніші Статті, Останні Статті)
І покажіть мені будь-ласка фактори, які б заставили пошукові системи придавати хоч якесь значення тому, чи на вордпресі створений вебсайт, чи на друпалі, чи банально статичний сайт із динамічно формованими блоками з допомогою php якогось самописного двигунця?
Запевняю, що на одному і тому ж самому Вебсайті лише двома різними шаблонами можна створити абсолютно несхожі сторінки як розміткою, так і наявністю різноманітних блоків, хай навіть із однаковим текстом статті.
Або з іншого боку, можна на зовсім різних двигунцях створити абсолютно ідентичну розмітку і зовнішній вигляд.
І пошукові алгоритми не будуть впізнавати ніколи систему, на якій працює вебсайт. Головне - це певні співвідношення, статичність того чи іншого матеріалу, релевантність, пов'язаність матеріалу всередині вебсайту, наявність коректної метаінформації, кількість беклінків і їхня якість тощо.
Trackback URL для цього допису
З новим 2009 роком!
from Персональна сторінка - podarok on Пт, 2009-01-02 00:39Приєднуюсь до Всіх привітань, що отримав сьогодні як через рідер, так і по персональних месенджерах и всіх можливих інформаційних каналах.
Більш технічні результати роботи мого блоґу можете прочитати окремо, а тут я хочу зробити менш офіційне привіт...
Початок кінця.
from Персональна сторінка - podarok on Чт, 2008-12-18 00:39Вітаю Шановні!
Захотілось дивного - ось і результат...
Якось важко було стримуватись, формуючи статті технічного характеру на моєму IT блозі.
Тому я і тут....
Сайт
Чхати хотіли пошуковики - WP,
Чхати хотіли пошуковики - WP, а чи не WP.
Єдине, що помічав особисто - аніж складніший двигунець та більше усіляких "віджетів" (що ми - майже всі - так полюбляємо начіпляти їх на блоґи) - тим гірший результат релевантності сторінки її реальній тематиці для пошуковика та тим менш цільовий трафік ми отримуємо.
Що є паскудно.
дякую за порівняння. Дійсно
дякую за порівняння. Дійсно відмінностей багато... але як думаєш, чи не може пошуковик визначити "що це вордпрес", базуючись на блоці "мета" де це доволі конкретно вказано? І якщо визначить - то чи матиме це якийсь вплив на роботу пошуковика?
P.S.: все-таки вирішив позакривати зовнішні посилання з тіла статті тегом nofollow?
nofollow - неспроста, бо
nofollow - неспроста, бо статті не мають відношення до тексту цієї. Ти ж в курсі - завжди експериментую 8)
ПОшуковик може визначити, але не бачу потреби це визначати, бо в реальності - це нічого не дасть
усе вірно, не варто
усе вірно, не варто захоплюватсь купую віджетів... чим простший код - тим краще. НМСД
розкажи як ти вимірював
розкажи як ти вимірював процентну ставку відношення контенту до коду та решту, хочу у себе поміряти.
Пошуковик визначає тип движку вордпресу, для того аби включити його до рейтингу яндексів, та до пошуку по блогам як яндексу так і гугля. Також в випадку виявлення движку вордпресу яндекс моніторить кількість дописувачів до рсс цього блогу.
Те що пошуковику корисно визначати тип движку це я впевнений, бо таким чином, наприклад, банять всі гавносайти та сателіти на цмсках: satelitePro та CMSimple.
Вордпрес визначається лекго, за допомогою meta-тегу, або якщо його нема (як в мене наприклад), то по посиланнях до малюнків та скриптів шаблону в яких фігурує wp-content.
А ще пошуковики засилають бота-павука, що спеціалізується по блогам, щодня на такі сайти, в той час, коли звичайний бот може і тижнями не заходити. А також отримує пінги від сервісу вордпресу та від власного пінг-сервісу, щоб проіндексувати щойно створену нову статтю, аби включити її до пошуку по блогам.
Покажи мені хоч один
Покажи мені хоч один офіційний документ з Планети земля, що може довести цю ілюзію.
Процентна ставка - або використай seochat.com - Code to Text Ratio, або банальним переведенням html в текст тим же джаваскріптом або броузером.
покажи мені хоч один
покажи мені хоч один офіційний документ в якому йдеться мова яким чином сканує робот-павук, про те які в нього фільтри, та алгоритми оцінювання контенту. Покажи офіційний документ в якому розказується що відношення тексту до html якимось чином впливає на результати видачі в пошуковиках.
«Наявність великої кількості різноманітних текстових блоків та інформерів знижує цей показник, погіршуючи "чистоту" Ваших сторінок та ускладнюючи роботу пошуковим роботам» — де офіційний документ що підтверджує це?
Знаєш - в чомусь ти правий...
Знаєш - в чомусь ти правий... От тільки мій висновок щодо співвідношення тексту до коду базується не просто на спекуляції інформації, а на спробі стати на бік пошукового павука - простіше проаналізувати сторінку, на якій дане співвідношення вище. Чіткої цифри в тому немає.
А от щодо мета тегу хто саме згенерував код(Вордпрес чи ні) - тут питання однозначно спірне і факторів проти назвати можна дуже багато, на порядок більше чим за, але найголовніших два
Ідеалу в оптимізації не існує, бо пошукові системи аналізують мільйони сайтів в табличному вигляді і дивляться лише на залежність між пошуком і кліками по лінкам результатів цього пошуку
З документації Google
Є в Google search-engine-optimization-starter-guide написаний самими Google. Там є такі от слова:
"On a page containing a news story, we might put the name of our site into an h1 tag and the
topic of the story into an h2 tag",
тобто назву сторінки кладемо в h1, назву теми (розділу та таке інше) в h2.
Якщо Google дають такий приклад, то мабуть пошукові машини самі на нього орієнтуються. Там є ще ряд рекомендацій, виходячи з яких можна зрозуміти, що Google полюбляє текст по темі з мінімумом усілякого мотлоху з бажано семантично вірною та максимально валідною розміткою. Хоча можливо, це в мене фантазія розгулялась.
Про Рекомендації Гугля
Насправді всі ми частково праві.
В документації серед строк завжди можна знайти- відповіді на багато запитань,
- крім того можна стати на місце розробника пошукової системи і вивести певні правила,
- а також можна взяти доуваги певні статистичні дані і вичислити, що той чи інший двигунець має кращі або гірші показники в тій чи іншій пошуковій стистемі.
І якщо почитати тут всі коментарі - то можна побачити, що кожен з нас стоїть на певній стороні 8))
Ну як мінімум - це обмін
Ну як мінімум - це обмін думками для розширення світогляду :)
Pingback
[...] аяксом після того, як сторінка завантажиться - тоді коментарі не впливали б на якість контенту вцілому і можна б було наплювати на будь-які nofollow та noindex. Крім [...]
Додати новий коментар