Uvědomil jsem si jednu věc, jak si vyhledávače mohou ulehčit rozhodování o tom, která část stránky je důležitá. A jelikož mě to napadlo až teď, tak to budou mít už dávno implementované (checht).
Výchozí stav: většina webů má nějaký publikační systém, který má stejné bloky – menu, navigace, reklamní blok (obsahová vata).
Identifikace vaty: vezme se několik stránek webu (matrix string) a porovnají se na duplicity. Duplicitní bloky(string) se porovnají s celou stránku (source string) a duplicitní části se odmažou (replace části stringu ničím). Takto zůstanou jenom důležité části stránek
Výsledek: vyselektovaný obsah stránky od obsahové vaty. Následně vyhledávač již pracuje s touto částí stránky a ostatní části stránky v kombinaci s důležitým obsahem může případně použít v suplementálním SERPu.
Závěr: na vlastních webech vatu dávat do vedlejších bloků a důležitý obsah zdrojově nekombinovat s vatou, aby byl lépe identifikovaný.
OT: ještě mě napadlo, že Google sám zveřejňoval heat mapy serpu. Možná takto dokáže identifikovat i hlavní obsah webu.
OT2: http://www.ms.mff.cuni.cz/~kopecky/vyuka/dis/html/siframes.html.iso-8859-2
Ano, opakující se části stránky mají menší důležitost než originální části stránky. To mimo jiné popisuje i Michal Kubíček ve své nové knize.
Jsem ještě tu knihu nezačal číst a to už se mi v kompu válí od vydání. Ale jsou jiné a přednější věci na práci.