Seznam.cz má nový fulltext. Jaký bude?

Seznam.cz oznámil nové testování nového vyhledávacího fulltext enginu. Jaké změny přinesl? Co bude znamenat pro optimalizátory webu? Budou všechny dosavadní poznatky o tomto vyhledávači zastaralé? Jde skutečně o revoluci, jak to některé internetové servery podávají? Zkusme se podívat na nové vyhledávání trochu blíž. Pod každým poznatkem a postřehem se zamýšlím nad tím, co bude každý jednotlivý fakt znamenat v praxi pro ty z nás, kteří se snaží přizpůsobovat weby tak, aby byly vyhledávačům milejší.

Změna je zvláště u některých dotazů vidět na první pohled. Ve staré verzi (v době psaní článku stále ještě nasazené do ostrého provozu – nový engine by měl být podle Seznamáků spuštěn “zanedlouho”) když jste chtěli například najít “ubytování na horách”, vyhledávač vám předložil nabídku stránek nabízející ubytování v Černé . Nová verze pochopila rozdíl mezi hory a Černá hora a ukáže vám skutečně stránky nabízející ubytování na horách. Jak se zdá, Seznam dává větší důraz na často užívaná klíčová spojení a fráze. Otázkou je, zda je se učil ze stránek nebo z dotazů v hledání. Zkusíme si to tedy na dalším případě:

Tentokrát se ptám na Jiřího Topolánka. Ne nemyslím tím expremiéra a ani jsem se nespletl ve jméně. Prostě hledám pána, který se jmenuje Jiří Topolánek. Má smůlu, že má často zmiňovaného jmenovce, což znamená, že pokud se skutečně Seznam učí i z dotazů, ať už z jejich tvaru nebo z jejich četnosti, pak se to musí projevit ve výsledcích. A skutečně. Stará verze mi nabídne odkaz na firmu pana Jiřího Topolánka až na druhém a třetím místě. Naopak první odkaz pojednává o expremiérovi, stejně tak jako zbývajících osm. Nová verze naopak ukázal stránky s Jiřím Topolánkem na prvních 4. místech, pak nějaké stránky, kde se objevuje jak jméno Jiří, tak příjmení Topolánek, včetně nějakého toho nezbytného článečku o Mirkovi. Pro zajímavost Google na první stránku Mirka nepustil a nabídl Jiřího hned 10x. Takže sice se asi Seznam z frází učí, ale ještě je stále na půli cesty, i tak zaplaťpánbu za to…

V diskuzích kolem nového vyhledávače se objevují názory, že Seznam upozaďuje stránky, kde není klíčové slovo v URL, domény s tuzemskou TLD (.cz), případně upozaďuje MFAčka. Nemyslím si. Keyword v URL není a nemůže být až tak silný parametr řadicího algoritmu, kvalitní stránky se najdou i na jiných než českých doménách a s potlačením MFA stránek to nebude až tak silné. Snad jen to vypadá, ale to je podle mne dlouhodobější trend, že Seznam dává přednost rozsáhlejším webům s velkým textovým obsahem a silnou vnitřní strukturou odkazů, což většina rychlokvašených MFA a mikrostránek nikdy nesplňovala. Takže podle všeho bude hlavní změna vyhledávače někde jinde…

Samostatnou kapitolou je propojení jednotlivých komponent, která dávají dohromady to, co známe jako stránku výsledků vyhledávání (SERP – search engine results page). Svého času Seznam zápolil se snímačem screenshotů, to je nyní zdá se pod kontrolou, navíc větší výřezy ze screenshotů pomohly a myslím, že se to líbí i uživatelům, kteří tak mohou být lépe ovlivňování při proklikuí i designem stránek.

Teď se zdá, že je trochu nekoordinovaná práce vyhledávacího stroje a systému, který zvýrazňuje hledané fráze. Zeptám-li se třeba na obligátní “ubytování na horách”, ve výpise se mi zvýrazní i slova jako “české”, “slovenské” nebo “Krušné” (časté sousloví s “hory”). Snaží se snad vyhledávač náš dotaz doplňovat, a tedy automaticky do dotazu zapracovává “nevyřčená” slova?

Věřím, že se v jejich TODO listu objeví i odstranění problému, že když hledáte-li tři slova, vyhledávač zvýrazní jen první dvě. Pokud se ptáte na klíčové slovo nebo frázi, nešvar starého systému, že najde-li ho v URL bez pomlčky nebo jiného dělícího znaku, zvýrazní ho celé (hledáte MP3 a nabídne www.mp3stahuj.cz místo www.mp3stahuj.cz) také zůstal.

Na co by se nakonec mohli hoši z Fulltextu také ještě podívat, jsou popisky (snippet) Jsou totiž o poznání kratší. Často se spokojí místo s popiskem, z něhož bude patrnější kontext vyhledaného textu na stránce, jen se zveřejněním první H1 na stránkách, ve které je hledané slovo. V řadě případů je samotný titulek odkazu delší než popisek a to vypadá docela divně. CO si pak myslet jako uživatel o takové stránce? Že tam nic víc nenajdu? proč bych pak na ni klikal? Navíc se bojím, že pokud to tak zůstane, budou se tvůrci stránek snažit cpát co nejvíce textů hod H1, H2 a H3 a to si myslím, že je nešvar, o který nikdo nestojí…

Snad jde chyby, které do ostré verze administrátoři nepustí. Jak se však zdá, nová verze je skutečně relevantnější. A to je jen dobrá zpráva.

Ostatní si také přečetli

Pan FM Group

18. 4. 2010 v 16:49

No pěkný článek,ale jak píšete, ještě bude hodně dlouho trvat než seznam dohoní google v relevanci…Stejně tak ohledně odkazů, při linkbuildingu by to chtělo větší relevanci u odkazů…

Odepsat

Marek

16. 10. 2009 v 09:40

K nadpisům H1, H2 atp. Myslím, že je dobře, když tam je hledané slovo, aby to zvýraznili a brali na to určitou váhu. S tím, že k tomu ale vypíšou i další část ze stránky, tedy ne jen nadpis samotný. A to, že by někteří tvůrci dávali vše do nadpisů, toho bych se nebál. Zaprvé jsem se s tím setkal několikrát již nyní a zadruhé by to měl robot poznat resp. jestli bude nadpis tvořen jednou či více větami, tak tomu snížit váhu…

Homer

7. 10. 2009 v 19:59

Ad zvýrazňování: “Že je xxx ztučněné, bude práce starého sekundárního zvýrazňovače.” říká Yuhů v jiné duskuzi.

Jano

6. 10. 2009 v 10:35

Najaktualnejšie informace viz: http://fulltext.sblog.cz/2009/10/02/38

Cookie	Délka	Popis
_abck	1 year	This cookie is used to detect and defend when a client attempt to replay a cookie.This cookie manages the interaction with online bots and takes the appropriate actions.
ak_bmsc	2 hours	This cookie is used by Akamai to optimize site security by distinguishing between humans and bots
AWSELB	session	Associated with Amazon Web Services and created by Elastic Load Balancing, AWSELB cookie is used to manage sticky sessions across production servers.
bm_sz	4 hours	This cookie is set by the provider Akamai Bot Manager. This cookie is used to manage the interaction with the online bots. It also helps in fraud preventions
ci_session	2 hours	This cookie is set as default session Cookie name in config.php in config folder in CodeIgniter.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
JSESSIONID	session	The JSESSIONID cookie is used by New Relic to store a session identifier so that New Relic can monitor session counts for an application.
PHPSESSID	session	This cookie is native to PHP applications. The cookie is used to store and identify a users' unique session ID for the purpose of managing user session on the website. The cookie is a session cookies and is deleted when all the browser windows are closed.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Délka	Popis
__cf_bm	30 minutes	This cookie, set by Cloudflare, is used to support Cloudflare Bot Management.
_mcid	1 year	This is a Mailchimp functionality cookie used to evaluate the UI/UX interaction with its platform
language	session	This cookie is used to store the language preference of the user.
PBSECURESUSID	session	This cookie is set by the provider Podbean. This is a session cookie used to verify that the users are on secure sessions. It helps iin implementing audio files on the website.
S	1 hour	Used by Yahoo to provide ads, content or analytics.

Cookie	Délka	Popis
__gads	1 year 24 days	The __gads cookie, set by Google, is stored under DoubleClick domain and tracks the number of times users see an advert, measures the success of the campaign and calculates its revenue. This cookie can only be read from the domain they are set on and will not track any data while browsing through other sites.
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_716288_15	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
at-rand	never	AddThis sets this cookie to track page visits, sources of traffic and share counts.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.
sid	1 month	The sid cookie contains digitally signed and encrypted records of a user’s Google account ID and most recent sign-in time.
uvc	1 year 1 month	Set by addthis.com to determine the usage of addthis.com service.

Cookie	Délka	Popis
fr	3 months	Facebook sets this cookie to show relevant advertisements to users by tracking user behaviour across the web, on sites that have Facebook pixel or Facebook social plugin.
IDE	1 year 24 days	Google DoubleClick IDE cookies are used to store information about how the user uses the website to present them with relevant ads and according to the user profile.
loc	1 year 1 month	AddThis sets this geolocation cookie to help understand the location of users who share the information.
NID	6 months	NID cookie, set by Google, is used for advertising purposes; to limit the number of times the user sees an ad, to mute unwanted ads, and to measure the effectiveness of ads.
test_cookie	15 minutes	The test_cookie is set by doubleclick.net and is used to determine if the user's browser supports cookies.
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.

Cookie	Délka	Popis
_sl_session	10 years	No description available.
COMPASS	1 hour	No description
csrfToken	session	No description
GoogleAdServingTest	session	No description
X-Mapping-inndgnee	session	No description

Seznam.cz má nový fulltext. Jaký bude?

Ostatní si také přečetli

4 názory na “Seznam.cz má nový fulltext. Jaký bude?”

Napsat komentář: Jano Zruš odpověď

Ostatní si také přečetli

Podobné články

4 názory na “Seznam.cz má nový fulltext. Jaký bude?”

Napsat komentář: Jano Zruš odpověď