„Semalt“: Kaip užblokuoti „Darodar“ robotus.txt

„Robots.txt“ failas yra tipinis tekstinis failas, kuriame pateikiamos instrukcijos, kaip interneto tikrinimo programos arba robotai turėtų tikrinti svetainę. Jų taikymas akivaizdus paieškos sistemose, kurios yra įprastos daugelyje optimizuotų svetainių. Kaip robotų pašalinimo protokolo (REP) dalis, failas robots.txt sudaro esminį interneto turinio indeksavimo aspektą ir suteikia galimybę serveriui atitinkamai patvirtinti vartotojo užklausas.

Semalt“ vyresnioji klientų sėkmės vadovė Julija Vashneva aiškina, kad susiejimas yra paieškos sistemų optimizavimo (SEO) aspektas, susijęs su srauto iš kitų jūsų srities sričių pritraukimu. Norėdami „sekti“ nuorodas, kad perkeltumėte nuorodų sultis, labai svarbu į savo svetainės talpinimo vietą įtraukti robots.txt failą, kad jis būtų instruktorius, kaip serveris sąveikauja su jūsų svetaine. Iš šio archyvo pateikiamos instrukcijos leidžiant ar neleidžiant elgtis tam tikriems vartotojų agentams.

Pagrindinis failo robots.txt formatas

Robots.txt failą sudaro dvi pagrindinės eilutės:

Vartotojo agentas: [vartotojo agento vardas]

Neleisti: [URL eilutė neturi būti tikrinama]

Visame robots.txt faile turėtų būti šios dvi eilutės. Tačiau kai kuriuose iš jų gali būti keletas vartotojų agentų ir direktyvų. Šiose komandose gali būti aspektų, tokių kaip leidimai, neleidimai ar nuskaitymo vėlavimas. Paprastai yra eilutės pertrauka, atskirianti kiekvieną instrukcijų rinkinį. Kiekviena leidimo ar neleisti instrukcija yra atskirtas šia eilutės pertrauka, ypač robots.txt su keliomis eilutėmis.

Pavyzdžiai

Pavyzdžiui, robots.txt faile gali būti tokie kodai:

Vartotojo agentas: darodar

Neleisti: / papildinys

Neleisti: / API

Neleisti: / _komentarų

Šiuo atveju tai yra blokuojamas robots.txt failas, kuris riboja „Darodar“ interneto tikrinimo programą prieigą prie jūsų svetainės. Aukščiau pateiktoje sintaksėje kodas blokuoja svetainės aspektus, pvz., Papildinius, API ir komentarų skyrių. Remiantis šiomis žiniomis, veiksmingai vykdant roboto tekstinį failą, galima pasiekti daugybės pranašumų. „Robots.txt“ failai gali atlikti daugybę funkcijų. Pavyzdžiui, jie gali būti pasirengę:

1. Svetainės puslapyje leiskite visam interneto tikrinimo programos turiniui. Pavyzdžiui;

Vartotojo atstovas: *

Neleisti:

Tokiu atveju visą vartotojo turinį gali pasiekti bet kuris interneto tikrinimo įrenginys, kurio prašoma patekti į svetainę.

2. Blokuokite konkretų interneto turinį iš konkretaus aplanko. Pavyzdžiui;

Vartotojo agentas: „Googlebot“

Neleisti: / pavyzdys-poaplankis /

Ši sintaksė, kurioje yra vartotojo agento vardas „Googlebot“, priklauso „Google“. Tai neleidžia robotui patekti į bet kurį tinklalapį, esantį eilutėje www.ourexample.com/pavyzdysaplankų/.

3. Užblokuokite konkretų interneto tikrinimo įrankį iš konkretaus tinklalapio. Pavyzdžiui;

Vartotojo agentas: „Bingbot“

Neleisti: / pavyzdys, aplankas / blokuotas puslapis.html

Naudotojo agentas „Bing bot“ priklauso „Bing“ interneto tikrinimo įrenginiams. Šio tipo robots.txt failas neleidžia „Bing“ interneto tikrinimo įrenginiui pasiekti konkretaus puslapio naudojant eilutę www.ourexample.com/pavyzdys-aplankų/blokuotas puslapis.

Svarbi informacija

  • Ne kiekvienas vartotojas naudojasi jūsų robts.txt failu. Kai kurie vartotojai gali nuspręsti to nepaisyti. Daugelyje tokių internetinių tikrinimo programų yra trojanai ir kenkėjiškos programos.
  • Kad failas „Robots.txt“ būtų matomas, jis turėtų būti prieinamas aukščiausio lygio svetainės kataloge.
  • Simboliai „robots.txt“ yra didžiosios ir mažosios raidės. Dėl to neturėtumėte jų jokiu būdu keisti, įskaitant kai kurių aspektų rašymą didžiosiomis raidėmis.
  • „/Robots.txt“ yra viešas domenas. Bet kas gali rasti šią informaciją, pridėjęs ją prie bet kurio URL turinio. Jūs neturėtumėte indeksuoti esminės informacijos ar puslapių, kuriuos norite palikti privačius.