17
Mar 08

Site crawling. Legalități. Probleme?

Se practică, tot mai mult, agregatoarele de informații, uneori până la absurd.

De ce e agregarea asta un model bun?
Pentru că informația e multă și e fragmentată pe n site-uri. Pentru că vrem rezultate relevante, instant și nu mai avem timp să căutăm acul în carul cu fân. Așa că apelăm la servicii de agregare.

“E legal ceea ce fac?”

Site crawling în România se face tot mai mult.
Știu de vertimo.ro, în imobiliare. Știu de alte câteva la care se lucrează. Nu-mi aduc acum aminte de altele, așa că dacă știi, lasă te rog un link.

Atunci când iei conținut de pe alte site-uri, e imperativ să ai un răspuns clar și bine argumentat la următoarea întrebare:
E legal ceea ce fac?

Majoritatea site-urilor au drept de copyright asupra conținutului pe care-l publică. Cele mai multe nu îți permit să le duplici conținutul altundeva decât, eventual, cu acordul lor scris.

Dar poate nu te bagă-n seama și/sau nu se obosesc să-ți dea o aprobare scrisă că e OK să le preiei datele.

Așa că iei, frumos, legea dreptului de autor și începi s-o studiezi, cu atenție deosebită pe secțiunea de limite/excepții. Descoperi că ar fi modalități legale.

Două scenarii, o dilemă

Scenariu 1:
Să presupunem că Alex vrea să-și cumpere un BlackBerry second-hand, fiind nemulțumit de noul său iPhone. Intră pe câteva site-uri de anunțuri pe care le cunoaște și găsește 5 oferte OK. Îi contactează pe vânzători, alege o ofertă și peste câteva ore se-ntâlnește cu vânzătorul, într-o cafenea.
Încântat de noul său BlackBerry, Alex decide să scrie un post pe blog și să-i promoveze pe ceilalți 4 vânzători de BlackBerry. Nu de-alta, cu siguranță sunt și alții dezamăgiți de iPhone, interesați să-și ia altceva! Zis și făcut, apare postul, cu link-uri directe către anunțurile în cauză.

Scenariu 2:
Krauler, un engine de site-crawling dezvoltat in-house, intră pe câteva site-uri de anunțuri, din dorința de-a le inspecta conținutul și a găsi noutățile. Krauler găsește repede (hopefully :p) ceea ce caută și, fiind încântat de descoperiri, decide să le facă un bine și altora care ar căuta aceleași lucruri.
Astfel, Krauler publică pe site-ul său link-uri către anunțurile pe care le-a găsit prin peregrinările sale. Eventual, dacă sunt multe, le mai și aranjează, elimină duplicatele nenecesare etc. Periaj profesional!

Și dilema:
La nivel de bază, esențial, există diferențe de comportament între Alex și Krauler?

Dincolo de găurile din scenarii… de ce comportamentul lui Alex e acceptat și dorit de către cei care dețin site-uri, pe când cel al lui Krauler e considerat rău-famat și, uneori, interzis?

Adică dacă datele sunt accesibile public și disponibile vederii umane, de ce nu ar fi disponibile și vederii artificiale?

P.S. Adevărul este că Alex e încântat de iPhone… încă.

  • daca in discutie sunt mfa vs site-uri de continut (stiri etc) e foarte corect sa existe un robots.txt si apoi ban sau restul.
    daca discutam totusi de magazine online cred ca interestul tuturor este sa vanda. nu sa faca pageview (desi am vazut de ex magazine cu adsense pe ele !!), nu sa faca clickuri ci pur si simplu sa vanda. si atunci orice link pus de cineva spre ei sau orice informatie care duce spre ei inseamna in cele din urma vanzare.
    acum intr-adevar mai exista si servicii (gen al nostru) unde cineva plateste o taxa lunara sa-si vada preturile comparate cu ale tale ... caz in care tu n-ai aparent alt avantaj decat ca fie cineva te va concura la preturi (si va da faliment la un moment dat), fie isi va scoate produsele si vei ramane printre putinii care le va vinde , fie va face presiune pe furnizor caz in care end-userii vor avea de castigat printr-o concurenta reala (calitate vs pret) ... deci pana la urma te ajuta sa fii in trend sau sa dispari chiar daca nu stii asta inca ...

  • Trebuiesc separate putin lucrurile aici. Cei ce vand produse vor acepta cat mai multe legaturi catre produsele lor. Dar cei ce prezinta informatie ce castiga? Multe pagini web au ca atu informatia unica. Si daca nu cer bani vizitatorilor pentru a accesa informatia, atunci sustinerea materiala se face pe prin publicitate. Timpul alocat culegerii informatiei, prezentarii ei intr-o forma umana, categorisirea, gasduire web, mentenanta etc costa. Acum tu iti trimiti robotelul, culege informatia si o prezinti la tine pe site globalizat. Vizitatorii tai sunt multumitit, dar autorii pierd. Sa zicem ca robotelul tau aduna informatie de pe 20 de pagini web. Acele 20 de pagini web pierd pentru ca exista putine sanse ca vizitatorul sa continue sa citeasca pe situl sursa. Intr-un an din 20 de pagini web, 10 renunta la a mai aduce continut pentru ca pur si simplu nu este convenabil d.p.d.v. financiar. Acum robotelul aduce continut nou numai de pa 10 pagini web. Deci in final, are vizitatorul de castigat ceva?

    Legea din Romania spune clar cat si cum ai voie sa preiei informatii. Spun din proprie experienta ca nu sunt dispus sa cedez atuurile paginile mele web pentru orice fel de serviciu web. Noi umblam dupa contracte de exclusivitate, de angajament pentru difuzarea informatiilor la timp etc. etc. Munca enorma. Si robotelul preia totul. Ok Sursa e specificata, dar daca articolul e prezentat in totalitate ... sincer, tu ca vizitator ai mai face click? Am curajul de a trage singur concluzia ca nu vei face click.

    Un alt aspect este legat de comunicatatea pe care un proprietar de pagina web incearca sa adune. Daca doresc ca articolele mele sa fie comentate, sa inteleg opiniile vizitatorilor etc. ? Filip, ce beneficii ai fi avut tu daca toate aceste discutii ar fi avut loc pe Digg.com? Cu siguranta subiectul acesta ar fi atras mai multe comentarii, dar pe tine te ajuta cu ceva ca nu ai comentarii in pagina subiectului?

    Daca esti proprietar de sit ce aduna informatii de pe 20 de pagini web. Acei robotei cheltuiesc ceva resurse. Si alta persoana face un alt sit si nu face decat sa colecteze informatia de la tine de pe sit. Nu merge pe 20, merge pe unul singur, deci cheltuieste mult mai putine resurse. Care este opinia ta atunci?

    Pe de alta parte, nu poti sa compari Google cu multe alte servicii din simplul motiv ca nu ai pe Google toate informatiile necesare. Vizitatorul va trebui sa acceseze linkul pentru a avea o imagine completa asupra informatiei.

    Concluzia: fara autori informatiile culese nu ar fi decat texte de doi lei si texte publicitare. A copia informatia fara acordul autorului cu argumentul ca o faci mult mai accesibila vizitatorilor mi se pare jignitoare. Din fericire exista legi si modalitati de a combate aceste lucruri si chiar se pot obtine despagubiri.

  • Este si cazul site-ului www.babiz.ro ... pentru piese auto si anvelope.

  • Un "reply excelent":http://www.locknet.ro/article/..., semnat de Aurelian.

  • @Adrian,
    Castigurile financiare sunt o consecinta naturala a unui serviciu (sau produs) de calitate (presupunand ca ajunge pe piata).
    O companie *trebuie*, in primul rand, sa se concentreze asupra serviciului pe care-l ofera consumatorilor, sa-l faca unul de calitate si util.

    Daca cei mai multi si-au facut din "money making" un scop in sine, asta nu inseamna ca e OK, asa ar trebui sa facem toti, pentru ca asa e bine si asta e realitatea.

    Conceptul "user-oriented" nu a fost inventat de oamenii de business, ci de designerii de produse (iar prin "designer" nu ma refer doar la desen/concept vizual), ca un manifest impotriva produselor "feature-oriented"/"forget-the-user-oriented".
    Iar atunci cand utilizatorii tai au o experienta buna, folosindu-ti produsul, e natural sa ai revenue mai mare.

    Ce vreau sa subliniez e ordinea fireasca a prioritatilor: *intai* produsul, *apoi* profitul.

  • @alex negru, Adrian Grigore
    Cred ca si un Krauler poate fi monetizat printr-un serviciu de subscription (lunar/anual) sau ceva de genul.

  • Adrian Grigore

    Eu intotdeauna vorbesc din perspectiva userului, pentru ca daca Internetul nu e facut pentru useri, atunci pentru cine?

    E foarte frumos să crezi că internetul este făcut pentru useri. E foarte frumos să te gândești, ca dezvoltator că ceea ce faci e pentru useri... poate asta a fost ideea inițială, dar partea nasoală este că este tot pentru bani. Tot trend-ul care se manifestă acum, și anume, acest concept "user oriented" este o cauză directă a "descoperirii" că dacă ai useri mulțumiți, ai useri fideli, deci revenue mai mare.

    (Îmi cer scuze pentru exprimare, pot să zic că sunt puțin "tipsy") :)

  • pentru ca alex reprezinta un utilizat care poate fi monetizat pe cand Krauler NU.
    iar pentru multe situatii (aka site-uri deja consacrate) un Krauler nu aduce nici un beneficiu ci doar il "fura" pe Alex.

  • Eu intotdeauna vorbesc din perspectiva userului, pentru ca daca Internetul nu e facut pentru useri, atunci pentru cine?

    Ah, ca exista diferite sisteme, cercuri, conditii impuse... da, exista. Si? Cata vreme nu ajuta (ci, dimpotriva, ingreuneaza) experientei utilizatorului, nu au ce cauta pe Internet.

  • Seba

    Pai tu din ce perspectiva vorbesti?
    Pentru user este clar bine, dar in postul tau este vorba despre legalitate/acceptarea unui tip de comportament, si e clar ca site-ului sursa nu prea ii convine (aka accepta), atata timp cat crawlerul nu ii ofera prea multe in schimb, eventual ii ofera 1/10 page view per user.

  • Nu stiu cit de mult ii place lui Alex de Iphone
    Si nici cit de bun e Krauler.

    Dar stiu ca daca ai de aface cu un crowling legat de simple fapte si date, atunci legea dreptului de autor nu iti poate pune nici o piedica pentru ca nu se aplica.

    Un bun exemplu e cu site-urile de preturi - atit avreme cit listeaza clar de la cine sunt, ele pot sa preia preturile, chiar daca poate site-ul nu ar vrea.
    Pretul e o simpla informatie, nu este nici o creatie intelectuala acolo ca sa fie protejata.

    Parerea mea
    Bogdan

  • @Seba,
    Din punctul meu de vedere, ca user, prefer sa fac o cautare pe un singur site si sa accesez doar informatia care ma intereseaza, decat s-o caut separat pe mai multe site-uri.

    Nu e natural ca un site care nu-mi ofera informatie de interes, sa nu primeasca page view de la mine? Ah, ei vor sa-mi fure page view-ul... si sa nu-mi ofere ce ma intereseaza. Not good!

  • Seba

    Pai eu cred ca raspunsul este simplu.
    Un site a investit sau nu in promovare, in urma investitiei mai mici sau mai mari a ajuns cunoscut.
    Google il ajuta sa fie si mai cunoscut, un site care face crawling nu neaparat. Sa luam sper exemplu vertimo.ro, gasesti in mare multe din lucrurile care te inetreseaza deja pe el, treci sa zicem de 2-3 pasi de cautare/filtrare, si abia spre final te duci la site-ul sursa.

    Deci cui nu-i ies page views la numar?

  • Adrian Grigore

    Pentru că Krauler nu dă click pe reclame... :)

  • Exemplu de crawler: Folosesc mai mereu [url]http://www.price.ro[/url] si intr-o clipa aflu preturile aceluiasi produs in zeci de magazine virtuale. Uneori se mai inseala si el, sau il fenteaza site-urile care ii dau preturi mai mici. Cand sa si cumperi, pe site-ul original apare alt pret. In rest este de o reala utilitate.

  • Mai trebuia un scenariu în care Filip nu e mulţumit de BlackBerry :)

  • insa toti isi doresc sa ii crawleze googebot.
    exista reguli civilizate si pentru roboti.
    ei trebuie sa se identifice clar si sa citeasca robots.txt din / . in caz ca i se da deny acolo , pleaca frumos in alta parte.
    asa ca cei care nu doresc sa fie crawl-ati [cer scuze pentru cuvant] au la indemana o unealta foarte simpla.
    in caz ca robotul e nesimtit si nu respecta regulile, poti trece la masuri mai radicale gen bann pe ip, etc... .
    in ultima instanta , apelezi la instante judecatoresti , in caz ca se poate judeca cazuri de acest gen in .ro .

blog comments powered by Disqus