BluePink BluePink
XHost
Gazduire site-uri web nelimitata ca spatiu si trafic lunar la doar 15 eur / an. Inregistrare domenii .ro .com .net .org .info .biz .com.ro .org.ro la preturi preferentiale. Pentru oferta detaliata accesati site-ul BluePink

Aplicatia este realizata in limbajul Python,versiunea 2.6,folosind modulele sgmllib si urllib. Se ruleaza utilizand urmatoarea comanda: python parser.py


Aplicatia reprezinta un crawler web ce aduna informatii din paginile blog-urilor create pe blogspot.com. Informatiile sunt adresele la care se gasesc date personale ale utilizatorilor cat si datele celor care au comentat pe blogul acestora adunate pe o adancime a carei valoare este data ca parametru.


Pentru a realiza parsarea am definit clasele Myparser,MyArticleParser,MyFansParser. Acestea contin metode specifice fiecarui tag ("start_a") si extrag valorile anumitor atribute memorandu-le in liste.


Algoritmul de extragere este :

  • -parcurg lista de url-uri initializata cu url radacina
  • -pt fiecare url:
    • -extrag url profil,lista url-uri prieteni si-i adaug la sfarsitul listei curente,memorand nr de link-uri extrase astfel incat sa stiu cand ajung pe nivelul urmator.
    • -extrag url-urile celor care comenteaza pe blog pt un articol.


Downloadeaza arhiva cu tema.


Copyright Delia Adiaconitei