Changeset 139

Show
Ignore:
Timestamp:
01/14/08 12:40:30 (10 months ago)
Author:
haypo
Message:

apache_log:

  • maj liste ISP
  • parser.py: desactiver parseur d'Uger-Agent
  • host.py: cree l'option --ignore-bots
Files:

Legend:

Unmodified
Added
Removed
Modified
Copied
Moved
  • apache_log/apache_log/bot_hosts.py

    r125 r139  
    2929 
    3030BOT_DOMAINS = [ re.compile(re.escape(regex)+'$') for regex in ( 
    31     # Search engine crawlers 
     31    # Search engine crawlers (domain as string) 
    3232    '.crawl.yahoo.net',   # Yahoo 
    3333    '.search.live.com',   # live.com (Microsoft) 
     
    4141    '.rambler.ru', 
    4242    '.cazoodle.com', 
     43)] + [ re.compile(regex) for regex in ( 
     44    # Domain regex 
     45    r'^crawler[0-9]{2}\.kaist\.ac\.kr$', 
    4346)] 
    4447 
  • apache_log/apache_log/host.py

    r126 r139  
    3535        self.exclude_referrers = re.compile('^'+re.escape(website_url)) 
    3636        self.exclude_networks = [IP('127.0.0.0/8'), IP('192.168.0.0/16')] 
    37         self.exclude_domains = BOT_DOMAINS 
     37        self.exclude_domains = [] 
    3838        self.countries = set() 
    3939 
     
    158158    parser.add_option("--ignore-isp", help="Ignore ISP", 
    159159        action="store_true") 
     160    parser.add_option("--ignore-bots", help="Ignore bots", 
     161        action="store_true") 
    160162    parser.add_option("--syntax", help="Apache log syntax (default: %r)" % SYNTAX, 
    161163        type="str", default=SYNTAX) 
     
    176178        if options.ignore_isp: 
    177179            parser.exclude_domains += ISP_DOMAINS 
     180        if options.ignore_bots: 
     181            parser.exclude_domains += BOT_DOMAINS 
    178182 
    179183        parser.parseFile(filename) 
  • apache_log/apache_log/isp.py

    r125 r139  
    6666    '.dip0.t-ipconnect.de', 
    6767    '-fixip.tiscali.ch', 
     68    '.ppp.tiscali.fr', 
    6869    '.access.telenet.be', 
    69     '.cust.tele2.it', 
    7070    '.dsl.lsan03.sbcglobal.net', 
    7171    '.adsl.easynet.fr', 
     72    '.rev.coltfrance.com', 
     73    '.ripe.coltfrance.com', 
     74    '.rev.numericable.fr', 
     75    '.retail.telecomitalia.it', 
     76    '.d4.club-internet.fr', 
     77    '.dsl.completel.net', 
     78    'reverse.completel.net', 
     79    '.fix.bluewin.ch', 
     80    '.dsl.scarlet.be', 
     81    '.adsl.dyn.edpnet.net', 
    7282)] 
    7383 
     
    7686    r'(?:proxy-[0-9]+|\.abo)\.wanadoo\.fr', 
    7787    r'(?:proxy[a-z0-9-]{4,6}|\.fbx|\.adsl)\.proxad\.net', 
    78     r'\.(?:adsl|pck|pr0)\.nerim\.net', 
     88    r'\.(?:adsl|pck|pr[01]|net1|cnt|edu)\.nerim\.net', 
    7989    r'08[0-9]{10}\.chello\.fr', 
    8090    r'ip(?:-[0-9]{1,3}){4}\.asianetcom\.net', 
     
    8696    r'\.(?:host|rev)\.[a-z]{2}\.colt\.net', 
    8797    r'\.[a-z]{2}\.videotron\.ca', 
     98    r'\.cust\.tele2\.(?:it|fr)', 
    8899)] 
    89100 
  • apache_log/apache_log/parser.py

    r120 r139  
    5454        else: 
    5555            self.code = None 
    56         if 'user_agent' in data: 
    57             self.user_agent = data['user_agent'] 
    58             tag = userAgentTag(parser.error, self.user_agent) 
    59             if tag: 
    60                 self.tag = tag 
    61         else: 
    62             self.user_agent = None 
     56#        if 'user_agent' in data: 
     57#            self.user_agent = data['user_agent'] 
     58#            tag = userAgentTag(parser.error, self.user_agent) 
     59#            if tag: 
     60#                self.tag = tag 
     61#        else: 
     62#            self.user_agent = None 
    6363 
    6464    def unquote(self, url): 
  • apache_log/apache_log/user_agents.py

    r123 r139  
    4242    'MSNBOT_Mobile ', 
    4343    'Trailfire-bot/',            # http://trailfire.com 
    44 ))) 
    45  
    46 DOWNLOADER_REGEX = re.compile('^(%s)' % '|'.join(( 
    47     "FDM 2", 
    48     "EasyDL/", 
    49     "Wget/", 
    50     "wget$", 
    51     "libcurl-agent/", 
     44    'Wouah/',                    # http://www.wouah.eu 
     45    'travel-search', 
    5246))) 
    5347 
     
    8680    'nrsbot/',                   # loopip.com/robot.html 
    8781    'WordPress/', 
     82    'nicebot$', 
     83))) 
     84 
     85DOWNLOADER_REGEX = re.compile('^(%s)' % '|'.join(( 
     86    "FDM 2", 
     87    "EasyDL/", 
     88    "Wget/", 
     89    "wget$", 
     90    "libcurl-agent/", 
    8891))) 
    8992