- Let msn hide sponsored links in #ar divs.
[privoxy.git] / parsers.c
index 522f3cb..61f514d 100644 (file)
--- a/parsers.c
+++ b/parsers.c
@@ -1,4 +1,4 @@
-const char parsers_rcs[] = "$Id: parsers.c,v 1.105 2007/08/11 14:49:49 fabiankeil Exp $";
+const char parsers_rcs[] = "$Id: parsers.c,v 1.110 2007/09/29 10:42:37 fabiankeil Exp $";
 /*********************************************************************
  *
  * File        :  $Source: /cvsroot/ijbswa/current/parsers.c,v $
@@ -44,6 +44,23 @@ const char parsers_rcs[] = "$Id: parsers.c,v 1.105 2007/08/11 14:49:49 fabiankei
  *
  * Revisions   :
  *    $Log: parsers.c,v $
+ *    Revision 1.110  2007/09/29 10:42:37  fabiankeil
+ *    - Remove "scanning headers for" log message again.
+ *    - Some more whitespace fixes.
+ *
+ *    Revision 1.109  2007/09/08 14:25:48  fabiankeil
+ *    Refactor client_referrer() and add conditional-forge parameter.
+ *
+ *    Revision 1.108  2007/08/28 18:21:03  fabiankeil
+ *    A bunch of whitespace fixes, pointy hat to me.
+ *
+ *    Revision 1.107  2007/08/28 18:16:32  fabiankeil
+ *    Fix possible memory corruption in server_http, make sure it's not
+ *    executed for ordinary server headers and mark some problems for later.
+ *
+ *    Revision 1.106  2007/08/18 14:30:32  fabiankeil
+ *    Let content-type-overwrite{} honour force-text-mode again.
+ *
  *    Revision 1.105  2007/08/11 14:49:49  fabiankeil
  *    - Add prototpyes for the header parsers and make them static.
  *    - Comment out client_accept_encoding_adder() which isn't used right now.
@@ -792,6 +809,11 @@ static jb_err client_xtra_adder       (struct client_state *csp);
 static jb_err client_x_forwarded_adder(struct client_state *csp);
 static jb_err connection_close_adder  (struct client_state *csp); 
 
+static jb_err create_forged_referrer(char **header, const char *hostport);
+static jb_err create_fake_referrer(char **header, const char *fake_referrer);
+static jb_err handle_conditional_hide_referrer_parameter(char **header,
+   const char *host, const int parameter_conditional_block);
+
 const struct parsers client_patterns[] = {
    { "referer:",                  8,   client_referrer },
    { "user-agent:",              11,   client_uagent },
@@ -816,7 +838,7 @@ const struct parsers client_patterns[] = {
 };
 
 const struct parsers server_patterns[] = {
-   { "HTTP",                      4, server_http },
+   { "HTTP/",                     5, server_http },
    { "set-cookie:",              11, server_set_cookie },
    { "connection:",              11, connection },
    { "Content-Type:",            13, server_content_type },
@@ -850,12 +872,21 @@ const add_header_func_ptr add_client_headers[] = {
    NULL
 };
 
-
 const add_header_func_ptr add_server_headers[] = {
    connection_close_adder,
    NULL
 };
 
+/* The vanilla wafer. */
+static const char VANILLA_WAFER[] =
+   "NOTICE=TO_WHOM_IT_MAY_CONCERN_"
+   "Do_not_send_me_any_copyrighted_information_other_than_the_"
+   "document_that_I_am_requesting_or_any_of_its_necessary_components._"
+   "In_particular_do_not_send_me_any_cookies_that_"
+   "are_subject_to_a_claim_of_copyright_by_anybody._"
+   "Take_notice_that_I_refuse_to_be_bound_by_any_license_condition_"
+   "(copyright_or_otherwise)_applying_to_any_cookie._";
+
 /*********************************************************************
  *
  * Function    :  flush_socket
@@ -1015,7 +1046,7 @@ jb_err decompress_iob(struct client_state *csp)
        * This is to protect the parsing of gzipped data,
        * but it should(?) be valid for deflated data also.
        */
-      log_error (LOG_LEVEL_ERROR, "Buffer too small decompressing iob");
+      log_error(LOG_LEVEL_ERROR, "Buffer too small decompressing iob");
       return JB_ERR_COMPRESS;
    }
 
@@ -1037,7 +1068,7 @@ jb_err decompress_iob(struct client_state *csp)
        || (*cur++ != (char)0x8b)
        || (*cur++ != Z_DEFLATED))
       {
-         log_error (LOG_LEVEL_ERROR, "Invalid gzip header when decompressing");
+         log_error(LOG_LEVEL_ERROR, "Invalid gzip header when decompressing");
          return JB_ERR_COMPRESS;
       }
       else
@@ -1050,7 +1081,7 @@ jb_err decompress_iob(struct client_state *csp)
          if (flags & 0xe0)
          {
             /* The gzip header has reserved bits set; bail out. */
-            log_error (LOG_LEVEL_ERROR, "Invalid gzip header flags when decompressing");
+            log_error(LOG_LEVEL_ERROR, "Invalid gzip header flags when decompressing");
             return JB_ERR_COMPRESS;
          }
          cur += 6;
@@ -1089,14 +1120,14 @@ jb_err decompress_iob(struct client_state *csp)
              * The number of bytes to skip should be positive
              * and we'd like to stay in the buffer.
              */
-            if((skip_bytes < 0) || (skip_bytes >= (csp->iob->eod - cur)))
+            if ((skip_bytes < 0) || (skip_bytes >= (csp->iob->eod - cur)))
             {
-               log_error (LOG_LEVEL_ERROR,
+               log_error(LOG_LEVEL_ERROR,
                   "Unreasonable amount of bytes to skip (%d). Stopping decompression",
                   skip_bytes);
                return JB_ERR_COMPRESS;
             }
-            log_error (LOG_LEVEL_INFO,
+            log_error(LOG_LEVEL_INFO,
                "Skipping %d bytes for gzip compression. Does this sound right?",
                skip_bytes);
             cur += skip_bytes;
@@ -1130,7 +1161,7 @@ jb_err decompress_iob(struct client_state *csp)
              * the buffer end, we were obviously tricked to skip
              * too much.
              */
-            log_error (LOG_LEVEL_ERROR,
+            log_error(LOG_LEVEL_ERROR,
                "Malformed gzip header detected. Aborting decompression.");
             return JB_ERR_COMPRESS;
          }
@@ -1142,7 +1173,7 @@ jb_err decompress_iob(struct client_state *csp)
        * XXX: The debug level should be lowered
        * before the next stable release.
        */
-      log_error (LOG_LEVEL_INFO, "Decompressing deflated iob: %d", *cur);
+      log_error(LOG_LEVEL_INFO, "Decompressing deflated iob: %d", *cur);
       /*
        * In theory (that is, according to RFC 1950), deflate-compressed
        * data should begin with a two-byte zlib header and have an
@@ -1162,7 +1193,7 @@ jb_err decompress_iob(struct client_state *csp)
    }
    else
    {
-      log_error (LOG_LEVEL_ERROR,
+      log_error(LOG_LEVEL_ERROR,
          "Unable to determine compression format for decompression");
       return JB_ERR_COMPRESS;
    }
@@ -1180,7 +1211,7 @@ jb_err decompress_iob(struct client_state *csp)
     */
    if (inflateInit2 (&zstr, -MAX_WBITS) != Z_OK)
    {
-      log_error (LOG_LEVEL_ERROR, "Error initializing decompression");
+      log_error(LOG_LEVEL_ERROR, "Error initializing decompression");
       return JB_ERR_COMPRESS;
    }
 
@@ -1189,10 +1220,10 @@ jb_err decompress_iob(struct client_state *csp)
     * We don't modify the existing iob yet, so in case there
     * is error in decompression we can recover gracefully.
     */
-   buf = zalloc (bufsize);
+   buf = zalloc(bufsize);
    if (NULL == buf)
    {
-      log_error (LOG_LEVEL_ERROR, "Out of memory decompressing iob");
+      log_error(LOG_LEVEL_ERROR, "Out of memory decompressing iob");
       return JB_ERR_MEMORY;
    }
 
@@ -1466,8 +1497,6 @@ static jb_err scan_headers(struct client_state *csp)
    struct list_entry *h; /* Header */
    jb_err err = JB_ERR_OK;
 
-   log_error(LOG_LEVEL_HEADER, "scanning headers for: %s", csp->http->url);
-
    for (h = csp->headers->first; (err == JB_ERR_OK) && (h != NULL) ; h = h->next)
    {
       /* Header crunch()ed in previous run? -> ignore */
@@ -1492,6 +1521,8 @@ static jb_err scan_headers(struct client_state *csp)
  *                As a side effect it frees the space used by the original
  *                header lines.
  *
+ *                XXX: should be split to remove the first_run hack.
+ *
  * Parameters  :
  *          1  :  pats = list of patterns to match against headers
  *          2  :  more_headers = list of functions to add more
@@ -1921,7 +1952,7 @@ static jb_err filter_header(struct client_state *csp, char **header)
                      /* RegEx failure */
                      log_error(LOG_LEVEL_ERROR, "Filtering \'%s\' with \'%s\' didn't work out: %s",
                         *header, b->name, pcrs_strerror(matches));
-                     ifnewheader != NULL)
+                     if (newheader != NULL)
                      {
                         log_error(LOG_LEVEL_ERROR, "Freeing what's left: %s", newheader);
                         freez(newheader);
@@ -2027,6 +2058,7 @@ static jb_err crumble(struct client_state *csp, char **header)
    return JB_ERR_OK;
 }
 
+
 /*********************************************************************
  *
  * Function    :  crunch_server_header
@@ -2383,6 +2415,7 @@ static jb_err server_content_md5(struct client_state *csp, char **header)
    return JB_ERR_OK;
 }
 
+
 /*********************************************************************
  *
  * Function    :  server_content_disposition
@@ -2446,6 +2479,7 @@ static jb_err server_content_disposition(struct client_state *csp, char **header
    return (*header == NULL) ? JB_ERR_MEMORY : JB_ERR_OK;
 }
 
+
 /*********************************************************************
  *
  * Function    :  server_last_modified
@@ -2565,7 +2599,7 @@ static jb_err server_last_modified(struct client_state *csp, char **header)
                return JB_ERR_MEMORY;  
             }
 
-            if(LOG_LEVEL_HEADER & debug) /* Save cycles if the user isn't interested. */
+            if (LOG_LEVEL_HEADER & debug) /* Save cycles if the user isn't interested. */
             {
                days    = rtime / (3600 * 24);
                hours   = rtime / 3600 % 24;
@@ -2663,6 +2697,7 @@ static jb_err client_te(struct client_state *csp, char **header)
    return JB_ERR_OK;
 }
 
+
 /*********************************************************************
  *
  * Function    :  client_referrer
@@ -2683,113 +2718,65 @@ static jb_err client_te(struct client_state *csp, char **header)
  *********************************************************************/
 static jb_err client_referrer(struct client_state *csp, char **header)
 {
-   const char *newval;
-   const char *host;
-   char *referer;
-   size_t hostlenght;
+   const char *parameter;
+   /* booleans for parameters we have to check multiple times */
+   int parameter_conditional_block;
+   int parameter_conditional_forge;
  
 #ifdef FEATURE_FORCE_LOAD
-   /* Since the referrer can include the prefix even
+   /*
+    * Since the referrer can include the prefix even
     * if the request itself is non-forced, we must
-    * clean it unconditionally
+    * clean it unconditionally.
+    *
+    * XXX: strclean is too broad
     */
    strclean(*header, FORCE_PREFIX);
 #endif /* def FEATURE_FORCE_LOAD */
 
-   /*
-    * Are we sending referer?
-    */
    if ((csp->action->flags & ACTION_HIDE_REFERER) == 0)
    {
+      /* Nothing left to do */
       return JB_ERR_OK;
    }
 
-   newval = csp->action->string[ACTION_STRING_REFERER];
+   parameter = csp->action->string[ACTION_STRING_REFERER];
+   assert(parameter != NULL);
+   parameter_conditional_block = (0 == strcmpic(parameter, "conditional-block"));
+   parameter_conditional_forge = (0 == strcmpic(parameter, "conditional-forge"));
 
-   if ((0 != strcmpic(newval, "conditional-block")))
-   {  
-      freez(*header);
-   }
-   if ((newval == NULL) || (0 == strcmpic(newval, "block")) )
+   if (!parameter_conditional_block && !parameter_conditional_forge)
    {
       /*
-       * Blocking referer
+       * As conditional-block and conditional-forge are the only
+       * parameters that rely on the original referrer, we can
+       * remove it now for all the others.
        */
+      freez(*header);
+   }
+
+   if (0 == strcmpic(parameter, "block"))
+   {
       log_error(LOG_LEVEL_HEADER, "Referer crunched!");
       return JB_ERR_OK;
    }
-   else if (0 == strcmpic(newval, "conditional-block"))
+   else if (parameter_conditional_block || parameter_conditional_forge)
    {
-      /*
-       * Block referer if host has changed.
-       */
-
-      if (NULL == (host = strdup(csp->http->hostport)))
-      {
-         freez(*header);
-         log_error(LOG_LEVEL_HEADER, "Referer crunched! Couldn't allocate memory for temporary host copy.");
-         return JB_ERR_MEMORY;
-      }
-      if (NULL == (referer = strdup(*header)))
-      {
-         freez(*header);
-         freez(host);
-         log_error(LOG_LEVEL_HEADER, "Referer crunched! Couldn't allocate memory for temporary referer copy.");
-         return JB_ERR_MEMORY;
-      }
-      hostlenght = strlen(host);
-      if ( hostlenght < (strlen(referer)-17) ) /*referer begins with 'Referer: http[s]://'*/
-      {
-         /*Shorten referer to make sure the referer is blocked
-          *if www.example.org/www.example.com-shall-see-the-referer/
-          *links to www.example.com/
-          */
-         referer[hostlenght+17] = '\0';
-      }
-      if ( 0 == strstr(referer, host)) /*Host has changed*/
-      {
-         log_error(LOG_LEVEL_HEADER, "New host is: %s. Crunching %s!", host, *header);
-         freez(*header);
-      }
-      else
-      {
-         log_error(LOG_LEVEL_HEADER, "%s (not modified, still on %s)", *header, host);
-      }
-      freez(referer);
-      freez(host);
-      return JB_ERR_OK;    
+      return handle_conditional_hide_referrer_parameter(header,
+         csp->http->hostport, parameter_conditional_block);
    }
-   else if (0 != strcmpic(newval, "forge"))
+   else if (0 == strcmpic(parameter, "forge"))
    {
-      /*
-       * We have a specific (fixed) referer we want to send.
-       */
-      if ((0 != strncmpic(newval, "http://", 7)) && (0 != strncmpic(newval, "https://", 8)))
-      {
-         log_error(LOG_LEVEL_HEADER, "Parameter: +referrer{%s} is a bad idea, but I don't care.", newval);
-      }
-      *header = strdup("Referer: ");
-      string_append(header, newval);
-      log_error(LOG_LEVEL_HEADER, "Referer overwritten with: %s", *header);
-
-      return (*header == NULL) ? JB_ERR_MEMORY : JB_ERR_OK;
+      return create_forged_referrer(header, csp->http->hostport);
    }
    else
    {
-      /*
-       * Forge a referer as http://[hostname:port of REQUEST]/
-       * to fool stupid checks for in-site links
-       */
-
-      *header = strdup("Referer: http://");
-      string_append(header, csp->http->hostport);
-      string_append(header, "/");
-      log_error(LOG_LEVEL_HEADER, "Referer forged to: %s", *header);
-      
-      return (*header == NULL) ? JB_ERR_MEMORY : JB_ERR_OK;
+      /* interpret parameter as user-supplied referer to fake */
+      return create_fake_referrer(header, parameter);
    }
 }
 
+
 /*********************************************************************
  *
  * Function    :  client_accept_language
@@ -2936,6 +2923,7 @@ static jb_err client_uagent(struct client_state *csp, char **header)
    return (*header == NULL) ? JB_ERR_MEMORY : JB_ERR_OK;
 }
 
+
 /*********************************************************************
  *
  * Function    :  client_ua
@@ -3229,6 +3217,7 @@ static jb_err client_host(struct client_state *csp, char **header)
    return JB_ERR_OK;
 }
 
+
 /*********************************************************************
  *
  * Function    :  client_if_modified_since
@@ -3293,11 +3282,11 @@ static jb_err client_if_modified_since(struct client_state *csp, char **header)
          else
          {
             rtime = strtol(newval, &endptr, 0);
-            if(rtime)
+            if (rtime)
             {
                log_error(LOG_LEVEL_HEADER, "Randomizing: %s (random range: %d minut%s)",
                   *header, rtime, (rtime == 1 || rtime == -1) ? "e": "es");
-               if(rtime < 0)
+               if (rtime < 0)
                {
                   rtime *= -1; 
                   negative = 1;
@@ -3332,7 +3321,7 @@ static jb_err client_if_modified_since(struct client_state *csp, char **header)
                return JB_ERR_MEMORY;  
             }
 
-            if(LOG_LEVEL_HEADER & debug) /* Save cycles if the user isn't interested. */
+            if (LOG_LEVEL_HEADER & debug) /* Save cycles if the user isn't interested. */
             {
                hours   = rtime / 3600;
                minutes = rtime / 60 % 60;
@@ -3349,6 +3338,7 @@ static jb_err client_if_modified_since(struct client_state *csp, char **header)
    return JB_ERR_OK;
 }
 
+
 /*********************************************************************
  *
  * Function    :  client_if_none_match
@@ -3377,6 +3367,7 @@ static jb_err client_if_none_match(struct client_state *csp, char **header)
    return JB_ERR_OK;
 }
 
+
 /*********************************************************************
  *
  * Function    :  client_x_filter
@@ -3494,9 +3485,21 @@ jb_err client_cookie_adder(struct client_state *csp)
 {
    char *tmp;
    struct list_entry *wafer;
-   struct list_entry *wafer_list = csp->action->multi[ACTION_MULTI_WAFER]->first;
+   struct list_entry *wafer_list;
    jb_err err;
 
+   /*
+    * If the user has not supplied any wafers, and the user has not
+    * told us to suppress the vanilla wafer, then send the vanilla wafer.
+    */
+   if ((0 != (csp->action->flags & ACTION_VANILLA_WAFER))
+      && list_is_empty(csp->action->multi[ACTION_MULTI_WAFER]))
+   {
+      enlist(csp->action->multi[ACTION_MULTI_WAFER], VANILLA_WAFER);
+   }
+
+   wafer_list = csp->action->multi[ACTION_MULTI_WAFER]->first;
+
    if (NULL == wafer_list)
    {
       /* Nothing to do */
@@ -3526,6 +3529,7 @@ jb_err client_cookie_adder(struct client_state *csp)
    return err;
 }
 
+
 #if 0
 /*********************************************************************
  *
@@ -3555,6 +3559,7 @@ static jb_err client_accept_encoding_adder(struct client_state *csp)
 }
 #endif
 
+
 /*********************************************************************
  *
  * Function    :  client_xtra_adder
@@ -3711,8 +3716,21 @@ static jb_err server_http(struct client_state *csp, char **header)
 
    if ((csp->action->flags & ACTION_DOWNGRADE) != 0)
    {
-      (*header)[7] = '0';
-      log_error(LOG_LEVEL_HEADER, "Downgraded answer to HTTP/1.0");
+      /* XXX: Should we do a real validity check here? */
+      if (strlen(*header) > 8)
+      {
+         (*header)[7] = '0';
+         log_error(LOG_LEVEL_HEADER, "Downgraded answer to HTTP/1.0");
+      }
+      else
+      {
+         /*
+          * XXX: Should we block the request or
+          * enlist a valid status code line here?
+          */
+         log_error(LOG_LEVEL_INFO, "Malformed server response detected. "
+            "Downgrading to HTTP/1.0 impossible.");
+      }
    }
 
    return JB_ERR_OK;
@@ -3967,6 +3985,7 @@ int strclean(const char *string, const char *substring)
 }
 #endif /* def FEATURE_FORCE_LOAD */
 
+
 /*********************************************************************
  *
  * Function    :  parse_header_time
@@ -4016,6 +4035,7 @@ static jb_err parse_header_time(const char *header_time, time_t *result)
 
 }
 
+
 /*********************************************************************
  *
  * Function    :  get_destination_from_headers
@@ -4098,6 +4118,142 @@ jb_err get_destination_from_headers(const struct list *headers, struct http_requ
 }
 
 
+/*********************************************************************
+ *
+ * Function    :  create_forged_referrer
+ *
+ * Description :  Helper for client_referrer to forge a referer as
+ *                'http://[hostname:port/' to fool stupid
+ *                checks for in-site links 
+ *
+ * Parameters  :
+ *          1  :  header   = Pointer to header pointer
+ *          2  :  hostport = Host and optionally port as string
+ *
+ * Returns     :  JB_ERR_OK in case of success, or
+ *                JB_ERR_MEMORY in case of memory problems.
+ *
+ *********************************************************************/
+static jb_err create_forged_referrer(char **header, const char *hostport)
+{
+    assert(NULL == *header);
+
+    *header = strdup("Referer: http://");
+    string_append(header, hostport);
+    string_append(header, "/");
+
+    if (NULL == *header)
+    {
+       return JB_ERR_MEMORY;
+    }
+
+    log_error(LOG_LEVEL_HEADER, "Referer forged to: %s", *header);
+
+    return JB_ERR_OK;
+
+}
+
+
+/*********************************************************************
+ *
+ * Function    :  create_fake_referrer
+ *
+ * Description :  Helper for client_referrer to create a fake referrer
+ *                based on a string supplied by the user.
+ *
+ * Parameters  :
+ *          1  :  header   = Pointer to header pointer
+ *          2  :  hosthost = Referrer to fake
+ *
+ * Returns     :  JB_ERR_OK in case of success, or
+ *                JB_ERR_MEMORY in case of memory problems.
+ *
+ *********************************************************************/
+static jb_err create_fake_referrer(char **header, const char *fake_referrer)
+{
+   assert(NULL == *header);
+
+   if ((0 != strncmpic(fake_referrer, "http://", 7)) && (0 != strncmpic(fake_referrer, "https://", 8)))
+   {
+      log_error(LOG_LEVEL_HEADER,
+         "Parameter: +hide-referrer{%s} is a bad idea, but I don't care.", fake_referrer);
+   }
+   *header = strdup("Referer: ");
+   string_append(header, fake_referrer);
+
+   if (NULL == *header)
+   {
+      return JB_ERR_MEMORY;
+   }
+
+   log_error(LOG_LEVEL_HEADER, "Referer replaced with: %s", *header);
+
+   return JB_ERR_OK;
+
+}
+
+
+/*********************************************************************
+ *
+ * Function    :  handle_conditional_hide_referrer_parameter
+ *
+ * Description :  Helper for client_referrer to crunch or forge
+ *                the referrer header if the host has changed.
+ *
+ * Parameters  :
+ *          1  :  header = Pointer to header pointer
+ *          2  :  host   = The target host (may include the port)
+ *          3  :  parameter_conditional_block = Boolean to signal
+ *                if we're in conditional-block mode. If not set,
+ *                we're in conditional-forge mode.
+ *
+ * Returns     :  JB_ERR_OK in case of success, or
+ *                JB_ERR_MEMORY in case of memory problems.
+ *
+ *********************************************************************/
+static jb_err handle_conditional_hide_referrer_parameter(char **header,
+   const char *host, const int parameter_conditional_block)
+{
+   char *referer = strdup(*header);
+   const size_t hostlenght = strlen(host);
+
+   if (NULL == referer)
+   {
+      freez(*header);
+      return JB_ERR_MEMORY;
+   }
+
+   /* referer begins with 'Referer: http[s]://' */
+   if (hostlenght < (strlen(referer)-17))
+   {
+      /*
+       * Shorten referer to make sure the referer is blocked
+       * if www.example.org/www.example.com-shall-see-the-referer/
+       * links to www.example.com/
+       */
+      referer[hostlenght+17] = '\0';
+   }
+   if (NULL == strstr(referer, host))
+   {
+      /* Host has changed */
+      if (parameter_conditional_block)
+      {
+         log_error(LOG_LEVEL_HEADER, "New host is: %s. Crunching %s!", host, *header);
+         freez(*header);
+      }
+      else
+      {
+         freez(*header);
+         freez(referer);
+         return create_forged_referrer(header, host);
+      }
+   }
+   freez(referer);
+
+   return JB_ERR_OK;
+
+}
+
 /*
   Local Variables:
   tab-width: 3