'/* inside comment' warning removed.
[privoxy.git] / parsers.c
index 4f51e0b..7c12bea 100644 (file)
--- a/parsers.c
+++ b/parsers.c
@@ -1,4 +1,4 @@
-const char parsers_rcs[] = "$Id: parsers.c,v 1.3 2001/05/20 01:21:20 jongfoster Exp $";
+const char parsers_rcs[] = "$Id: parsers.c,v 1.10 2001/05/29 09:50:24 jongfoster Exp $";
 /*********************************************************************
  *
  * File        :  $Source: /cvsroot/ijbswa/current/parsers.c,v $
@@ -11,7 +11,7 @@ const char parsers_rcs[] = "$Id: parsers.c,v 1.3 2001/05/20 01:21:20 jongfoster
  *                   `client_x_forwarded_adder', `client_xtra_adder',
  *                   `content_type', `crumble', `destroy_list', `enlist',
  *                   `flush_socket', `free_http_request', `get_header',
- *                   `list_to_text', `match', `parse_http_request', `sed',
+ *                   `list_to_text', `parse_http_request', `sed',
  *                   and `server_set_cookie'.
  *
  * Copyright   :  Written by and Copyright (C) 2001 the SourceForge
@@ -41,6 +41,105 @@ const char parsers_rcs[] = "$Id: parsers.c,v 1.3 2001/05/20 01:21:20 jongfoster
  *
  * Revisions   :
  *    $Log: parsers.c,v $
+ *    Revision 1.10  2001/05/29 09:50:24  jongfoster
+ *    Unified blocklist/imagelist/permissionslist.
+ *    File format is still under discussion, but the internal changes
+ *    are (mostly) done.
+ *
+ *    Also modified interceptor behaviour:
+ *    - We now intercept all URLs beginning with one of the following
+ *      prefixes (and *only* these prefixes):
+ *        * http://i.j.b/
+ *        * http://ijbswa.sf.net/config/
+ *        * http://ijbswa.sourceforge.net/config/
+ *    - New interceptors "home page" - go to http://i.j.b/ to see it.
+ *    - Internal changes so that intercepted and fast redirect pages
+ *      are not replaced with an image.
+ *    - Interceptors now have the option to send a binary page direct
+ *      to the client. (i.e. ijb-send-banner uses this)
+ *    - Implemented show-url-info interceptor.  (Which is why I needed
+ *      the above interceptors changes - a typical URL is
+ *      "http://i.j.b/show-url-info?url=www.somesite.com/banner.gif".
+ *      The previous mechanism would not have intercepted that, and
+ *      if it had been intercepted then it then it would have replaced
+ *      it with an image.)
+ *
+ *    Revision 1.9  2001/05/28 17:26:33  jongfoster
+ *    Fixing segfault if last header was crunched.
+ *    Fixing Windows build (snprintf() is _snprintf() under Win32, but we
+ *    can use the cross-platform sprintf() instead.)
+ *
+ *    Revision 1.8  2001/05/27 22:17:04  oes
+ *
+ *    - re_process_buffer no longer writes the modified buffer
+ *      to the client, which was very ugly. It now returns the
+ *      buffer, which it is then written by chat.
+ *
+ *    - content_length now adjusts the Content-Length: header
+ *      for modified documents rather than crunch()ing it.
+ *      (Length info in csp->content_length, which is 0 for
+ *      unmodified documents)
+ *
+ *    - For this to work, sed() is called twice when filtering.
+ *
+ *    Revision 1.7  2001/05/27 13:19:06  oes
+ *    Patched Joergs solution for the content-length in.
+ *
+ *    Revision 1.6  2001/05/26 13:39:32  jongfoster
+ *    Only crunches Content-Length header if applying RE filtering.
+ *    Without this fix, Microsoft Windows Update wouldn't work.
+ *
+ *    Revision 1.5  2001/05/26 00:28:36  jongfoster
+ *    Automatic reloading of config file.
+ *    Removed obsolete SIGHUP support (Unix) and Reload menu option (Win32).
+ *    Most of the global variables have been moved to a new
+ *    struct configuration_spec, accessed through csp->config->globalname
+ *    Most of the globals remaining are used by the Win32 GUI.
+ *
+ *    Revision 1.4  2001/05/22 18:46:04  oes
+ *
+ *    - Enabled filtering banners by size rather than URL
+ *      by adding patterns that replace all standard banner
+ *      sizes with the "Junkbuster" gif to the re_filterfile
+ *
+ *    - Enabled filtering WebBugs by providing a pattern
+ *      which kills all 1x1 images
+ *
+ *    - Added support for PCRE_UNGREEDY behaviour to pcrs,
+ *      which is selected by the (nonstandard and therefore
+ *      capital) letter 'U' in the option string.
+ *      It causes the quantifiers to be ungreedy by default.
+ *      Appending a ? turns back to greedy (!).
+ *
+ *    - Added a new interceptor ijb-send-banner, which
+ *      sends back the "Junkbuster" gif. Without imagelist or
+ *      MSIE detection support, or if tinygif = 1, or the
+ *      URL isn't recognized as an imageurl, a lame HTML
+ *      explanation is sent instead.
+ *
+ *    - Added new feature, which permits blocking remote
+ *      script redirects and firing back a local redirect
+ *      to the browser.
+ *      The feature is conditionally compiled, i.e. it
+ *      can be disabled with --disable-fast-redirects,
+ *      plus it must be activated by a "fast-redirects"
+ *      line in the config file, has its own log level
+ *      and of course wants to be displayed by show-proxy-args
+ *      Note: Boy, all the #ifdefs in 1001 locations and
+ *      all the fumbling with configure.in and acconfig.h
+ *      were *way* more work than the feature itself :-(
+ *
+ *    - Because a generic redirect template was needed for
+ *      this, tinygif = 3 now uses the same.
+ *
+ *    - Moved GIFs, and other static HTTP response templates
+ *      to project.h
+ *
+ *    - Some minor fixes
+ *
+ *    - Removed some >400 CRs again (Jon, you really worked
+ *      a lot! ;-)
+ *
  *    Revision 1.3  2001/05/20 01:21:20  jongfoster
  *    Version 2.9.4 checkin.
  *    - Merged popupfile and cookiefile, and added control over PCRS
@@ -131,6 +230,7 @@ const struct interceptors intercept_patterns[] = {
 #ifdef TRUST_FILES
    { "ij-untrusted-url",   15, ij_untrusted_url },
 #endif /* def TRUST_FILES */
+   { "show-url-info",      13, ijb_show_url_info },
    { NULL, 0, NULL }
 };
 
@@ -139,8 +239,10 @@ const struct parsers server_patterns[] = {
    { "connection:",        11, crumble },
 #if defined(PCRS) || defined(KILLPOPUPS)
    { "Content-Type:",      13, content_type },
-   { "Content-Length:",    15, crumble },
 #endif /* defined(PCRS) || defined(KILLPOPUPS) */
+#ifdef PCRS
+   { "Content-Length:",    15, content_length },
+#endif /* def PCRS */
    { NULL, 0, NULL }
 };
 
@@ -158,43 +260,6 @@ void (* const add_server_headers[])(struct client_state *) = {
 };
 
 
-/*********************************************************************
- *
- * Function    :  match
- *
- * Description :  Do a `strncmpic' on every pattern in pats.
- *
- * Parameters  :
- *          1  :  buf = a string to match to a list of patterns
- *          2  :  pats = list of strings to compare against buf.
- *
- * Returns     :  Return the matching "struct parsers *",
- *                or NULL if no pattern matches.
- *
- *********************************************************************/
-static const struct parsers *match(char *buf, const struct parsers *pats)
-{
-   const struct parsers *v;
-
-   if (buf == NULL)
-   {
-      /* hit me */
-      log_error(LOG_LEVEL_ERROR, "NULL parameter to match()");
-      return(NULL);
-   }
-
-   for (v = pats; v->str ; v++)
-   {
-      if (strncmpic(buf, v->str, v->len) == 0)
-      {
-         return(v);
-      }
-   }
-   return(NULL);
-
-}
-
-
 /*********************************************************************
  *
  * Function    :  flush_socket
@@ -498,17 +563,22 @@ char *sed(const struct parsers pats[], void (* const more_headers[])(struct clie
    char *hdr;
    void (* const *f)();
 
-   for (p = csp->headers->next; p ; p = p->next)
+   for (v = pats; v->str ; v++)
    {
-      log_error(LOG_LEVEL_HEADER, "scan: %s", p->str);
-
-      if ((v = match(p->str, pats)))
+      for (p = csp->headers->next; p ; p = p->next)
       {
-         hdr = v->parser(v, p->str, csp);
-         freez(p->str);
-         p->str = hdr;
-      }
+         /* Header crunch()ed in previous run? -> ignore */
+         if (p->str == NULL) continue;
 
+         if (v == pats) log_error(LOG_LEVEL_HEADER, "scan: %s", p->str);
+
+         if (strncmpic(p->str, v->str, v->len) == 0)
+         {
+            hdr = v->parser(v, p->str, csp);
+            freez(p->str);
+            p->str = hdr;
+         }
+      }
    }
 
    /* place any additional headers on the csp->headers list */
@@ -517,8 +587,13 @@ char *sed(const struct parsers pats[], void (* const more_headers[])(struct clie
       (*f)(csp);
    }
 
-   /* add the blank line at the end of the header */
-   enlist(csp->headers, "");
+   /* add the blank line at the end of the header, if necessary */
+   if ( (csp->headers->last == NULL)
+     || (csp->headers->last->str == NULL)
+     || (*csp->headers->last->str != '\0') )
+   {
+      enlist(csp->headers, "");
+   }
 
    hdr = list_to_text(csp->headers);
 
@@ -730,7 +805,7 @@ char *crumble(const struct parsers *v, char *s, struct client_state *csp)
  *
  * Function    :  content_type
  *
- * Description :  Is this a text/* or javascript MIME Type?
+ * Description :  Is this a text/.* or javascript MIME Type?
  *
  * Parameters  :
  *          1  :  v = ignored
@@ -750,10 +825,43 @@ char *content_type(const struct parsers *v, char *s, struct client_state *csp)
    return(strdup(s));
 
 }
-
 #endif /* defined(PCRS) || defined(KILLPOPUPS) */
 
 
+#ifdef PCRS
+/*********************************************************************
+ *
+ * Function    :  content_length
+ *
+ * Description :  Crunch Content-Length header if & only if we are
+ *                filtering this page through PCRS.
+ *
+ * Parameters  :
+ *          1  :  v = ignored
+ *          2  :  s = header string we are "considering"
+ *          3  :  csp = Current client state (buffers, headers, etc...)
+ *
+ * Returns     :  A duplicate string pointer to this header (ie. pass thru)
+ *
+ *********************************************************************/
+char *content_length(const struct parsers *v, char *s, struct client_state *csp)
+{
+   if (csp->content_length != 0) /* Content has been modified */
+       {
+          s = (char *) zalloc(100);
+          sprintf(s, "Content-Length: %d", csp->content_length);
+               log_error(LOG_LEVEL_HEADER, "Adjust Content-Length to %d", csp->content_length);
+          return(s);
+       }
+   else
+   {
+      return(strdup(s));
+   }
+}
+
+#endif /* def PCRS */
+
+
 /*********************************************************************
  *
  * Function    :  client_referrer
@@ -780,58 +888,59 @@ char *client_referrer(const struct parsers *v, char *s, struct client_state *csp
    strclean(s, FORCE_PREFIX);
 #endif /* def FORCE_LOAD */
 
+#ifdef TRUST_FILES\r
    csp->referrer = strdup(s);
+#endif /* def TRUST_FILES */\r
 
-   if (referrer == NULL)
+   /*
+    * Check permissionsfile.  If we have allowed this site to get the
+    * referer, then send it and we're done.
+    */
+   if (csp->permissions & PERMIT_REFERER)
    {
-      log_error(LOG_LEVEL_HEADER, "crunch!");
-      return(NULL);
+      return(strdup(s));
    }
 
-   if (*referrer == '.')
+   /*
+    * Check configfile.  Are we blocking referer?
+    */
+   if ( (csp->config->referrer == NULL) 
+     || (*csp->config->referrer == '@') )
    {
-      return(strdup(s));
+      log_error(LOG_LEVEL_HEADER, "crunch!");
+      return(NULL);
    }
 
-   if (*referrer == '@')
+   /*
+    * Check configfile.  Are we always sending referer?
+    */
+   if (*csp->config->referrer == '.')
    {
-      if (csp->permissions & PERMIT_COOKIE_READ)
-      {
-         return(strdup(s));
-      }
-      else
-      {
-         log_error(LOG_LEVEL_HEADER, "crunch!");
-         return(NULL);
-      }
+      return(strdup(s));
    }
 
    /*
     * New option § or L: Forge a referer as http://[hostname:port of REQUEST]/
     * to fool stupid checks for in-site links
     */
-
-   if (*referrer == '§' || *referrer == 'L')
+   if (*csp->config->referrer == '§' || *csp->config->referrer == 'L')
    {
-      if (csp->permissions & PERMIT_COOKIE_READ)
-      {
-         return(strdup(s));
-      }
-      else
-      {
-         log_error(LOG_LEVEL_HEADER, "crunch+forge!");
-         s = strsav(NULL, "Referer: ");
-         s = strsav(s, "http://");
-         s = strsav(s, csp->http->hostport);
-         s = strsav(s, "/");
-         return(s);
-      }
+      log_error(LOG_LEVEL_HEADER, "crunch+forge!");
+      s = strsav(NULL, "Referer: ");
+      s = strsav(s, "http://");
+      s = strsav(s, csp->http->hostport);
+      s = strsav(s, "/");
+      return(s);
    }
 
+   /*
+    * We have a specific (fixed) referer we want to send.
+    */
+
    log_error(LOG_LEVEL_HEADER, "modified");
 
    s = strsav( NULL, "Referer: " );
-   s = strsav( s, referrer );
+   s = strsav( s, csp->config->referrer );
    return(s);
 
 }
@@ -865,20 +974,20 @@ char *client_uagent(const struct parsers *v, char *s, struct client_state *csp)
    }
 #endif /* def DETECT_MSIE_IMAGES */
 
-   if (uagent == NULL)
+   if (csp->config->uagent == NULL)
    {
       log_error(LOG_LEVEL_HEADER, "default");
       return(strdup(DEFAULT_USER_AGENT));
    }
 
-   if (*uagent == '.')
+   if (*csp->config->uagent == '.')
    {
       return(strdup(s));
    }
 
-   if (*uagent == '@')
+   if (*csp->config->uagent == '@')
    {
-      if (csp->permissions & PERMIT_COOKIE_READ)
+      if (csp->permissions & PERMIT_USER_AGENT)
       {
          return(strdup(s));
       }
@@ -892,7 +1001,7 @@ char *client_uagent(const struct parsers *v, char *s, struct client_state *csp)
    log_error(LOG_LEVEL_HEADER, "modified");
 
    s = strsav( NULL, "User-Agent: " );
-   s = strsav( s, uagent );
+   s = strsav( s, csp->config->uagent );
    return(s);
 
 }
@@ -914,20 +1023,20 @@ char *client_uagent(const struct parsers *v, char *s, struct client_state *csp)
  *********************************************************************/
 char *client_ua(const struct parsers *v, char *s, struct client_state *csp)
 {
-   if (uagent == NULL)
+   if (csp->config->uagent == NULL)
    {
       log_error(LOG_LEVEL_HEADER, "crunch!");
       return(NULL);
    }
 
-   if (*uagent == '.')
+   if (*csp->config->uagent == '.')
    {
       return(strdup(s));
    }
 
-   if (*uagent == '@')
+   if (*csp->config->uagent == '@')
    {
-      if (csp->permissions & PERMIT_COOKIE_READ)
+      if (csp->permissions & PERMIT_USER_AGENT)
       {
          return(strdup(s));
       }
@@ -963,13 +1072,13 @@ char *client_ua(const struct parsers *v, char *s, struct client_state *csp)
 char *client_from(const struct parsers *v, char *s, struct client_state *csp)
 {
    /* if not set, zap it */
-   if (from == NULL)
+   if (csp->config->from == NULL)
    {
       log_error(LOG_LEVEL_HEADER, "crunch!");
       return(NULL);
    }
 
-   if (*from == '.')
+   if (*csp->config->from == '.')
    {
       return(strdup(s));
    }
@@ -977,7 +1086,7 @@ char *client_from(const struct parsers *v, char *s, struct client_state *csp)
    log_error(LOG_LEVEL_HEADER, " modified");
 
    s = strsav( NULL, "From: " );
-   s = strsav( s, from );
+   s = strsav( s, csp->config->from );
    return(s);
 
 }
@@ -1036,7 +1145,7 @@ char *client_send_cookie(const struct parsers *v, char *s, struct client_state *
  *********************************************************************/
 char *client_x_forwarded(const struct parsers *v, char *s, struct client_state *csp)
 {
-   if (add_forwarded)
+   if (csp->config->add_forwarded)
    {
       csp->x_forwarded = strdup(s);
    }
@@ -1121,7 +1230,7 @@ void client_cookie_adder(struct client_state *csp)
       tmp = strsav(tmp, l->str);
    }
 
-   for (l = wafer_list->next;  l ; l = l->next)
+   for (l = csp->config->wafer_list->next;  l ; l = l->next)
    {
       if (tmp)
       {
@@ -1166,7 +1275,7 @@ void client_xtra_adder(struct client_state *csp)
 {
    struct list *l;
 
-   for (l = xtra_list->next; l ; l = l->next)
+   for (l = csp->config->xtra_list->next; l ; l = l->next)
    {
       log_error(LOG_LEVEL_HEADER, "addh: %s", l->str);
       enlist(csp->headers, l->str);
@@ -1191,7 +1300,10 @@ void client_x_forwarded_adder(struct client_state *csp)
 {
    char *p = NULL;
 
-   if (add_forwarded == 0) return;
+   if (csp->config->add_forwarded == 0)
+   {
+      return;
+   }
 
    if (csp->x_forwarded)
    {
@@ -1230,9 +1342,9 @@ void client_x_forwarded_adder(struct client_state *csp)
 char *server_set_cookie(const struct parsers *v, char *s, struct client_state *csp)
 {
 #ifdef JAR_FILES
-   if (jar)
+   if (csp->config->jar)
    {
-      fprintf(jar, "%s\t%s\n", csp->http->host, (s + v->len + 1));
+      fprintf(csp->config->jar, "%s\t%s\n", csp->http->host, (s + v->len + 1));
    }
 #endif /* def JAR_FILES */