bump copyright date
[privoxy.git] / encode.c
index bf30016..3ce4cc5 100644 (file)
--- a/encode.c
+++ b/encode.c
@@ -1,4 +1,4 @@
-const char encode_rcs[] = "$Id: encode.c,v 1.3 2001/11/13 00:16:40 jongfoster Exp $";
+const char encode_rcs[] = "$Id: encode.c,v 1.28 2012/12/27 15:48:53 fabiankeil Exp $";
 /*********************************************************************
  *
  * File        :  $Source: /cvsroot/ijbswa/current/encode.c,v $
@@ -6,14 +6,14 @@ const char encode_rcs[] = "$Id: encode.c,v 1.3 2001/11/13 00:16:40 jongfoster Ex
  * Purpose     :  Functions to encode and decode URLs, and also to
  *                encode cookies and HTML text.
  *
- * Copyright   :  Written by and Copyright (C) 2001 the SourceForge
- *                IJBSWA team.  http://ijbswa.sourceforge.net
+ * Copyright   :  Written by and Copyright (C) 2001 the
+ *                Privoxy team. http://www.privoxy.org/
  *
  *                Based on the Internet Junkbuster originally written
- *                by and Copyright (C) 1997 Anonymous Coders and 
+ *                by and Copyright (C) 1997 Anonymous Coders and
  *                Junkbusters Corporation.  http://www.junkbusters.com
  *
- *                This program is free software; you can redistribute it 
+ *                This program is free software; you can redistribute it
  *                and/or modify it under the terms of the GNU General
  *                Public License as published by the Free Software
  *                Foundation; either version 2 of the License, or (at
@@ -31,47 +31,36 @@ const char encode_rcs[] = "$Id: encode.c,v 1.3 2001/11/13 00:16:40 jongfoster Ex
  *                or write to the Free Software Foundation, Inc., 59
  *                Temple Place - Suite 330, Boston, MA  02111-1307, USA.
  *
- * Revisions   :
- *    $Log: encode.c,v $
- *    Revision 1.3  2001/11/13 00:16:40  jongfoster
- *    Replacing references to malloc.h with the standard stdlib.h
- *    (See ANSI or K&R 2nd Ed)
- *
- *    Revision 1.2  2001/05/17 22:52:35  oes
- *     - Cleaned CRLF's from the sources and related files
- *
- *    Revision 1.1.1.1  2001/05/15 13:58:51  oes
- *    Initial import of version 2.9.3 source tree
- *
- *
  *********************************************************************/
-\f
+
 
 #include "config.h"
 
 #include <stdio.h>
 #include <stdlib.h>
 #include <string.h>
+#include <assert.h>
 
+#include "miscutil.h"
 #include "encode.h"
 
 const char encode_h_rcs[] = ENCODE_H_VERSION;
 
 /* Maps special characters in a URL to their equivalent % codes. */
-static const char * const url_code_map[256] = {
-   NULL, "%01", "%02", "%03", "%04", "%05", "%06", "%07", "%08", "%09",
+static const char url_code_map[256][4] = {
+   "",    "%01", "%02", "%03", "%04", "%05", "%06", "%07", "%08", "%09",
    "%0A", "%0B", "%0C", "%0D", "%0E", "%0F", "%10", "%11", "%12", "%13",
    "%14", "%15", "%16", "%17", "%18", "%19", "%1A", "%1B", "%1C", "%1D",
-   "%1E", "%1F", "+",   "%21", "%22", "%23", "%24", "%25", "%26", "%27",
-   "%28", "%29", NULL,  "%2B", "%2C", NULL,  NULL,  "%2F", NULL,  NULL,
-   NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  "%3A", "%3B",
-   "%3C", "%3D", "%3E", "%3F", NULL,  NULL,  NULL,  NULL,  NULL,  NULL,
-   NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,
-   NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,
-   NULL,  "%5B", "%5C", "%5D", "%5E", NULL,  "%60", NULL,  NULL,  NULL,
-   NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,
-   NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,  NULL,
-   NULL,  NULL,  NULL,  "%7B", "%7C", "%7D", "%7E", "%7F", "%80", "%81",
+   "%1E", "%1F", "%20", "%21", "%22", "%23", "%24", "%25", "%26", "%27",
+   "%28", "%29", "",    "%2B", "%2C", "",    "",    "%2F", "",    "",
+   "",    "",    "",    "",    "",    "",    "",    "",    "%3A", "%3B",
+   "%3C", "%3D", "%3E", "%3F", "",    "",    "",    "",    "",    "",
+   "",    "",    "",    "",    "",    "",    "",    "",    "",    "",
+   "",    "",    "",    "",    "",    "",    "",    "",    "",    "",
+   "",    "%5B", "%5C", "%5D", "%5E", "",    "%60", "",    "",    "",
+   "",    "",    "",    "",    "",    "",    "",    "",    "",    "",
+   "",    "",    "",    "",    "",    "",    "",    "",    "",    "",
+   "",    "",    "",    "%7B", "%7C", "%7D", "%7E", "%7F", "%80", "%81",
    "%82", "%83", "%84", "%85", "%86", "%87", "%88", "%89", "%8A", "%8B",
    "%8C", "%8D", "%8E", "%8F", "%90", "%91", "%92", "%93", "%94", "%95",
    "%96", "%97", "%98", "%99", "%9A", "%9B", "%9C", "%9D", "%9E", "%9F",
@@ -87,12 +76,12 @@ static const char * const url_code_map[256] = {
    "%FA", "%FB", "%FC", "%FD", "%FE", "%FF"
 };
 
-/* Maps special characters in HTML to their equivalent entites. */
+/* Maps special characters in HTML to their equivalent entities. */
 static const char * const html_code_map[256] = {
    NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
    NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
    NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL,"&quot;",NULL,NULL,NULL,"&amp;",NULL,
+   NULL, NULL, NULL, NULL,"&quot;",NULL,NULL,NULL,"&amp;","&#39;",
    NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
    NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
    "&lt;",NULL,"&gt;",NULL,NULL, NULL, NULL, NULL, NULL, NULL,
@@ -117,36 +106,6 @@ static const char * const html_code_map[256] = {
    NULL, NULL, NULL, NULL, NULL, NULL
 };
 
-/* Maps special characters in a cookie to their equivalent % codes. */
-static const char * const cookie_code_map[256] = {
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, "+",  NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, "%2C",NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, "%3B",
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
-   NULL, NULL, NULL, NULL, NULL, NULL
-};
-
 
 /*********************************************************************
  *
@@ -160,7 +119,7 @@ static const char * const cookie_code_map[256] = {
  * Parameters  :
  *          1  :  s = String to encode.  Null-terminated.
  *
- * Returns     :  Encoded string, newly allocated on the heap. 
+ * Returns     :  Encoded string, newly allocated on the heap.
  *                Caller is responsible for freeing it with free().
  *                If s is NULL, or on out-of memory, returns NULL.
  *
@@ -168,26 +127,29 @@ static const char * const cookie_code_map[256] = {
 char * html_encode(const char *s)
 {
    char * buf;
-   
+   size_t buf_size;
+
    if (s == NULL)
    {
       return NULL;
    }
 
    /* each input char can expand to at most 6 chars */
-   buf = (char *) malloc((strlen(s) * 6) + 1);
+   buf_size = (strlen(s) * 6) + 1;
+   buf = (char *) malloc(buf_size);
 
    if (buf)
    {
       char c;
       char * p = buf;
-      while ( (c = *s++) != '\0')
+      while ((c = *s++) != '\0')
       {
          const char * replace_with = html_code_map[(unsigned char) c];
-         if(replace_with != NULL)
+         if (replace_with != NULL)
          {
-            strcpy(p, replace_with);
-            p += strlen(replace_with);
+            const size_t bytes_written = (size_t)(p - buf);
+            assert(bytes_written < buf_size);
+            p += strlcpy(p, replace_with, buf_size - bytes_written);
          }
          else
          {
@@ -196,6 +158,8 @@ char * html_encode(const char *s)
       }
 
       *p = '\0';
+
+      assert(strlen(buf) < buf_size);
    }
 
    return(buf);
@@ -215,7 +179,7 @@ char * html_encode(const char *s)
  * Parameters  :
  *          1  :  s = String to encode.  Null-terminated.
  *
- * Returns     :  Encoded string, newly allocated on the heap. 
+ * Returns     :  Encoded string, newly allocated on the heap.
  *                Caller is responsible for freeing it with free().
  *                If s is NULL, or on out-of memory, returns NULL.
  *
@@ -223,7 +187,7 @@ char * html_encode(const char *s)
 char * html_encode_and_free_original(char *s)
 {
    char * result;
-   
+
    if (s == NULL)
    {
       return NULL;
@@ -236,58 +200,6 @@ char * html_encode_and_free_original(char *s)
 }
 
 
-/*********************************************************************
- *
- * Function    :  cookie_encode
- *
- * Description :  Encodes a string so it can be used in a cookie.
- *                Replaces " ", ",", and ";" with the appropriate
- *                codes.
- *
- * Parameters  :
- *          1  :  s = String to encode.  Null-terminated.
- *
- * Returns     :  Encoded string, newly allocated on the heap. 
- *                Caller is responsible for freeing it with free().
- *                If s is NULL, or on out-of memory, returns NULL.
- *
- *********************************************************************/
-char * cookie_encode(const char *s)
-{
-   char * buf;
-
-   if (s == NULL)
-   {
-      return NULL;
-   }
-
-   /* each input char can expand to at most 3 chars */
-   buf = (char *) malloc((strlen(s) * 3) + 1);
-
-   if (buf)
-   {
-      char c;
-      char * p = buf;
-      while ( (c = *s++) != '\0')
-      {
-         const char * replace_with = cookie_code_map[(unsigned char) c];
-         if (replace_with != NULL)
-         {
-            strcpy(p, replace_with);
-            p += strlen(replace_with);
-         }
-         else
-         {
-            *p++ = c;
-         }
-      }
-
-      *p = '\0';
-   }
-
-   return(buf);
-}
-
 /*********************************************************************
  *
  * Function    :  url_encode
@@ -296,10 +208,13 @@ char * cookie_encode(const char *s)
  *                query string.  Replaces special characters with
  *                the appropriate %xx codes.
  *
+ *                XXX: url_query_encode() would be a more fitting
+ *                     name.
+ *
  * Parameters  :
  *          1  :  s = String to encode.  Null-terminated.
  *
- * Returns     :  Encoded string, newly allocated on the heap. 
+ * Returns     :  Encoded string, newly allocated on the heap.
  *                Caller is responsible for freeing it with free().
  *                If s is NULL, or on out-of memory, returns NULL.
  *
@@ -307,6 +222,7 @@ char * cookie_encode(const char *s)
 char * url_encode(const char *s)
 {
    char * buf;
+   size_t buf_size;
 
    if (s == NULL)
    {
@@ -314,19 +230,21 @@ char * url_encode(const char *s)
    }
 
    /* each input char can expand to at most 3 chars */
-   buf = (char *) malloc((strlen(s) * 3) + 1);
+   buf_size = (strlen(s) * 3) + 1;
+   buf = (char *) malloc(buf_size);
 
    if (buf)
    {
       char c;
       char * p = buf;
-      while( (c = *s++) != '\0')
+      while((c = *s++) != '\0')
       {
-         const char * replace_with = url_code_map[(unsigned char) c];
-         if (replace_with != NULL)
+         const char *replace_with = url_code_map[(unsigned char) c];
+         if (*replace_with != '\0')
          {
-            strcpy(p, replace_with);
-            p += strlen(replace_with);
+            const size_t bytes_written = (size_t)(p - buf);
+            assert(bytes_written < buf_size);
+            p += strlcpy(p, replace_with, buf_size - bytes_written);
          }
          else
          {
@@ -336,6 +254,7 @@ char * url_encode(const char *s)
 
       *p = '\0';
 
+      assert(strlen(buf) < buf_size);
    }
 
    return(buf);
@@ -354,13 +273,13 @@ char * url_encode(const char *s)
  * Returns     :  The integer value, or -1 for non-hex characters.
  *
  *********************************************************************/
-static int xdtoi(char d)
+static int xdtoi(const int d)
 {
    if ((d >= '0') && (d <= '9'))
    {
       return(d - '0');
    }
-   else if ((d >= 'a') && (d <= 'f')) 
+   else if ((d >= 'a') && (d <= 'f'))
    {
       return(d - 'a' + 10);
    }
@@ -388,15 +307,15 @@ static int xdtoi(char d)
  * Returns     :  The integer value, or 0 for non-hex strings.
  *
  *********************************************************************/
-static int xtoi(const char *s)
+int xtoi(const char *s)
 {
-   int d1, d2;
+   int d1;
 
-   d1 = xdtoi(*s++);
-   if(d1 >= 0)
+   d1 = xdtoi(*s);
+   if (d1 >= 0)
    {
-      d2 = xdtoi(*s);
-      if(d2 >= 0)
+      int d2 = xdtoi(*(s+1));
+      if (d2 >= 0)
       {
          return (d1 << 4) + d2;
       }
@@ -416,7 +335,7 @@ static int xtoi(const char *s)
  * Parameters  :
  *          1  :  s = String to decode.  Null-terminated.
  *
- * Returns     :  Decoded string, newly allocated on the heap. 
+ * Returns     :  Decoded string, newly allocated on the heap.
  *                Caller is responsible for freeing it with free().
  *
  *********************************************************************/
@@ -437,7 +356,7 @@ char *url_decode(const char * s)
                break;
 
             case '%':
-               if ((*q = xtoi(s + 1)))
+               if ((*q = (char)xtoi(s + 1)) != '\0')
                {
                   s += 3;
                   q++;
@@ -462,6 +381,83 @@ char *url_decode(const char * s)
 }
 
 
+/*********************************************************************
+ *
+ * Function    :  percent_encode_url
+ *
+ * Description :  Percent-encodes a string so it no longer contains
+ *                any characters that aren't valid in an URL according
+ *                to RFC 3986.
+ *
+ *                XXX: Do not confuse with encode_url()
+ *
+ * Parameters  :
+ *          1  :  s = String to encode.  Null-terminated.
+ *
+ * Returns     :  Encoded string, newly allocated on the heap.
+ *                Caller is responsible for freeing it with free().
+ *                If s is NULL, or on out-of memory, returns NULL.
+ *
+ *********************************************************************/
+char *percent_encode_url(const char *s)
+{
+   static const char allowed_characters[128] = {
+      '\0', '\0', '\0', '\0', '\0', '\0', '\0', '\0', '\0', '\0',
+      '\0', '\0', '\0', '\0', '\0', '\0', '\0', '\0', '\0', '\0',
+      '\0', '\0', '\0', '\0', '\0', '\0', '\0', '\0', '\0', '\0',
+      '\0', '\0', '\0', '!',  '\0', '#',  '$',  '%',  '&',  '\'',
+      '(',  ')',  '*',  '+',  ',',  '-',  '.',  '/',  '0',  '1',
+      '2',  '3',  '4',  '5',  '6',  '7',  '8',  '9',  ':',  ';',
+      '\0', '=',  '\0', '?',  '@',  'A',  'B',  'C',  'D',  'E',
+      'F',  'G',  'H',  'I',  'J',  'K',  'L',  'M',  'N',  'O',
+      'P',  'Q',  'R',  'S',  'T',  'U',  'V',  'W',  'X',  'Y',
+      'Z',  '[',  '\0', ']',  '\0', '_',  '\0', 'a',  'b',  'c',
+      'd',  'e',  'f',  'g',  'h',  'i',  'j',  'k',  'l',  'm',
+      'n',  'o',  'p',  'q',  'r',  's',  't',  'u',  'v',  'w',
+      'x',  'y',  'z',  '\0', '\0', '\0', '~',  '\0'
+   };
+   char *buf;
+   size_t buf_size;
+
+   assert(s != NULL);
+
+   /* Each input char can expand to at most 3 chars. */
+   buf_size = (strlen(s) * 3) + 1;
+   buf = (char *)malloc(buf_size);
+
+   if (buf != NULL)
+   {
+      char c;
+      char *p = buf;
+      while ((c = *s++) != '\0')
+      {
+         const unsigned int i = (unsigned char)c;
+         if (i >= sizeof(allowed_characters) || '\0' == allowed_characters[i])
+         {
+            const char *replace_with = url_code_map[i];
+            assert(*replace_with != '\0');
+            if (*replace_with != '\0')
+            {
+               const size_t bytes_written = (size_t)(p - buf);
+               assert(bytes_written < buf_size);
+               p += strlcpy(p, replace_with, buf_size - bytes_written);
+            }
+         }
+         else
+         {
+            *p++ = c;
+         }
+      }
+      *p = '\0';
+
+      assert(strlen(buf) < buf_size);
+   }
+
+   return(buf);
+
+}
+
+
 /*
   Local Variables:
   tab-width: 3