[privoxy.git] / doc / webserver / user-manual / filter-file.html
1 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
2 "http://www.w3.org/TR/html4/loose.dtd">
3 <html>
4 <head>
5   <title>Filter Files</title>
6   <meta name="GENERATOR" content="Modular DocBook HTML Stylesheet Version 1.79">
7   <link rel="HOME" title="Privoxy 3.0.34 User Manual" href="index.html">
8   <link rel="PREVIOUS" title="Actions Files" href="actions-file.html">
9   <link rel="NEXT" title="Privoxy's Template Files" href="templates.html">
10   <link rel="STYLESHEET" type="text/css" href="../p_doc.css">
11   <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
12   <link rel="STYLESHEET" type="text/css" href="p_doc.css">
13 </head>
14 <body class="SECT1" bgcolor="#EEEEEE" text="#000000" link="#0000FF" vlink="#840084" alink="#0000FF">
15   <div class="NAVHEADER">
16     <table summary="Header navigation table" width="100%" border="0" cellpadding="0" cellspacing="0">
17       <tr>
18         <th colspan="3" align="center">Privoxy 3.0.34 User Manual</th>
19       </tr>
20       <tr>
21         <td width="10%" align="left" valign="bottom"><a href="actions-file.html" accesskey="P">Prev</a></td>
22         <td width="80%" align="center" valign="bottom"></td>
23         <td width="10%" align="right" valign="bottom"><a href="templates.html" accesskey="N">Next</a></td>
24       </tr>
25     </table>
26     <hr align="left" width="100%">
27   </div>
28   <div class="SECT1">
29     <h1 class="SECT1"><a name="FILTER-FILE" id="FILTER-FILE">9. Filter Files</a></h1>
30     <p>On-the-fly text substitutions need to be defined in a <span class="QUOTE">"filter file"</span>. Once defined,
31     they can then be invoked as an <span class="QUOTE">"action"</span>.</p>
32     <p><span class="APPLICATION">Privoxy</span> supports four different pcrs-based filter actions: <tt class=
33     "LITERAL"><a href="actions-file.html#FILTER">filter</a></tt> to rewrite the content that is send to the client,
34     <tt class="LITERAL"><a href="actions-file.html#CLIENT-HEADER-FILTER">client-header-filter</a></tt> to rewrite
35     headers that are send by the client, <tt class="LITERAL"><a href=
36     "actions-file.html#SERVER-HEADER-FILTER">server-header-filter</a></tt> to rewrite headers that are send by the
37     server, and <tt class="LITERAL"><a href="actions-file.html#CLIENT-BODY-FILTER">client-body-filter</a></tt> to
38     rewrite client request body.</p>
39     <p><span class="APPLICATION">Privoxy</span> also supports two tagger actions: <tt class="LITERAL"><a href=
40     "actions-file.html#CLIENT-HEADER-TAGGER">client-header-tagger</a></tt> and <tt class="LITERAL"><a href=
41     "actions-file.html#SERVER-HEADER-TAGGER">server-header-tagger</a></tt>. Taggers and filters use the same syntax in
42     the filter files, the difference is that taggers don't modify the text they are filtering, but use a rewritten
43     version of the filtered text as tag. The tags can then be used to change the applying actions through sections with
44     <a href="actions-file.html#TAG-PATTERN">tag-patterns</a>.</p>
45     <p>Finally <span class="APPLICATION">Privoxy</span> supports the <tt class="LITERAL"><a href=
46     "actions-file.html#EXTERNAL-FILTER">external-filter</a></tt> action to enable <tt class="LITERAL"><a href=
47     "filter-file.html#EXTERNAL-FILTER-SYNTAX">external filters</a></tt> written in proper programming languages.</p>
48     <p>Multiple filter files can be defined through the <tt class="LITERAL"><a href=
49     "config.html#FILTERFILE">filterfile</a></tt> config directive. The filters as supplied by the developers are
50     located in <tt class="FILENAME">default.filter</tt>. It is recommended that any locally defined or modified filters
51     go in a separately defined file such as <tt class="FILENAME">user.filter</tt>.</p>
52     <p>Common tasks for content filters are to eliminate common annoyances in HTML and JavaScript, such as pop-up
53     windows, exit consoles, crippled windows without navigation tools, the infamous &lt;BLINK&gt; tag etc, to suppress
54     images with certain width and height attributes (standard banner sizes or web-bugs), or just to have fun.</p>
55     <p>Enabled content filters are applied to any content whose <span class="QUOTE">"Content Type"</span> header is
56     recognised as a sign of text-based content, with the exception of <tt class="LITERAL">text/plain</tt>. Use the
57     <a href="actions-file.html#FORCE-TEXT-MODE">force-text-mode</a> action to also filter other content.</p>
58     <p>Substitutions are made at the source level, so if you want to <span class="QUOTE">"roll your own"</span>
59     filters, you should first be familiar with HTML syntax, and, of course, regular expressions.</p>
60     <p>Just like the <a href="actions-file.html">actions files</a>, the filter file is organized in sections, which are
61     called <span class="emphasis"><i class="EMPHASIS">filters</i></span> here. Each filter consists of a heading line,
62     that starts with one of the <span class="emphasis"><i class="EMPHASIS">keywords</i></span> <tt class=
63     "LITERAL">FILTER:</tt>, <tt class="LITERAL">CLIENT-HEADER-FILTER:</tt>, <tt class=
64     "LITERAL">SERVER-HEADER-FILTER:</tt> or <tt class="LITERAL">CLIENT-BODY-FILTER:</tt> followed by the filter's
65     <span class="emphasis"><i class="EMPHASIS">name</i></span>, and a short (one line) <span class="emphasis"><i class=
66     "EMPHASIS">description</i></span> of what it does. Below that line come the <span class="emphasis"><i class=
67     "EMPHASIS">jobs</i></span>, i.e. lines that define the actual text substitutions. By convention, the name of a
68     filter should describe what the filter <span class="emphasis"><i class="EMPHASIS">eliminates</i></span>. The
69     comment is used in the <a href="http://config.privoxy.org/" target="_top">web-based user interface</a>.</p>
70     <p>Once a filter called <tt class="REPLACEABLE"><i>name</i></tt> has been defined in the filter file, it can be
71     invoked by using an action of the form +<tt class="LITERAL"><a href=
72     "actions-file.html#FILTER">filter</a>{<tt class="REPLACEABLE"><i>name</i></tt>}</tt> in any <a href=
73     "actions-file.html">actions file</a>.</p>
74     <p>Filter definitions start with a header line that contains the filter type, the filter name and the filter
75     description. A content filter header line for a filter called <span class="QUOTE">"foo"</span> could look like
76     this:</p>
77     <table border="0" bgcolor="#E0E0E0" width="100%">
78       <tr>
79         <td>
80           <pre class="SCREEN">  FILTER: foo Replace all "foo" with "bar"</pre>
81         </td>
82       </tr>
83     </table>
84     <p>Below that line, and up to the next header line, come the jobs that define what text replacements the filter
85     executes. They are specified in a syntax that imitates <a href="http://www.perl.org/" target="_top">Perl</a>'s
86     <tt class="LITERAL">s///</tt> operator. If you are familiar with Perl, you will find this to be quite intuitive,
87     and may want to look at the PCRS documentation for the subtle differences to Perl behaviour.</p>
88     <p>Most notably, the non-standard option letter <tt class="LITERAL">U</tt> is supported, which turns the default to
89     ungreedy matching (add <tt class="LITERAL">?</tt> to quantifiers to turn them greedy again).</p>
90     <p>The non-standard option letter <tt class="LITERAL">D</tt> (dynamic) allows to use the variables $host, $origin
91     (the IP address the request came from), $path, $url and $listen-address (the address on which Privoxy accepted the
92     client request. Example: They will be replaced with the value they refer to before the filter is
93     executed.</p>
94     <p>Note that '$' is a bad choice for a delimiter in a dynamic filter as you might end up with unintended variables
95     if you use a variable name directly after the delimiter. Variables will be resolved without escaping anything,
96     therefore you also have to be careful not to chose delimiters that appear in the replacement text. For example
97     '&#60;' should be save, while '?' will sooner or later cause conflicts with $url.</p>
98     <p>The non-standard option letter <tt class="LITERAL">T</tt> (trivial) prevents parsing for backreferences in the
99     substitute. Use it if you want to include text like '$&#38;' in your substitute without quoting.</p>
100     <p>If you are new to <a href="https://en.wikipedia.org/wiki/Regular_expressions" target="_top"><span class=
101     "QUOTE">"Regular Expressions"</span></a>, you might want to take a look at the <a href=
102     "appendix.html#REGEX">Appendix on regular expressions</a>, and see the <a href=
103     "http://perldoc.perl.org/perlre.html" target="_top">Perl manual</a> for <a href=
104     "http://perldoc.perl.org/perlop.html" target="_top">the <tt class="LITERAL">s///</tt> operator's syntax</a> and
105     <a href="http://perldoc.perl.org/perlre.html" target="_top">Perl-style regular expressions</a> in general. The
106     below examples might also help to get you started.</p>
107     <div class="SECT2">
108       <h2 class="SECT2"><a name="FILTER-FILE-TUT" id="FILTER-FILE-TUT">9.1. Filter File Tutorial</a></h2>
109       <p>Now, let's complete our <span class="QUOTE">"foo"</span> content filter. We have already defined the heading,
110       but the jobs are still missing. Since all it does is to replace <span class="QUOTE">"foo"</span> with
111       <span class="QUOTE">"bar"</span>, there is only one (trivial) job needed:</p>
112       <table border="0" bgcolor="#E0E0E0" width="100%">
113         <tr>
114           <td>
115             <pre class="SCREEN">  s/foo/bar/</pre>
116           </td>
117         </tr>
118       </table>
119       <p>But wait! Didn't the comment say that <span class="emphasis"><i class="EMPHASIS">all</i></span> occurrences of
120       <span class="QUOTE">"foo"</span> should be replaced? Our current job will only take care of the first
121       <span class="QUOTE">"foo"</span> on each page. For global substitution, we'll need to add the <tt class=
122       "LITERAL">g</tt> option:</p>
123       <table border="0" bgcolor="#E0E0E0" width="100%">
124         <tr>
125           <td>
126             <pre class="SCREEN">  s/foo/bar/g</pre>
127           </td>
128         </tr>
129       </table>
130       <p>Our complete filter now looks like this:</p>
131       <table border="0" bgcolor="#E0E0E0" width="100%">
132         <tr>
133           <td>
134             <pre class="SCREEN">  FILTER: foo Replace all "foo" with "bar"
135   s/foo/bar/g</pre>
136           </td>
137         </tr>
138       </table>
139       <p>Let's look at some real filters for more interesting examples. Here you see a filter that protects against
140       some common annoyances that arise from JavaScript abuse. Let's look at its jobs one after the other:</p>
141       <table border="0" bgcolor="#E0E0E0" width="100%">
142         <tr>
143           <td>
144             <pre class="SCREEN">  FILTER: js-annoyances Get rid of particularly annoying JavaScript abuse
146   # Get rid of JavaScript referrer tracking. Test page: http://www.randomoddness.com/untitled.htm
147   #
148   s|(&lt;script.*)document\.referrer(.*&lt;/script&gt;)|$1"Not Your Business!"$2|Usg</pre>
149           </td>
150         </tr>
151       </table>
152       <p>Following the header line and a comment, you see the job. Note that it uses <tt class="LITERAL">|</tt> as the
153       delimiter instead of <tt class="LITERAL">/</tt>, because the pattern contains a forward slash, which would
154       otherwise have to be escaped by a backslash (<tt class="LITERAL">\</tt>).</p>
155       <p>Now, let's examine the pattern: it starts with the text <tt class="LITERAL">&lt;script.*</tt> enclosed in
156       parentheses. Since the dot matches any character, and <tt class="LITERAL">*</tt> means: <span class=
157       "QUOTE">"Match an arbitrary number of the element left of myself"</span>, this matches <span class=
158       "QUOTE">"&lt;script"</span>, followed by <span class="emphasis"><i class="EMPHASIS">any</i></span> text, i.e. it
159       matches the whole page, from the start of the first &lt;script&gt; tag.</p>
160       <p>That's more than we want, but the pattern continues: <tt class="LITERAL">document\.referrer</tt> matches only
161       the exact string <span class="QUOTE">"document.referrer"</span>. The dot needed to be <span class=
162       "emphasis"><i class="EMPHASIS">escaped</i></span>, i.e. preceded by a backslash, to take away its special meaning
163       as a joker, and make it just a regular dot. So far, the meaning is: Match from the start of the first
164       &lt;script&gt; tag in a the page, up to, and including, the text <span class="QUOTE">"document.referrer"</span>,
165       if <span class="emphasis"><i class="EMPHASIS">both</i></span> are present in the page (and appear in that
166       order).</p>
167       <p>But there's still more pattern to go. The next element, again enclosed in parentheses, is <tt class=
168       "LITERAL">.*&lt;/script&gt;</tt>. You already know what <tt class="LITERAL">.*</tt> means, so the whole pattern
169       translates to: Match from the start of the first &lt;script&gt; tag in a page to the end of the last
170       &lt;script&gt; tag, provided that the text <span class="QUOTE">"document.referrer"</span> appears somewhere in
171       between.</p>
172       <p>This is still not the whole story, since we have ignored the options and the parentheses: The portions of the
173       page matched by sub-patterns that are enclosed in parentheses, will be remembered and be available through the
174       variables <tt class="LITERAL">$1, $2, ...</tt> in the substitute. The <tt class="LITERAL">U</tt> option switches
175       to ungreedy matching, which means that the first <tt class="LITERAL">.*</tt> in the pattern will only
176       <span class="QUOTE">"eat up"</span> all text in between <span class="QUOTE">"&lt;script"</span> and the
177       <span class="emphasis"><i class="EMPHASIS">first</i></span> occurrence of <span class=
178       "QUOTE">"document.referrer"</span>, and that the second <tt class="LITERAL">.*</tt> will only span the text up to
179       the <span class="emphasis"><i class="EMPHASIS">first</i></span> <span class="QUOTE">"&lt;/script&gt;"</span> tag.
180       Furthermore, the <tt class="LITERAL">s</tt> option says that the match may span multiple lines in the page, and
181       the <tt class="LITERAL">g</tt> option again means that the substitution is global.</p>
182       <p>So, to summarize, the pattern means: Match all scripts that contain the text <span class=
183       "QUOTE">"document.referrer"</span>. Remember the parts of the script from (and including) the start tag up to
184       (and excluding) the string <span class="QUOTE">"document.referrer"</span> as <tt class="LITERAL">$1</tt>, and the
185       part following that string, up to and including the closing tag, as <tt class="LITERAL">$2</tt>.</p>
186       <p>Now the pattern is deciphered, but wasn't this about substituting things? So lets look at the substitute:
187       <tt class="LITERAL">$1"Not Your Business!"$2</tt> is easy to read: The text remembered as <tt class=
188       "LITERAL">$1</tt>, followed by <tt class="LITERAL">"Not Your Business!"</tt> (<span class="emphasis"><i class=
189       "EMPHASIS">including</i></span> the quotation marks!), followed by the text remembered as <tt class=
190       "LITERAL">$2</tt>. This produces an exact copy of the original string, with the middle part (the <span class=
191       "QUOTE">"document.referrer"</span>) replaced by <tt class="LITERAL">"Not Your Business!"</tt>.</p>
192       <p>The whole job now reads: Replace <span class="QUOTE">"document.referrer"</span> by <tt class="LITERAL">"Not
193       Your Business!"</tt> wherever it appears inside a &lt;script&gt; tag. Note that this job won't break JavaScript
194       syntax, since both the original and the replacement are syntactically valid string objects. The script just won't
195       have access to the referrer information anymore.</p>
196       <p>We'll show you two other jobs from the JavaScript taming department, but this time only point out the
197       constructs of special interest:</p>
198       <table border="0" bgcolor="#E0E0E0" width="100%">
199         <tr>
200           <td>
201             <pre class="SCREEN">  # The status bar is for displaying link targets, not pointless blahblah
202   #
203   s/window\.status\s*=\s*(['"]).*?\1/dUmMy=1/ig</pre>
204           </td>
205         </tr>
206       </table>
207       <p><tt class="LITERAL">\s</tt> stands for whitespace characters (space, tab, newline, carriage return, form
208       feed), so that <tt class="LITERAL">\s*</tt> means: <span class="QUOTE">"zero or more whitespace"</span>. The
209       <tt class="LITERAL">?</tt> in <tt class="LITERAL">.*?</tt> makes this matching of arbitrary text ungreedy. (Note
210       that the <tt class="LITERAL">U</tt> option is not set). The <tt class="LITERAL">['"]</tt> construct means:
211       <span class="QUOTE">"a single <span class="emphasis"><i class="EMPHASIS">or</i></span> a double quote"</span>.
212       Finally, <tt class="LITERAL">\1</tt> is a back-reference to the first parenthesis just like <tt class=
213       "LITERAL">$1</tt> above, with the difference that in the <span class="emphasis"><i class=
214       "EMPHASIS">pattern</i></span>, a backslash indicates a back-reference, whereas in the <span class=
215       "emphasis"><i class="EMPHASIS">substitute</i></span>, it's the dollar.</p>
216       <p>So what does this job do? It replaces assignments of single- or double-quoted strings to the <span class=
217       "QUOTE">"window.status"</span> object with a dummy assignment (using a variable name that is hopefully odd enough
218       not to conflict with real variables in scripts). Thus, it catches many cases where e.g. pointless descriptions
219       are displayed in the status bar instead of the link target when you move your mouse over links.</p>
220       <table border="0" bgcolor="#E0E0E0" width="100%">
221         <tr>
222           <td>
223             <pre class="SCREEN">  # Kill OnUnload popups. Yummy. Test: http://www.zdnet.com/zdsubs/yahoo/tree/yfs.html
224   #
225   s/(&lt;body [^&gt;]*)onunload(.*&gt;)/$1never$2/iU</pre>
226           </td>
227         </tr>
228       </table>
229       <p>Including the <a href=
230       "http://www.w3.org/TR/2000/REC-DOM-Level-2-Events-20001113/events.html#Events-eventgroupings-htmlevents" target=
231       "_top">OnUnload event binding</a> in the HTML DOM was a <span class="emphasis"><i class=
232       "EMPHASIS">CRIME</i></span>. When I close a browser window, I want it to close and die. Basta. This job replaces
233       the <span class="QUOTE">"onunload"</span> attribute in <span class="QUOTE">"&lt;body&gt;"</span> tags with the
234       dummy word <tt class="LITERAL">never</tt>. Note that the <tt class="LITERAL">i</tt> option makes the pattern
235       matching case-insensitive. Also note that ungreedy matching alone doesn't always guarantee a minimal match: In
236       the first parenthesis, we had to use <tt class="LITERAL">[^&gt;]*</tt> instead of <tt class="LITERAL">.*</tt> to
237       prevent the match from exceeding the &lt;body&gt; tag if it doesn't contain <span class=
238       "QUOTE">"OnUnload"</span>, but the page's content does.</p>
239       <p>The last example is from the fun department:</p>
240       <table border="0" bgcolor="#E0E0E0" width="100%">
241         <tr>
242           <td>
243             <pre class="SCREEN">  FILTER: fun Fun text replacements
245   # Spice the daily news:
246   #
247   s/microsoft(?!\.com)/MicroSuck/ig</pre>
248           </td>
249         </tr>
250       </table>
251       <p>Note the <tt class="LITERAL">(?!\.com)</tt> part (a so-called negative lookahead) in the job's pattern, which
252       means: Don't match, if the string <span class="QUOTE">".com"</span> appears directly following <span class=
253       "QUOTE">"microsoft"</span> in the page. This prevents links to microsoft.com from being trashed, while still
254       replacing the word everywhere else.</p>
255       <table border="0" bgcolor="#E0E0E0" width="100%">
256         <tr>
257           <td>
258             <pre class="SCREEN">  # Buzzword Bingo (example for extended regex syntax)
259   #
260   s* industry[ -]leading \
261   |  cutting[ -]edge \
262   |  customer[ -]focused \
263   |  market[ -]driven \
264   |  award[ -]winning # Comments are OK, too! \
265   |  high[ -]performance \
266   |  solutions[ -]based \
267   |  unmatched \
268   |  unparalleled \
269   |  unrivalled \
270   *&lt;font color="red"&gt;&lt;b&gt;BINGO!&lt;/b&gt;&lt;/font&gt; \
271   *igx</pre>
272           </td>
273         </tr>
274       </table>
275       <p>The <tt class="LITERAL">x</tt> option in this job turns on extended syntax, and allows for e.g. the liberal
276       use of (non-interpreted!) whitespace for nicer formatting.</p>
277       <p>You get the idea?</p>
278     </div>
279     <div class="SECT2">
280       <h2 class="SECT2"><a name="PREDEFINED-FILTERS" id="PREDEFINED-FILTERS">9.2. The Pre-defined Filters</a></h2>
281       <p>The distribution <tt class="FILENAME">default.filter</tt> file contains a selection of pre-defined filters for
282       your convenience:</p>
283       <div class="VARIABLELIST">
284         <dl>
285           <dt><span class="emphasis"><i class="EMPHASIS">js-annoyances</i></span></dt>
286           <dd>
287             <p>The purpose of this filter is to get rid of particularly annoying JavaScript abuse. To that end, it</p>
288             <ul>
289               <li>
290                 <p>replaces JavaScript references to the browser's referrer information with the string "Not Your
291                 Business!". This compliments the <tt class="LITERAL"><a href=
292                 "actions-file.html#HIDE-REFERRER">hide-referrer</a></tt> action on the content level.</p>
293               </li>
294               <li>
295                 <p>removes the bindings to the DOM's <a href=
296                 "http://www.w3.org/TR/2000/REC-DOM-Level-2-Events-20001113/events.html#Events-eventgroupings-htmlevents"
297                 target="_top">unload event</a> which we feel has no right to exist and is responsible for most
298                 <span class="QUOTE">"exit consoles"</span>, i.e. nasty windows that pop up when you close another
299                 one.</p>
300               </li>
301               <li>
302                 <p>removes code that causes new windows to be opened with undesired properties, such as being
303                 full-screen, non-resizeable, without location, status or menu bar etc.</p>
304               </li>
305             </ul>
306             <p>Use with caution. This is an aggressive filter, and can break sites that rely heavily on JavaScript.</p>
307           </dd>
308           <dt><span class="emphasis"><i class="EMPHASIS">js-events</i></span></dt>
309           <dd>
310             <p>This is a very radical measure. It removes virtually all JavaScript event bindings, which means that
311             scripts can not react to user actions such as mouse movements or clicks, window resizing etc, anymore. Use
312             with caution!</p>
313             <p>We <span class="emphasis"><i class="EMPHASIS">strongly discourage</i></span> using this filter as a
314             default since it breaks many legitimate scripts. It is meant for use only on extra-nasty sites (should you
315             really need to go there).</p>
316           </dd>
317           <dt><span class="emphasis"><i class="EMPHASIS">html-annoyances</i></span></dt>
318           <dd>
319             <p>This filter will undo many common instances of HTML based abuse.</p>
320             <p>The <tt class="LITERAL">BLINK</tt> and <tt class="LITERAL">MARQUEE</tt> tags are neutralized (yeah
321             baby!), and browser windows will be created as resizeable (as of course they should be!), and will have
322             location, scroll and menu bars -- even if specified otherwise.</p>
323           </dd>
324           <dt><span class="emphasis"><i class="EMPHASIS">content-cookies</i></span></dt>
325           <dd>
326             <p>Most cookies are set in the HTTP dialog, where they can be intercepted by the <tt class=
327             "LITERAL"><a href="actions-file.html#CRUNCH-INCOMING-COOKIES">crunch-incoming-cookies</a></tt> and
328             <tt class="LITERAL"><a href="actions-file.html#CRUNCH-OUTGOING-COOKIES">crunch-outgoing-cookies</a></tt>
329             actions. But web sites increasingly make use of HTML meta tags and JavaScript to sneak cookies to the
330             browser on the content level.</p>
331             <p>This filter disables most HTML and JavaScript code that reads or sets cookies. It cannot detect all
332             clever uses of these types of code, so it should not be relied on as an absolute fix. Use it wherever you
333             would also use the cookie crunch actions.</p>
334           </dd>
335           <dt><span class="emphasis"><i class="EMPHASIS">refresh-tags</i></span></dt>
336           <dd>
337             <p>Disable any refresh tags if the interval is greater than nine seconds (so that redirections done via
338             refresh tags are not destroyed). This is useful for dial-on-demand setups, or for those who find this HTML
339             feature annoying.</p>
340           </dd>
341           <dt><span class="emphasis"><i class="EMPHASIS">unsolicited-popups</i></span></dt>
342           <dd>
343             <p>This filter attempts to prevent only <span class="QUOTE">"unsolicited"</span> pop-up windows from
344             opening, yet still allow pop-up windows that the user has explicitly chosen to open. It was added in
345             version 3.0.1, as an improvement over earlier such filters.</p>
346             <p>Technical note: The filter works by redefining the window.open JavaScript function to a dummy function,
347             <tt class="LITERAL">PrivoxyWindowOpen()</tt>, during the loading and rendering phase of each HTML page
348             access, and restoring the function afterward.</p>
349             <p>This is recommended only for browsers that cannot perform this function reliably themselves. And be
350             aware that some sites require such windows in order to function normally. Use with caution.</p>
351           </dd>
352           <dt><span class="emphasis"><i class="EMPHASIS">all-popups</i></span></dt>
353           <dd>
354             <p>Attempt to prevent <span class="emphasis"><i class="EMPHASIS">all</i></span> pop-up windows from
355             opening. Note this should be used with even more discretion than the above, since it is more likely to
356             break some sites that require pop-ups for normal usage. Use with caution.</p>
357           </dd>
358           <dt><span class="emphasis"><i class="EMPHASIS">img-reorder</i></span></dt>
359           <dd>
360             <p>This is a helper filter that has no value if used alone. It makes the <tt class=
361             "LITERAL">banners-by-size</tt> and <tt class="LITERAL">banners-by-link</tt> (see below) filters more
362             effective and should be enabled together with them.</p>
363           </dd>
364           <dt><span class="emphasis"><i class="EMPHASIS">banners-by-size</i></span></dt>
365           <dd>
366             <p>This filter removes image tags purely based on what size they are. Fortunately for us, many ads and
367             banner images tend to conform to certain standardized sizes, which makes this filter quite effective for ad
368             stripping purposes.</p>
369             <p>Occasionally this filter will cause false positives on images that are not ads, but just happen to be of
370             one of the standard banner sizes.</p>
371             <p>Recommended only for those who require extreme ad blocking. The default block rules should catch 95+% of
372             all ads <span class="emphasis"><i class="EMPHASIS">without</i></span> this filter enabled.</p>
373           </dd>
374           <dt><span class="emphasis"><i class="EMPHASIS">banners-by-link</i></span></dt>
375           <dd>
376             <p>This is an experimental filter that attempts to kill any banners if their URLs seem to point to known or
377             suspected click trackers. It is currently not of much value and is not recommended for use by default.</p>
378           </dd>
379           <dt><span class="emphasis"><i class="EMPHASIS">webbugs</i></span></dt>
380           <dd>
381             <p>Webbugs are small, invisible images (technically 1X1 GIF images), that are used to track users across
382             websites, and collect information on them. As an HTML page is loaded by the browser, an embedded image tag
383             causes the browser to contact a third-party site, disclosing the tracking information through the requested
384             URL and/or cookies for that third-party domain, without the user ever becoming aware of the interaction
385             with the third-party site. HTML-ized spam also uses a similar technique to verify email addresses.</p>
386             <p>This filter removes the HTML code that loads such <span class="QUOTE">"webbugs"</span>.</p>
387           </dd>
388           <dt><span class="emphasis"><i class="EMPHASIS">tiny-textforms</i></span></dt>
389           <dd>
390             <p>A rather special-purpose filter that can be used to enlarge textareas (those multi-line text boxes in
391             web forms) and turn off hard word wrap in them. It was written for the sourceforge.net tracker system where
392             such boxes are a nuisance, but it can be handy on other sites, too.</p>
393             <p>It is not recommended to use this filter as a default.</p>
394           </dd>
395           <dt><span class="emphasis"><i class="EMPHASIS">jumping-windows</i></span></dt>
396           <dd>
397             <p>Many consider windows that move, or resize themselves to be abusive. This filter neutralizes the related
398             JavaScript code. Note that some sites might not display or behave as intended when using this filter. Use
399             with caution.</p>
400           </dd>
401           <dt><span class="emphasis"><i class="EMPHASIS">frameset-borders</i></span></dt>
402           <dd>
403             <p>Some web designers seem to assume that everyone in the world will view their web sites using the same
404             browser brand and version, screen resolution etc, because only that assumption could explain why they'd use
405             static frame sizes, yet prevent their frames from being resized by the user, should they be too small to
406             show their whole content.</p>
407             <p>This filter removes the related HTML code. It should only be applied to sites which need it.</p>
408           </dd>
409           <dt><span class="emphasis"><i class="EMPHASIS">demoronizer</i></span></dt>
410           <dd>
411             <p>Many Microsoft products that generate HTML use non-standard extensions (read: violations) of the ISO
412             8859-1 aka Latin-1 character set. This can cause those HTML documents to display with errors on
413             standard-compliant platforms.</p>
414             <p>This filter translates the MS-only characters into Latin-1 equivalents. It is not necessary when using
415             MS products, and will cause corruption of all documents that use 8-bit character sets other than Latin-1.
416             It's mostly worthwhile for Europeans on non-MS platforms, if weird garbage characters sometimes appear on
417             some pages, or user agents that don't correct for this on the fly.</p>
418           </dd>
419           <dt><span class="emphasis"><i class="EMPHASIS">shockwave-flash</i></span></dt>
420           <dd>
421             <p>A filter for shockwave haters. As the name suggests, this filter strips code out of web pages that is
422             used to embed shockwave flash objects.</p>
423           </dd>
424           <dt><span class="emphasis"><i class="EMPHASIS">quicktime-kioskmode</i></span></dt>
425           <dd>
426             <p>Change HTML code that embeds Quicktime objects so that kioskmode, which prevents saving, is
427             disabled.</p>
428           </dd>
429           <dt><span class="emphasis"><i class="EMPHASIS">fun</i></span></dt>
430           <dd>
431             <p>Text replacements for subversive browsing fun. Make fun of your favorite Monopolist or play buzzword
432             bingo.</p>
433           </dd>
434           <dt><span class="emphasis"><i class="EMPHASIS">crude-parental</i></span></dt>
435           <dd>
436             <p>A demonstration-only filter that shows how <span class="APPLICATION">Privoxy</span> can be used to
437             delete web content on a keyword basis.</p>
438           </dd>
439           <dt><span class="emphasis"><i class="EMPHASIS">ie-exploits</i></span></dt>
440           <dd>
441             <p>An experimental collection of text replacements to disable malicious HTML and JavaScript code that
442             exploits known security holes in Internet Explorer.</p>
443             <p>Presently, it only protects against Nimda and a cross-site scripting bug, and would need active
444             maintenance to provide more substantial protection.</p>
445           </dd>
446           <dt><span class="emphasis"><i class="EMPHASIS">site-specifics</i></span></dt>
447           <dd>
448             <p>Some web sites have very specific problems, the cure for which doesn't apply anywhere else, or could
449             even cause damage on other sites.</p>
450             <p>This is a collection of such site-specific cures which should only be applied to the sites they were
451             intended for, which is what the supplied <tt class="FILENAME">default.action</tt> file does. Users
452             shouldn't need to change anything regarding this filter.</p>
453           </dd>
454           <dt><span class="emphasis"><i class="EMPHASIS">google</i></span></dt>
455           <dd>
456             <p>A CSS based block for Google text ads. Also removes a width limitation and the toolbar
457             advertisement.</p>
458           </dd>
459           <dt><span class="emphasis"><i class="EMPHASIS">yahoo</i></span></dt>
460           <dd>
461             <p>Another CSS based block, this time for Yahoo text ads. And removes a width limitation as well.</p>
462           </dd>
463           <dt><span class="emphasis"><i class="EMPHASIS">msn</i></span></dt>
464           <dd>
465             <p>Another CSS based block, this time for MSN text ads. And removes tracking URLs, as well as a width
466             limitation.</p>
467           </dd>
468           <dt><span class="emphasis"><i class="EMPHASIS">blogspot</i></span></dt>
469           <dd>
470             <p>Cleans up some Blogspot blogs. Read the fine print before using this one!</p>
471             <p>This filter also intentionally removes some navigation stuff and sets the page width to 100%. As a
472             result, some rounded <span class="QUOTE">"corners"</span> would appear to early or not at all and as fixing
473             this would require a browser that understands background-size (CSS3), they are removed instead.</p>
474           </dd>
475           <dt><span class="emphasis"><i class="EMPHASIS">xml-to-html</i></span></dt>
476           <dd>
477             <p>Server-header filter to change the Content-Type from xml to html.</p>
478           </dd>
479           <dt><span class="emphasis"><i class="EMPHASIS">html-to-xml</i></span></dt>
480           <dd>
481             <p>Server-header filter to change the Content-Type from html to xml.</p>
482           </dd>
483           <dt><span class="emphasis"><i class="EMPHASIS">no-ping</i></span></dt>
484           <dd>
485             <p>Removes the non-standard <tt class="LITERAL">ping</tt> attribute from anchor and area HTML tags.</p>
486           </dd>
487           <dt><span class="emphasis"><i class="EMPHASIS">hide-tor-exit-notation</i></span></dt>
488           <dd>
489             <p>Client-header filter to remove the <b class="COMMAND">Tor</b> exit node notation found in Host and
490             Referer headers.</p>
491             <p>If <span class="APPLICATION">Privoxy</span> and <b class="COMMAND">Tor</b> are chained and <span class=
492             "APPLICATION">Privoxy</span> is configured to use socks4a, one can use <span class=
493             "QUOTE">"http://www.example.org.foobar.exit/"</span> to access the host <span class=
494             "QUOTE">"www.example.org"</span> through the <b class="COMMAND">Tor</b> exit node <span class=
495             "QUOTE">"foobar"</span>.</p>
496             <p>As the HTTP client isn't aware of this notation, it treats the whole string <span class=
497             "QUOTE">"www.example.org.foobar.exit"</span> as host and uses it for the <span class="QUOTE">"Host"</span>
498             and <span class="QUOTE">"Referer"</span> headers. From the server's point of view the resulting headers are
499             invalid and can cause problems.</p>
500             <p>An invalid <span class="QUOTE">"Referer"</span> header can trigger <span class=
501             "QUOTE">"hot-linking"</span> protections, an invalid <span class="QUOTE">"Host"</span> header will make it
502             impossible for the server to find the right vhost (several domains hosted on the same IP address).</p>
503             <p>This client-header filter removes the <span class="QUOTE">"foo.exit"</span> part in those headers to
504             prevent the mentioned problems. Note that it only modifies the HTTP headers, it doesn't make it impossible
505             for the server to detect your <b class="COMMAND">Tor</b> exit node based on the IP address the request is
506             coming from.</p>
507           </dd>
508         </dl>
509       </div>
510     </div>
511     <div class="SECT2">
512       <h2 class="SECT2"><a name="EXTERNAL-FILTER-SYNTAX" id="EXTERNAL-FILTER-SYNTAX">9.3. External filter
513       syntax</a></h2>
514       <p>External filters are scripts or programs that can modify the content in case common <tt class=
515       "LITERAL"><a href="actions-file.html#FILTER">filters</a></tt> aren't powerful enough.</p>
516       <p>External filters can be written in any language the platform <span class="APPLICATION">Privoxy</span> runs on
517       supports.</p>
518       <p>They are controlled with the <tt class="LITERAL"><a href=
519       "actions-file.html#EXTERNAL-FILTER">external-filter</a></tt> action and have to be defined in the <tt class=
520       "LITERAL"><a href="config.html#FILTERFILE">filterfile</a></tt> first.</p>
521       <p>The header looks like any other filter, but instead of pcrs jobs, external filters contain a single job which
522       can be a program or a shell script (which may call other scripts or programs).</p>
523       <p>External filters read the content from STDIN and write the rewritten content to STDOUT. The environment
525       details about the client request.</p>
526       <p><span class="APPLICATION">Privoxy</span> will temporary store the content to filter in the <tt class=
527       "LITERAL"><a href="config.html#TEMPORARY-DIRECTORY">temporary-directory</a></tt>.</p>
528       <table border="0" bgcolor="#E0E0E0" width="100%">
529         <tr>
530           <td>
531             <pre class=
532             "SCREEN">  EXTERNAL-FILTER: cat Pointless example filter that doesn't actually modify the content
533   /bin/cat
535   # Incorrect reimplementation of the filter above in POSIX shell.
536   #
537   # Note that it's a single job that spans multiple lines, the line
538   # breaks are not passed to the shell, thus the semicolons are required.
539   #
540   # If the script isn't trivial, it is recommended to put it into an external file.
541   #
542   # In general, writing external filters entirely in POSIX shell is not
543   # considered a good idea.
544   EXTERNAL-FILTER: cat2 Pointless example filter that despite its name may actually modify the content
545   while read line; \
546   do \
547     echo "$line"; \
548   done
550   EXTERNAL-FILTER: rotate-image Rotate an image by 180 degree. Test filter with limited value.
551   /usr/local/bin/convert - -rotate 180 -
553   EXTERNAL-FILTER: citation-needed Adds a "[citation needed]" tag to an image. The coordinates may need adjustment.
554   /usr/local/bin/convert - -pointsize 16 -fill white  -annotate +17+418 "[citation needed]" -</pre>
555           </td>
556         </tr>
557       </table>
558       <div class="WARNING">
559         <table class="WARNING" border="1" width="100%">
560           <tr>
561             <td align="center"><b>Warning</b></td>
562           </tr>
563           <tr>
564             <td align="left">
565               <p>Currently external filters are executed with <span class="APPLICATION">Privoxy</span>'s privileges!
566               Only use external filters you understand and trust.</p>
567             </td>
568           </tr>
569         </table>
570       </div>
571       <p>External filters are experimental and the syntax may change in the future.</p>
572     </div>
573   </div>
574   <div class="NAVFOOTER">
575     <hr align="left" width="100%">
576     <table summary="Footer navigation table" width="100%" border="0" cellpadding="0" cellspacing="0">
577       <tr>
578         <td width="33%" align="left" valign="top"><a href="actions-file.html" accesskey="P">Prev</a></td>
579         <td width="34%" align="center" valign="top"><a href="index.html" accesskey="H">Home</a></td>
580         <td width="33%" align="right" valign="top"><a href="templates.html" accesskey="N">Next</a></td>
581       </tr>
582       <tr>
583         <td width="33%" align="left" valign="top">Actions Files</td>
584         <td width="34%" align="center" valign="top">&nbsp;</td>
585         <td width="33%" align="right" valign="top">Privoxy's Template Files</td>
586       </tr>
587     </table>
588   </div>
589 </body>
590 </html>