Interleaf to HTML with il2html
From wilhelms@dlrtcs.da.op.dlr.de Tue Jan 25 14:49:18 1994
Article: 6461 of comp.infosystems.www
Newsgroups: comp.infosystems.www
From: wilhelms@dlrtcs.da.op.dlr.de (Hartmut Wilhelms)
Subject: Re: Need Interleaf to HTML filter
Message-ID: <CK54u8.BJD@dnsserv.go.dlr.de>
Organization: Sun Microsystems, Inc.
Date: Mon, 24 Jan 94 16:39:43 MET
In article si6@rc1.vub.ac.be, Christian LEMER <chris@ucmb.ulb.ac.be> () writes:
>
>We have a lot of Interleaf documents to convert to HTML.
>Is there an Interleaf->HTML filter available?
>
I've got only a very spartanic but working method for converting
Interlaf->HTML files.
First you have to save the files as ASCII. Then there are some SED scripts
attached which you can use.
So call: "sh il2html <filename> > <outfilename>"
You need some work to do by "hand" afterwards. Please give me notice of any
improvements of these scripts. (Sorry, but the comments are in german)
Bye
-Hartmut
---
---
Hartmut Wilhelms
__/|__ Atmos Science Programme Office
/_/_/_/ German Remote Sensing Data Center
|/ DLR wilhelms@dfd.dlr.de
-------------------------------------------------------------
The file il2html:
sed -f $HOME/bin/il2html_1.sed $1 | \
sed -f $HOME/bin/il2html_2.sed | \
sed -f $HOME/bin/il2html_3.sed | \
sed -f $HOME/bin/il2html_4.sed
-----------------------------------------------------------
The file il2html_1.sed:
# Script um alle Interleaf Umlaute, tabs und Newlines zu ersetzen
# Autor: H. Wilhelms, 8.11.93
s/<#e4>/ä/g
s/<#c4>/Ä/g
s/<#f6>/ö/g
s/<#d6>/Ö/g
s/<#fc>/ü/g
s/<#dc>/Ü/g
s/<#df>/ß/g
s/<Tab>/ /g
s/<HR>//g
s/<SR>//g
#
# Die inneren Texte der Graphiken entfernen
/^ *(T[0-9]*/,/^<End Text>)$/d
# Seitennummerierungen entfernen
s/^<|,"[0-9]*">//
#
s/<"|:.*><F0>//g
#
s/<End Sub><F0>//g
------------------------------------------------------
The file il2html_2.sed:
# Sed script, um einen vorher mit umlaut.sed
# formatierten interleaf text in die Hypertext
# Sprache html umzuwandeln
# Autor: H. Wilhelms, 8.11.93
#
# Seitenummerierungen entfernen
/^<|,"[0-9]*">$/d
s/^<|,"[0-9]*">//
# Komponenten mit Prefix entfernen,
# der Prefix bleibt erhalten, wenn nicht leer
/<"|:/,/^$/{
N
s/<SR>//g
s/\n//g
P
D
}
# Alle Anderen Komponenten werden zu HTML Paragraphs
s/^<"[^",]*">/<P>/g
/^<"[^"]*"/,/^$/{
N
s/\n//g
s/<.*>/<P>/
$P
}
#
# Rahmen entfernen und entsprechend Markieren
/^<Frame/,/>$/{
/^<Frame.*$/i\
\
<Bild hier einfügen>\
d
}
#
# Automatische Numerierungen in eine Zeile Packen
/^<Autonum, /,/^$/{
N
s/\n//g
s/ / /g
s/$/\
/
P
D
}
------------------------------------------------------------------
The file il2html_3.sed:
# Sed script, um einen vorher mit umlaut.sed
# formatierten interleaf text in die Hypertext
# Sprache html umzuwandeln
# Autor: H. Wilhelms, 8.11.93
#
#
# Als HTML Dokument deklarieren
1i\
<HTML>
$a\
<\/HTML>
# Automatische Numerierungen in Header umwandeln
s/^<Autonum, .*, \([1-5]\),.*>[ ]*\(.*\)$/<H\1>\2<\/H\1>/
#
s/<End Sub><F47@Z7@Lge>D<F0>/<LI>/g
s/<F47@Z7@Lge>D<F0>/<LI>/g
#
# Listenaufzählungen erkennen und bearbeiten
s/^<End Sub>\(.*\)<F0>/<DT>\
\1\
<DD>/
-------------------------------------------------------------
The file il2html_3.sed:
# Sed script, um einen vorher mit umlaut.sed
# formatierten interleaf text in die Hypertext
# Sprache html umzuwandeln
# Autor: H. Wilhelms, 8.11.93
#
#
# Als HTML Dokument deklarieren
1i\
<HTML>
$a\
<\/HTML>
# Automatische Numerierungen in Header umwandeln
s/^<Autonum, .*, \([1-5]\),.*>[ ]*\(.*\)$/<H\1>\2<\/H\1>/
#
s/<End Sub><F47@Z7@Lge>D<F0>/<LI>/g
s/<F47@Z7@Lge>D<F0>/<LI>/g
#
# Listenaufzdhlungen erkennen und bearbeiten
s/^<End Sub>\(.*\)<F0>/<DT>\
\1\
<DD>/
-------------------------------------------------------------
The file il2html_4.sed:
# Sed script, um einen vorher mit umlaut.sed
# formatierten interleaf text in die Hypertext
# Sprache html umzuwandeln
# Autor: H. Wilhelms, 8.11.93
#
#
# Wenn am Ende der Zeile kein Blank, dann Wort zusammenbauen
/[^> ]$/{
N
s/\n\(.* \)/\1\
/g
P
D
b
}
#
s/<"[^>]*>//g