Word naar (X)HTML

Ik moet voor een klant 30 Word documenten omzetten naar HTML. Elk Word document bestaat uit zo'n 4 pagina's. Wat een hel...

Waarom? Er zitten veel tabellen in en deze moeten ook omgezet worden. Het eerste wat ik deed was alle Word bestanden exporteren naar HTML. Wel eens gedaan? Wel eens de bron code gezien. Heilige koe, wat een rommel maakt Word ervan. Bestanden geopend in Dreamweaver, en “clean up word code” (zit er niet voor niets in) uitgevoerd. Probleem gehalveerd. Veel overbodige code verdween, alleen laat Dreamweaver alles wat maar op HTML lijkt zitten. Dan maar met “Search and Replace” de rest van het bestand geschoond.

Na 20 minuten een schoon document, en dan begint pas het opmaken. Duur totaal 30 minuten per Word document. Grom.

Ik snap het niet hoor. Hoe moeilijk is het om iets wat in Italic staat in een Word document in een HTML weer tegen tuseen de <em> tag? Ben geen programmeur maar de logica ontgaat me helemaal. Zal aan de hand van onderstaand voorbeeld laten zien waarover ik loop te zeuren.

Word HTML code:

[code:1:c63b651246]
<html xmlns:o=“urn:schemas-microsoft-com:office:office”
xmlns:w=“urn:schemas-microsoft-com:office:word”
xmlns=“http://www.w3.org/TR/REC-html40”>
<head>
< meta http-equiv=Content-Type content=“text/html; charset=windows-1252”>
<meta name=ProgId content=Word.Document>
<meta name=Generator content=“Microsoft Word 10”>
<meta name=Originator content=“Microsoft Word 10”>
<link rel=File-List href=“This%20is%20a%20test_files/filelist.xml”>
<title>This is a test</title>
<!–[if gte mso 9]><xml>
<o:DocumentProperties>
<o:Author>Brian </o:Author>
<o:LastAuthor>Brian </o:LastAuthor>
<o:Revision>1</o:Revision>
<o:TotalTime>0</o:TotalTime>
<o:Created>2003-02-02T19:11:00Z</o:Created>
<o:LastSaved>2003-02-02T19:11:00Z</o:LastSaved>
<o:Pages>1</o:Pages>
<o:Words>2</o:Words>
<o:Characters>13</o:Characters>
<o:Company>mambosoft</o:Company>
<o:Lines>1</o:Lines>
<o:Paragraphs>1</o:Paragraphs>
<o:CharactersWithSpaces>14</o:CharactersWithSpaces>
<o:Version>10.3131</o:Version>
</o:DocumentProperties>
<o:OfficeDocumentSettings>
<o:DoNotRelyOnCSS/>
</o:OfficeDocumentSettings>
< /xml><![endif]–><!–[if gte mso 9]><xml>
<w:WordDocument>
<w:GrammarState>Clean</w:GrammarState>
<w:Compatibility>
<w:BreakWrappedTables/>
<w:SnapToGridInCell/>
<w:WrapTextWithPunct/>
<w:UseAsianBreakRules/>
</w:Compatibility>
<w:BrowserLevel>MicrosoftInternetExplorer4</w:BrowserLevel>
</w:WordDocument>
</xml><![endif]–>
<style>
<!–
/* Style Definitions /
p.MsoNormal, li.MsoNormal, div.MsoNormal
{mso-style-parent:"";
margin:0cm;
margin-bottom:.0001pt;
mso-pagination:widow-orphan;
font-size:12.0pt;
font-family:“Times New Roman”;
mso-fareast-font-family:“Times New Roman”;}
@page Section1
{size:595.3pt 841.9pt;
margin:72.0pt 90.0pt 72.0pt 90.0pt;
mso-header-margin:35.4pt;
mso-footer-margin:35.4pt;
mso-paper-source:0;}
div.Section1
{page:Section1;}

</style>
< !–[if gte mso 10]>
<style>
/
Style Definitions */
table.MsoNormalTable
{mso-style-name:“Table Normal”;
mso-tstyle-rowband-size:0;
mso-tstyle-colband-size:0;
mso-style-noshow:yes;
mso-style-parent:"";
mso-padding-alt:0cm 5.4pt 0cm 5.4pt;
mso-para-margin:0cm;
mso-para-margin-bottom:.0001pt;
mso-pagination:widow-orphan;
font-size:10.0pt;
font-family:“Times New Roman”;}
</style>
<![endif]–>
</head>
<body lang=EN-GB
style=‘tab-interval:36.0pt’>
<div class=Section1>
<p class=MsoNormal><font
size=3 face=“Times New Roman”><span style=‘font-size:
12.0pt’>Dit is een voorbeeld van hoe Microsoft Word een HTML document exporteerd</span></font></p>
</div>
</body>
</html>
[/code:1:c63b651246]

Er moet toch een tool of programma zijn die bovenstaande code kan omzetten in onderstaande. Heeft niemand daar nog aan gedacht?

[code:1:c63b651246]
<html>
<head></head>
<body>
<P>Dit is een voorbeeld van hoe Microsoft Word een HTML document exporteerd</P>
</body>
</html>
[/code:1:c63b651246]

Zucht. Tips en suggesties zijn zeer welkom.

Kun je niet de inhoud alleen (tekst zonder opmaak) kopieren, en dan zelf voorzien van XHTML tags?

Noodoplossing… misschien is er inderdaad een tool. Maar dat lijkt me gemakkelijker dan Word de html laten verzorgen en dat dan aan te gaan passen

gr

html tidy! http://www.w3.org/People/Raggett/tidy/ Balthisar Tidy is een goede Freeware oplossing voor mac os x... http://www.balthisar.com/site/index.php?module=ContentExpress&func=display&ceid=10 Tidy zit ook ingebouwd in BBEdit pro (vanaf versie 7 geloof ik.) Perfect voor dit soort situaties...

Je kan jezelf ervan verzekeren dat er altijd met de hand editing aan te pas zal komen, maar dit tooltje leek me wel nuttig: [url]http://www.infinity-loop.de/products/upcast/index.html[/url] De gratis demo lijkt me volledig functioneel. Ik zou zeggen bekijk het even en deel je ervaringen zodat iedereen hier er wat aan heeft.

Wel, er zijn misschien goeie tooltjes voor , maar zoals reeds gezegd zal je waarschijnlijk niet rondom nog wat after-editing kunnen met de hand..

Dus ik raad je eigenlijk aan om direct gewoon de tekst naar vim of emacs te sleuren, wat tags erbij te zetten, en done is done… Misschien appart css fileke maken , met meerder ID’s in, en dan kan je overal meteen de titletjes , en bepaalde soorten paragrafen mooi gelijk maken… Is niet zo veel werk hoor…

[quote:945071a1ac="Ploink!"]<P>Dit is een voorbeeld van hoe Microsoft Word een HTML document exporteerd</P> .[/quote:945071a1ac]

exorteerd? Ikdacht dat Word spellingcontrole heeft?

jan

Iedereen bedankt voor de tips... ik ontkom er niet aan nog heel wat code zelf weg te poetsen. HTML Tidy geprobeert, maar deze laat ook nog heel wat achter. Teksten opschonen gaan nog wel, maar zodra er tabellen in het Word document staan :x

Maar ja… gaan maar eens aan de slag… net nu het eindelijk zulk mooi weer is 8)

Volgens mij kun je vanuit Word zo een pagina in dreamweaver plakken, inclusief de tabellen. Ik heb even geen Word-bestand met tabel bij de hand, maar ik heb het toch echt een keer gedaan. En dan mis je dus al die ellende die MS er bij bedenkt om een mooie webpagina te maken.

Thx man! Inderdaad het ouderwetse copy&paste werkt uitstekkend. Zeker wanneer je in Dreamweaver bij het aanmaken van een nieuw document, xhtml compliant aanvinkt krijg je schone code. Super. :mrgreen: