[Previo por Fecha] [Siguiente por Fecha] [Previo por Hilo] [Siguiente por Hilo]

[Hilos de Discusión] [Fecha] [Tema] [Autor]

Re: [Ayuda] Alguien conoce alguna extension o parecido de TIDY para hacerlo func



Es probable que haya bindings de Tidy para PERL (o sea, un modulo). El Perl para Windows se llama Active Perl, de la compania Active State. Creo que Perl seria el lenguaje ideal para esto.

Si yo fuera tu, bajaria antiword, y usaria wget para bajar el documento, luego antiword para convertir el chunche a docbook y de alli convertiria a HTML a patita (o con un filtro de docbook modificado, solo que son medio pesados). Todo esto se podria realizar con un solo script de perl, al que nomas le pasarias la fecha o algun parametro que permitiera automaticamente generar el url de donde se baja el documento word.

Otra posibilidad tambien es que los documentos OpenOffice son en realidad archivos .zip que tienen adentro archivos xml, entre otros. Alli el principal es content.xml, de manera que podrias abrir el archivo con openoffice y guardarlo en formato nativo de oo, y luego ejecutar un script en Perl que abriera el Zip (hay un modulo para eso) y luego convirtiera el content.xml (que es muy sencillo) a HTML directamente: a diferencia de Word, el formato abierto de OO es una maravilla, y MUY abierto. Ademas, hay dos tres parsers de XML ya hechos (Xpat, XML-Simple y Spartan), con los que rapidamente podrias hacer tu filtro personalizado... o podrias usar tambien xslt, si te quieres ver moderno.

Abre con el winzip un archivo openoffice de oowriter y checa los adentros... veras que el content.xml ya te da la solucion casi peladita.

Saludos,
Arturo

From: Iván Caballero Cano <ivanc en grupocti com mx>
To: Arturo Espinosa-Aldama <arturoea en hotmail com>,  Ayuda en linux org mx
Subject: Re: [Ayuda] Alguien conoce alguna extension o parecido de TIDY para hacerlo func
Date: Thu, 14 Apr 2005 11:30:49 -0500

Gracias Arturo, mira de hecho tengo el plugin TIDY para dreamweaver que si me funciona para lo que deseo, pero esto me implica hacer mas pasos ya que primero tengo que pegar el Documento Word a Oppen Office en la modalidad de creacion de pagina web y luego extraer el HTML generado por Open Office y pegarlo a DreamWeaver, luego le paso el pluggin de TIDY y luego tengo que limpiar todas las clases de CSS para ponerles las mias. Como ves es un proceso que si funciona pero esta un poco largo de realizar. Por eso estaba buscando el plug in de tidy para Open Office y me ahorro todo los pasos que tienen que ver con Dream Weaver. Usar Antiword, supongo que tambien debe funcionar, pero igualmente creo que serian tambien mas pasos a seguir. Me doy a entender??? Tal vez aqui es donde veo la necesidad de yo crearme un programa libre para realizar de un solo paso la conversion de un documento word a HTML usando tambien TIDY...Eso si que seria bueno no?? Aunque creo que seria complicado de programa, primero tendria que integrar un software libre de convercion de word a HTML y luego ya pasarle el TIDY, pero todo en un solo programa creado en ... no se.. tal vez pascal de la Gnu...algo asi.


Hola, Ivan.

Te recomiendo el sitio http://freshmeat.net/ donde hay un montón de software que no viene en el disco. No sé si estés programando tu sitio en PHP, pero si es asi, este software te puede ser de gran ayuda:

http://freshmeat.net/projects/servoo/

Y hay otro que se llama antiword que convierte de doc a docbook, el cual seria ya trivial de convertir a HTML con estilos y toda la cosa:

http://freshmeat.net/projects/antiword/

Y por cierto, a toda la banda: es mejor que expliquen desde el principio qué están haciendo, en vez de que nomás digan en qué detallito ínfimo se están atorando, porque a veces es mejor replantear todo el proceso usando algún programa que esté mejor adaptado al problema real.

El antiword jala en windows. Qué lástima que estés usando windows, porque UNIX le parte la madre en el área de automatización de procesos. Te recomendaría poner una maquinita Linux leve que hiciera estos procesos por tí, con un servidorcito SAMBA para integrar todo el rollo con el resto de tu sistema.

Saludos,
Arturo

From: Iván Caballero Cano <ivanc en grupocti com mx>
To: Max Valdez <maxvalde en fis unam mx>,  Ayuda en linux org mx
Subject: Re: [Ayuda] Alguien conoce alguna extension o parecido de TIDY para hacerlo funcionar con Open Office?
Date: Wed, 13 Apr 2005 16:01:23 -0500

Lo que sucede es que tengo la necesidad de convertir Documentos que salen en el Diario Oficial de la federación por medio de terra ya que estoy suscrito al servicio, pero los documentos vienen en word y debo migrarlos para que se vean como Páginas Web. No tengo el tiempo necesario para convertirl los documentos a pie asi de linea por linea, pues tengo otras prioridades que urgen como actualizar la base de datos de mismo sistema. (www.legam.com.mx). Realmente tengo mucho trabajo y tengo que dar prioridad a otras cosas, pero tampoco quiero que los documentos queden tan mal hechos. Entonces lo que hago es usar open office, ahi le pegas el documento word y te lo convierte ya en HTML, pero le agrega muchas etiquetas como <font> y de otras que no necesito ya que uso hojas de estilo para formatear el documento. Tengo el plugin de TIDY para dreamweaver, pero me ahorro tiempo si puedo conseguir dicho plugin para Open Office. No estoy seguro si al pegar un documento word en Quanta me respeta las tablas asi como viene en Word, por que al menos dreamweaver no la toma en cuenta, la desaparece, pero deja los datos de la misma. Por eso es que uso Open Office, tambien con Word la puedo convertir a HTML pero me deja un HTML demasiado asqueroso.. muy malo, Open office tambien lo deja medio gacho pero no tanto como Word. Con tidy lo limpio bien pero seria mas rapido si lo hago desde el mismo open office. Los documentos que convierto son a veces muy largos y definitivamente tengo la necesidad de convertirlos a HTML de la forma mas rapida que sea posible. Si se HTML y CSS pero lo que no tengo es tiempo para hacer asi super bien hechos.
Como sea probare Quanta.. pero jalara en windows?? lo investigare.

Gracias por tu sugerencia.

Max Valdez wrote:

On Wednesday 13 April 2005 12:52 pm, Iván Caballero Cano wrote:


Alguien conoce alguna extension o algo parecido de TIDY para hacerlo
funcionar con Open Office?
Es decir no habra algun programilla por ahi para agregar un comando o
boton al OpenOffice para que
corriga las HTML que estamos creando con el editor de paginas que trae
el Open office?


Si realmente quieres eso te recomendaria usar quanta, pero supongo que prefieres seguir usando un wysiwyg y contaminar el codigo ademas de hacerlo mas grande, dificil de administrar, y gastar mas ancho de banda, etc.

Si le metieras unas 2 horas al dia durante una semana podrias aprender bien html y css y dejar de depender de que un programa haga lo que quieres sin importar la manera en la que lo haga.

Porque quieres sacarle esa funcionalidad a ooffice ?

Saludos
Max





_______________________________________________
Ayuda mailing list
Ayuda en linux org mx
Para salir de la lista: http://mail.linux.org.mx/cgi-bin/mailman/listinfo/ayuda/









_______________________________________________
Ayuda mailing list
Ayuda en linux org mx
Para salir de la lista: http://mail.linux.org.mx/cgi-bin/mailman/listinfo/ayuda/






[Hilos de Discusión] [Fecha] [Tema] [Autor]