bernie38
Waldorf (le pote à Statler)
Messages : 11 406 Inscrit le 28/08/03
Ville : Claix
Non connecté
|
|
Posté le 06 juillet 2005 - 11 h 10 m 47 s |
|
|
Reprise du message précédent :
Le 06 juillet 2005 - 10 h 53, Erel69 a écrit :
Le 06 juillet 2005 - 10 h 27, cutterman a écrit :
Problème : les fichiers htm et doc... comment zapper tout ce qui est balises ? |
Java n'a pas une fonction du genre de strip_tags en php ?
|
hé, on va pas mélanger java et php (c'est comme torchon/serviette) ! 
non, non, y'a javax.xml.parsers avec xerces qui font ça extrèmement bien !
|
|
| |
La Montagne n'est pas dangereuse : on ne peut qu'y perdre la vie, tandis qu'en ville on devient bête et méchant
Voltaire
|
gege38
Modérateur
Chief of the (¯`·.__[T3aM.BouL3T©]__.·´¯) Potatoe Reloaded
Messages : 14 097 Inscrit le 05/02/03
Ville : Domène
Non connecté
|
|
Posté le 06 juillet 2005 - 11 h 28 m 07 s |
|
|
Oui, sauf que SAXParser fourni avec javax.xml.parsers lit mal les HTML (expérience inside) pour une simple et bonne raison : ils sont mal formés (ce ne sont pas des XHTML).
Autrement dit, le Parser se plante joyeusement sur les balises <p> par exemple  (puisque non fermées)
Pour le HTML, j'envisage plutot (ca marche mieux, mais pas top) javax.swing.text.html.parser.Parser qui lui, a plus l'habitude de gérer du HTML pas clair...
Et bien évidemment, pas besoin d'une GUI pour l'utiliser...
Non, le problème est plutot du coté des PDF et des DOC, pour en extraire le contenu utile...
J'envisage pour PDF de faire appel à PDFToText mais je perds la portabilité... Y a pas une API Java pour lire le contenu d'un PDF ?
Et pareil pour les Word...
|
|
| |
" Nous plaisons plus souvent dans le commerce de la vie par nos défauts que par nos qualités. "
--La Rochefoucauld
|
bernie38
Waldorf (le pote à Statler)
Messages : 11 406 Inscrit le 28/08/03
Ville : Claix
Non connecté
|
|
Posté le 06 juillet 2005 - 13 h 14 m 54 s |
|
|
ben c'est pas que l'API les lit mal, s'ils sont mal foutus !
 à ceux qui écrivent avec leurs pieds
EDIT : pour lire les pdf en java, regarde ici si tu trouves ton bonheur...
Pour word, c'est un peu plus chaud, puisque le format MS n'est pas public (mais pourtant Open Office y arrive, lui)
EDIT2 : faut-y que je vous aime, cutter et toi ! et voila un autre lien intéressant
|
|
| |
Message édité 2 fois, la dernière par bernie38 le 06 juillet 2005 - 13 h 22. |
| |
La Montagne n'est pas dangereuse : on ne peut qu'y perdre la vie, tandis qu'en ville on devient bête et méchant
Voltaire
|
gege38
Modérateur
Chief of the (¯`·.__[T3aM.BouL3T©]__.·´¯) Potatoe Reloaded
Messages : 14 097 Inscrit le 05/02/03
Ville : Domène
Non connecté
|
|
Posté le 06 juillet 2005 - 14 h 02 m 15 s |
|
|
Le 06 juillet 2005 - 13 h 14, bernie38 a écrit :
ben c'est pas que l'API les lit mal, s'ils sont mal foutus !
à ceux qui écrivent avec leurs pieds 
|
Heu, mon Bebert, tu confonds HTML et XHTML
Le HTML n'est pas du XML, donc on ne peut pas raisonnablement utiliser un parser XML
Et pourtant, il peut être très bien écrit, c'est juste une caractéristique intrinsèque au langage  (j'ai cité l'exemple du tag <p>)
EDIT : pour lire les pdf en java, regarde ici si tu trouves ton bonheur...
Pour word, c'est un peu plus chaud, puisque le format MS n'est pas public (mais pourtant Open Office y arrive, lui)
EDIT2 : faut-y que je vous aime, cutter et toi ! et voila un autre lien intéressant
|
Je vais jeter un coup d'oeil
|
|
| |
" Nous plaisons plus souvent dans le commerce de la vie par nos défauts que par nos qualités. "
--La Rochefoucauld
|
cutterman
Veni Vidi Banni
Messages : 51 509 Inscrit le 01/06/02
Ville : Tant que ça pue moins qu'ici...
Non connecté
|
|
Posté le 11 juillet 2005 - 13 h 53 m 57 s |
|
|
Gégé si tu m'entends, m'oublie pas hein
|
|
| |
|
gege38
Modérateur
Chief of the (¯`·.__[T3aM.BouL3T©]__.·´¯) Potatoe Reloaded
Messages : 14 097 Inscrit le 05/02/03
Ville : Domène
Non connecté
|
|
Posté le 11 juillet 2005 - 13 h 56 m 05 s |
|
|
Ah ouais, c'est vrai
Bon, je vais regarder ça ce soir
|
|
| |
" Nous plaisons plus souvent dans le commerce de la vie par nos défauts que par nos qualités. "
--La Rochefoucauld
|
cutterman
Veni Vidi Banni
Messages : 51 509 Inscrit le 01/06/02
Ville : Tant que ça pue moins qu'ici...
Non connecté
|
|
|
| |
|
gege38
Modérateur
Chief of the (¯`·.__[T3aM.BouL3T©]__.·´¯) Potatoe Reloaded
Messages : 14 097 Inscrit le 05/02/03
Ville : Domène
Non connecté
|
|
|
| |
" Nous plaisons plus souvent dans le commerce de la vie par nos défauts que par nos qualités. "
--La Rochefoucauld
|
kha
Google is your best friend
Messages : 1 235 Inscrit le 01/03/02
Ville : Montreal
Non connecté
|
|
|
| |
|
gege38
Modérateur
Chief of the (¯`·.__[T3aM.BouL3T©]__.·´¯) Potatoe Reloaded
Messages : 14 097 Inscrit le 05/02/03
Ville : Domène
Non connecté
|
|
Posté le 16 septembre 2005 - 14 h 31 m 09 s |
|
|
Je fais remonter le topic pour vous faire part du feedback PDF :
J'ai testé plusieures librairies :
- Adobe Acrobat JavaBean : bof, mal documenté, et je ne suis pas arrivé à compiler mon programme pour cause de classpath...
- PJX : intéressant, mais trop compliqué pour mes besoins (nécéssité de connaître la structure du PDF)
- PDFBox : celui que j'ai utilisé. Simple d'utilisation et bons résultats. Seul défaut : un peu gros à mon goût (2 Mo quand même !)
Relatif à MS Word, regardez ce que j'ai trouvé  :
http://jakarta.apache.org/poi/index.html
Je teste ça ce soir !
|
|
| |
" Nous plaisons plus souvent dans le commerce de la vie par nos défauts que par nos qualités. "
--La Rochefoucauld
|