France Hardware : Forums de discussion
Retrouvez les prix près de chez vous :  
Index du forum | Liste des membres | Liste des groupes | Inscription | F-A-Q | Recherche
Pseudo :    Password :     
22 888 membres enregistrés - 1 893 163 posts - 97 091 topics
Index des forums FH  | Index des forums DegroupNews
      Programmation
           [MAJ 1er post] Moteur de recherche local
18 connectés(record : 207 le 05 juin 2007 - 05 h 23)

Vous devez vous connecter pour répondre au topic.
Precedent | 1,2
[MAJ 1er post] Moteur de recherche local

bernie38
Waldorf (le pote à Statler)

Messages : 11 420
Inscrit le 28/08/03
Ville : Claix
Non connecté
  Posté le 06 juillet 2005 - 11 h 10 m 47 s
Reprise du message précédent :



Le 06 juillet 2005 - 10 h 53, Erel69 a écrit :


Le 06 juillet 2005 - 10 h 27, cutterman a écrit :
Problème : les fichiers htm et doc... comment zapper tout ce qui est balises ?


Java n'a pas une fonction du genre de strip_tags en php ?

hé, on va pas mélanger java et php (c'est comme torchon/serviette) ! :lol:
non, non, y'a javax.xml.parsers avec xerces qui font ça extrèmement bien !



La Montagne n'est pas dangereuse : on ne peut qu'y perdre la vie, tandis qu'en ville on devient bête et méchant
Voltaire


gege38
Chief of the
(¯`·.__[T3aM.BouL3T©]__.·´¯)
Potatoe Reloaded

Messages : 14 099
Inscrit le 05/02/03
Ville : Domène
Non connecté
  Posté le 06 juillet 2005 - 11 h 28 m 07 s
Oui, sauf que SAXParser fourni avec javax.xml.parsers lit mal les HTML (expérience inside) pour une simple et bonne raison : ils sont mal formés (ce ne sont pas des XHTML).

Autrement dit, le Parser se plante joyeusement sur les balises <p> par exemple :D (puisque non fermées)

Pour le HTML, j'envisage plutot (ca marche mieux, mais pas top) javax.swing.text.html.parser.Parser qui lui, a plus l'habitude de gérer du HTML pas clair...
Et bien évidemment, pas besoin d'une GUI pour l'utiliser...

Non, le problème est plutot du coté des PDF et des DOC, pour en extraire le contenu utile...
J'envisage pour PDF de faire appel à PDFToText mais je perds la portabilité... Y a pas une API Java pour lire le contenu d'un PDF ?

Et pareil pour les Word...



" Nous plaisons plus souvent dans le commerce de la vie par nos défauts que par nos qualités. "
--La Rochefoucauld


bernie38
Waldorf (le pote à Statler)

Messages : 11 420
Inscrit le 28/08/03
Ville : Claix
Non connecté
  Posté le 06 juillet 2005 - 13 h 14 m 54 s
ben c'est pas que l'API les lit mal, s'ils sont mal foutus !
:cr: à ceux qui écrivent avec leurs pieds :na:

EDIT : pour lire les pdf en java, regarde ici si tu trouves ton bonheur...

Pour word, c'est un peu plus chaud, puisque le format MS n'est pas public (mais pourtant Open Office y arrive, lui)

EDIT2 : faut-y que je vous aime, cutter et toi ! et voila un autre lien intéressant


Message édité 2 fois, la dernière par bernie38 le 06 juillet 2005 - 13 h 22.

La Montagne n'est pas dangereuse : on ne peut qu'y perdre la vie, tandis qu'en ville on devient bête et méchant
Voltaire


gege38
Chief of the
(¯`·.__[T3aM.BouL3T©]__.·´¯)
Potatoe Reloaded

Messages : 14 099
Inscrit le 05/02/03
Ville : Domène
Non connecté
  Posté le 06 juillet 2005 - 14 h 02 m 15 s


Le 06 juillet 2005 - 13 h 14, bernie38 a écrit :
ben c'est pas que l'API les lit mal, s'ils sont mal foutus !
:cr: à ceux qui écrivent avec leurs pieds :na:


Heu, mon Bebert, tu confonds HTML et XHTML :rougir:

Le HTML n'est pas du XML, donc on ne peut pas raisonnablement utiliser un parser XML ;)
Et pourtant, il peut être très bien écrit, c'est juste une caractéristique intrinsèque au langage ;) (j'ai cité l'exemple du tag <p>)




EDIT : pour lire les pdf en java, regarde ici si tu trouves ton bonheur...

Pour word, c'est un peu plus chaud, puisque le format MS n'est pas public (mais pourtant Open Office y arrive, lui)

EDIT2 : faut-y que je vous aime, cutter et toi ! et voila un autre lien intéressant


Je vais jeter un coup d'oeil :jap:



" Nous plaisons plus souvent dans le commerce de la vie par nos défauts que par nos qualités. "
--La Rochefoucauld


cutterman
Veni Vidi Banni

Messages : 51 509
Inscrit le 01/06/02
Ville : Tant que ça pue moins qu'ici...
Non connecté
  Posté le 11 juillet 2005 - 13 h 53 m 57 s
Gégé si tu m'entends, m'oublie pas hein :D



8)

gege38
Chief of the
(¯`·.__[T3aM.BouL3T©]__.·´¯)
Potatoe Reloaded

Messages : 14 099
Inscrit le 05/02/03
Ville : Domène
Non connecté
  Posté le 11 juillet 2005 - 13 h 56 m 05 s
Ah ouais, c'est vrai :dd:

Bon, je vais regarder ça ce soir :D



" Nous plaisons plus souvent dans le commerce de la vie par nos défauts que par nos qualités. "
--La Rochefoucauld


cutterman
Veni Vidi Banni

Messages : 51 509
Inscrit le 01/06/02
Ville : Tant que ça pue moins qu'ici...
Non connecté
  Posté le 11 juillet 2005 - 13 h 56 m 49 s
:nrv:

Tu penses même pas à moi :cry:

Tout ça parce que je ne suis plus là pour payer de mon corps :(



8)

gege38
Chief of the
(¯`·.__[T3aM.BouL3T©]__.·´¯)
Potatoe Reloaded

Messages : 14 099
Inscrit le 05/02/03
Ville : Domène
Non connecté
  Posté le 11 juillet 2005 - 14 h 03 m 40 s


Le 11 juillet 2005 - 13 h 56, cutterman a écrit :
Tout ça parce que je ne suis plus là pour payer de mon corps :(


Bah voilà, tu as tout compris :dd:



" Nous plaisons plus souvent dans le commerce de la vie par nos défauts que par nos qualités. "
--La Rochefoucauld


kha
Google is your best friend

Messages : 1 235
Inscrit le 01/03/02
Ville : Montreal
Non connecté
  Posté le 11 juillet 2005 - 16 h 11 m 14 s
http://schmidt.devlib.org/java/libraries-pdf.html
jsavais pas que adobe fournissais un JavaBean :) ca peut etre interessant...




gege38
Chief of the
(¯`·.__[T3aM.BouL3T©]__.·´¯)
Potatoe Reloaded

Messages : 14 099
Inscrit le 05/02/03
Ville : Domène
Non connecté
  Posté le 16 septembre 2005 - 14 h 31 m 09 s
:up:

Je fais remonter le topic pour vous faire part du feedback PDF :
J'ai testé plusieures librairies :
- Adobe Acrobat JavaBean : bof, mal documenté, et je ne suis pas arrivé à compiler mon programme pour cause de classpath...
- PJX : intéressant, mais trop compliqué pour mes besoins (nécéssité de connaître la structure du PDF)
- PDFBox : celui que j'ai utilisé. Simple d'utilisation et bons résultats. Seul défaut : un peu gros à mon goût (2 Mo quand même !)

Relatif à MS Word, regardez ce que j'ai trouvé :D :
http://jakarta.apache.org/poi/index.html

Je teste ça ce soir !



" Nous plaisons plus souvent dans le commerce de la vie par nos défauts que par nos qualités. "
--La Rochefoucauld


Precedent | 1,2
Page genérée en 0.4050 secondes par RahForum 2.0 | Gzip off |  Stats |  Metaforums |  RSS
© 2004 Cerbere Systems.
Prix Matériel Informatique | Informatique Lyon | Informatique Grenoble | Informatique Annecy | Informatique Marseille | Informatique Bordeaux | Forum Informatique
ADSL |Actualité ADSL | e-commerce | Commande Au Volant
Creative Commons
Message Boards and Forums Directory