Parseurs à extraction HTML

Ce type de parseur analyse le code HTML et extrait des données d’un élément. Pour ce faire, il faut spécifier un « CSS Selector », qui peut consister en toute valeur valide et comprise par la bibliothèque QueryPath (QueryPath est d’une exécution similaire à jQuery). Comme exemple courant, on pourrait choisir un élément par son identifiant (p. ex. « #my_element_id ») ou par sa classe (p. ex. « .my_element_class »). Vous pouvez également combiner ces deux valeurs en les séparant par un espace.

Il y a trois façons d’extraire des données de l’élément après l’avoir sélectionné, en choisissant un « Parser Mode » :

  • Attribute : Cette option sélectionne la valeur d’un certain attribut, comme « href » ou « src ». En choisissant cette option, vous verrez apparaître un autre champ de texte où il faut saisir le nom de l’attribut.
  • Inner HTML : Sélectionne le contenu HTML à l’intérieur de l’élément, sans sélectionner la balise comme telle de l’élément. Par exemple, si vous aviez « <div id=’my_div’><p>hello world</p></div> », cette option ne sélectionnerait que « <p>hello world</p> ».
  • Outer HTML : Sélectionne le contenu HTML, y compris l’élément lui-même.

Il y a également une sélection « Character Encoding » – en général l’option « auto » fonctionne parfaitement, mais si vous voyez des caractères inusités dans votre importation il vous faudra peut-être changer ce paramètre au profit de l’encodage de caractères de vos données sources.

Les parseurs à extraction HTML ont la propriété particulière d’analyser automatiquement un champ anglais ET un champ français en appliquant la même logique aussi bien à l’URL anglaise de votre objet de page Sitecopy qu’à l’URL française. Cela signifie que vous n’avez pas besoin de mappeurs sensibles à la langue (voir la section sur les mappeurs) pour incorporer à votre objet des propriétés sensibles à la langue.

» Envoyer vos commentaires
    État: 
  • Accepté
    Sujets: 
  • Soutien
    Types: 
  • Guide d'usager
Haut de page