• chevron_right

      Trafilatura – Explorez et scraper le Web avec cet outil Python

      news.movim.eu / Korben · Friday, 9 June, 2023 - 07:00 · 2 minutes

    Bonjour à tous ! Aujourd’hui, je vais vous parler d’un nouvel allié dans notre quête pour explorer et capturer l’immensité du web : Trafilatura .

    Cet outil open source codé en Python va vous permettre de collecter efficacement des textes sur des pages Web tout en simplifiant grandement la tâche des développeurs et utilisateurs. Plongeons ensemble dans les détails.

    Trafilatura est à la fois un logiciel en ligne de commande et une lib Python (+ R) développé pour répondre aux besoins spécifiques que sont le crawling mais aussi l’extraction et le traitement de texte à partir de sources Internet .

    L’outil est également capable de récupérer des métadonnées ou encore des commentaires issus des pages webs. L’idée derrière ce projet c’est réussir à ne pas se perdre dans cette jungle HTML en ne conservant que l’essentiel du contenu et en faisant abstraction du reste (sidebar, header, footer…etc). Le challenge ici est donc d’éliminer ces « éléments parasites » inutiles et de pouvoir accéder uniquement au contenu intéressant.

    Pour l’installer, c’est hyper simple avec pip :

    pip install trafilatura

    Et pour le code, voici un exemple d’utilisation :

    from trafilutura import fetch_url, extract
    
    downloaded = fetch_url('https://korben.info')
    result = extract(downloaded)
    print(result['content']) # Affiche seulement le contenu principal.

    Maintenant que vous avez une idée de ce à quoi sert Trafilatura, parlons un peu plus en détail des fonctionnalités dispo. Trafilatura est capable de gérer les sitemaps (txt et xml) ainsi que les flux (atom, json, rss). Vous pouvez lui donner des listes de liens à récupérer mais également filtrer certains contenus, voire les dé-dupliquer si besoin.

    Au niveau des sources, comme je le disais, il peut prendre en entrée une simple URL mais vous pouvez aussi lui passer directement le HTML. Il gère bien les demandes, ce qui évitera de se faire bloquer par les serveurs et vous pourrez lancer plusieurs récupérations en parallèle. Au niveau des données récupérées, je vous ai parlé des métadonnées et du texte, mais il peut aussi récupérer les liens, la mise en forme HTML et les commentaires des gens sur les pages.

    Au niveau de la sortie, il peut vous pondre du texte, du CSV, du JSON ou encore du XML.

    Vous pouvez également l’appeler directement depuis votre terminal comme ceci :

    trafilatura -u "https://korben.info"

    En résumé, Trafilatura est un outil vraiment intéressant pour tous ceux qui travaillent avec des données en provenance du web et qui veulent aller directement à l’essentiel.

    Source

    • Li chevron_right

      Orca : un séquenceur midi bizarroide (le vim de la musique électronique ?)

      max22 · pubsub.eckmul.net / linuxfr · Friday, 13 November, 2020 - 09:28 · 3 minutes

    <p>Bonjour Nal,<br> ça faisait longtemps que je ne t'avais pas écrit. Mais ces jours derniers, je suis tombé sur ce petit logiciel : <a href="https://hundredrabbits.itch.io/orca">Orca</a> (sous licence MIT). Et j'ai trouvé le concept tellement génial que je me suis dis qu'il fallait que je t'en parle.</p> <p>Vidéo de démonstration : <a href="https://www.youtube.com/watch?v=gSFrBFBd7vY">clique ici</a>.</p> <p>Ce n'est pas la vidéo de démo des créateurs, mais elle commence par une grille vide et je trouve ça bien pour illustrer la chose, et émoustiller ta curiosité de nerd.</p> <p>Orca est un séquenceur MIDI (donc il sert à faire de jolis sons avec son ordinateur ou d'autres bazars électroniques pour ceux qui ne connaissent pas). Mais c'est aussi un environnement de livecoding. On édite son programme, et il s'exécute en même temps. Et c'est un langage de programmation "ésotérique" : le programme s'écrit sur une grille en 2 dimensions, à l'aide de chiffres, de lettres, et de quelques caractères. Chaque caractère a une fonction.</p> <p>Le langage de programmation pourrait faire penser un petit peu à <a href="https://fr.wikipedia.org/wiki/Befunge" title="Définition Wikipédia">Befunge</a> qui repose aussi sur une grille 2D, mais le concept est différent car il n'y a pas de pointeur d'instruction qui se déplace. Ca me ferait un petit peu penser à un patch <a href="https://fr.wikipedia.org/wiki/Pure_Data" title="Définition Wikipédia">Pure_Data</a> en mode texte. Par exemple, les caractères prennent les entrées sur leurs côtés (à gauche ou à droite), et produisent leur sortie sur la case du dessous. (j'espère ne pas dire de bêtises car je ne l'ai pas beaucoup utilisé encore).</p> <p>Au début, quand on regarde une vidéo de quelqu'un l'utilisant (voir le lien au début du journal), on n'y comprend absolument rien. Mais l'interface minimaliste et le joyeux bordel qu'il y a dedans excite énormément la curiosité. Personnellement, cette <a href="https://www.youtube.com/watch?v=RaI_TuISSJE">vidéo</a> m'a permis de comprendre le fonctionnement.</p> <p>Un article à lire <a href="https://www.geekzone.fr/2019/05/31/hundred-rabbits-rekka-devine/">ici</a>, qui en parle mieux que moi.<br> Et un autre <a href="http://makingsound.fr/blog/orca-sequenceur-modulaire/">là</a> avec un tutoriel vidéo (que je n'ai pas encore regardé).</p> <p>Je trouve ça tellement bien que ça me donnerait presque le syndrome du tap-tempo ;) je réécrirais bien une petite version simplifiée juste pour le fun. </p> <p>Donc si tu aimes les utilitaires bizarres en mode texte, va faire un tour ici : <a href="https://hundredrabbits.itch.io/">HundredRabbits</a>. C'est le site de leurs 2 créateurs. Et Orca est une de leurs créations parmi d'autres qui sont dans le même esprit.</p> <p>Bonne journée et amusez-vous bien !</p> <div><a href="https://linuxfr.org/users/max22/journaux/orca-un-sequenceur-midi-bizarroide-le-vim-de-la-musique-electronique.epub">Télécharger ce contenu au format EPUB</a></div> <p> <strong>Commentaires :</strong> <a href="//linuxfr.org/nodes/122218/comments.atom">voir le flux Atom</a> <a href="https://linuxfr.org/users/max22/journaux/orca-un-sequenceur-midi-bizarroide-le-vim-de-la-musique-electronique#comments">ouvrir dans le navigateur</a> </p>