Extraction de données suivant un pattern en shell ou perl

**falco-** · 20/01/2022, 16h57

Bonjour,
Je dois récupérer tout le contenu des url pour être importé dans un autre plug-in ....

j'ai ceci sur une seule ligne qui doit comporter a peu près 1500 lignes

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
{"notFirstRun4052":true,"isOldUser":true,"config":{"mandatoryButtonClicked":true,"enableMandatory":true,"enableSync":true,"showPremiumOverlay":true,"showWhatsNewOverlay":true,"showWorkModeTimeFav
Icon":true,"welcomeButtonClicked":false,"numberOfTimesSettingsPageShown":13,"EnabledBlockSite":true,"extension_id":"35","enable_context_menu":true,"firstLaunch":true,"stats":true,"gaCid":"0.67748
41583829284-0.301988514585637-0.657508194241786","password-options":true,"enable_blocked_words_spec":true,"isPrivacyAgreed":true,"welcomeShowed":true,"showPrivacy":false,"motivationImages":true,"
countBlocking":33,"retensionData":{"installDate":1542357805404,"sentDays":{"3":true,"4":true,"5":true,"6":true,"34":true,"67":true,"69":true,"70":true,"71":true,"72":true,"73":true,"74":true,"75"
:true,"76":true,"77":true,"78":true,"79":true,"80":true,"81":true,"101":true,"102":true,"103":true,"104":true,"105":true,"116":true,"123":true,"136":true,"142":true,"163":true,"164":true,"170":tr
ue,"340":true,"696":true,"698":true,"699":true,"704":true,"705":true,"1095":true,"1109":true,"1110":true,"1111":true,"1116":true},"lastAliveTime":1545298871360,"completed":true},"showAddSiteTutor
":false,"redirectTutorShowed":true,"blockedType":"block","showSyncButton":true,"cachedUntil":1638779527585,"showRedirectConsolidationMessage":false},"blockedSites":[{"url":"catalogue.univ-lyon3.f
r","count":0},{"url":"eu.libcal.com","count":0},{"url":"eu.libauth.com/saml/module.php/saml/disco.php","count":0},{"url":"eu.libauth.com/saml/module.php/core/authenticate.php","count":0},{"url":"
reservation.bibliotheque-bibb.fr","count":0},{"url":"bibliotheque-bibb.libcal.com","count":0},{"url":"bibliotheque-bibb.libcal.com/equipment/checkout/auth?","count":0},{"url":"idp.aecly
on.fr","count":0},{"url":"cas.aeclyon.fr","count":0},{"url":"sudoc.abes.fr","count":0},{"count":0,"url":"bibliotheque-bibb.org"},{"count":0,"url":"books.google.com"},{"count":0,"url":"catalog
.loc.gov"},{"count":0,"url":"aeclsh.fr"},{"count":0,"url":"images.amazon.com"},{"count":0,"url":"scholar.google.com"}

Je dois extraire les url et avoir en sortie un fichier de la sorte : en fait extraire ce qui est après "url" :
Une ligne par url comme :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
 
catalogue.univ-lyon3.fr
reservation.bibliotheque-bibb.fr
bibliotheque-bibb.libcal.com
...

avez-vous une idée ?
Je dois le faire en awk et/ou en Perl ?

Il y a bien des façons de faire avec sed ou awk mais sur un pattern qui se répète comment faire ?

Merci beaucoup

**disedorgue** · 20/01/2022, 20h15

un simple grep -Po '"url":"\K[^"]*' fichier devrait le faire si le pattern est toujours respecté (et que ton grep supporte l'option -P)

**N_BaH** · 20/01/2022, 20h26

Bonjour,

le JSON se traite avec un parser JSON (jq,...), ou un langage pouvant charger un module qui permettra de la traiter, si nécessaire.

mais, dans ce cas particulier, où le format est clairement défini (tout est sur une seule ligne), c'est en effet faisable en sed; cherche "multiple pattern same line".

edit: grilled!

grep peut le faire, très simplement.

**falco-** · 21/01/2022, 10h33

Bonjour,
merci beaucoup.
Je n'arrivais pas avec ce pattern. C'est parfait disedorgue

C'est vrai que j'avais fait il y a quelque temps des analyses de fichiers json en objective C et Talend mais là il fallait le faire une seule fois en script c'est plus rapide et plus simple

Merci à vous deux.

**falco-** · 24/01/2022, 18h29

Re-bonjour,
je dois ajouter un * avant chaque url pour pouvoir être intégré dans le nouveau plug-in

j'ai donc fait :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
sed  -e 's,"url":","url":"*' fich
et
 grep -Po '"url":"\K[^"]*' fich

Peut-on le faire en seul ligne avec le grep ? Merci à vous

PS : J'ai des doublons en sortie de grep -Po '"url":"\K[^"]*' fich avez-vous une idée comment les enlever ? Merci

Comme :

grep -Po '"url":"\K[^"]*' fich | grep nature
nature.com
search.nature.com
nature.com
search.nature.com

**disedorgue** · 24/01/2022, 20h23

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

perl -lne '$a{$_}=1 for /"url":"\K[^"]*/g;END{foreach(keys %a){print "*$_"}}' fichier

remplace le sed et le grep et vire les doublons.

**falco-** · 24/01/2022, 21h03

Rapidité, efficacité que dire de plus ...
Champion toutes catégories ...
Merci beaucoup

Extraction de données suivant un pattern en shell ou perl

Shell et commandes GNU

Vue hybride

Discussions similaires

Partager

Partager