Python regex matching Url

0

Otázka

Mám seznam v textovém souboru z adresy Url s některé nežádoucí texty jsem napsal regex, která bude splňovat mé potřeby a že je práce v pořádku, ale já jsem čelí problému, kde regex přidat do výstupního nežádoucí vzorků ["] níže příklady:

obsah souboru seznam adres Url:

http://www.example.com/52                   (Status: 403) [Size: 919]
http://www.example.com/details              (Status: 403) [Size: 919]
http://www.example.com/h                    (Status: 403) [Size: 919]
http://www.example.com/affiliate            (Status: 403) [Size: 919]
http://www.example.com/56                   (Status: 403) [Size: 919]

regulární výrazy, které jsem použil je: "^[://.a-zA-Z0-9-_]*"

výstup, jak je uvedeno níže:

['http://www.example.com/52']
['http://www.example.com/details']
['http://www.example.com/h']
['http://www.example.com/affiliate']
['http://www.example.com/56']

Potřebuji výstup jako následující:

http://www.example.com/52
http://www.example.com/details
http://www.example.com/h
http://www.example.com/affiliate
http://www.example.com/56

kód použitý pro tento program níže:

import re

with open("test.txt","r") as test:
    for i in test:
        x = re.findall("^[://.a-zA-Z0-9-_]*",i)
        print(x)
python python-3.x re regex
2021-11-22 04:26:30
1

Nejlepší odpověď

0

findall vytváří seznam řetězců, můžete buď vytisknout první prvek v důsledku print(x[0]) nebo stačí použít match místo pro tento případ použití, protože tam je 1 url na řádek.

with open("test.txt","r") as test:
    for i in test:
        x = re.match(r"[://.a-zA-Z0-9-_]*", i)
        print(x.group(0))
2021-11-22 04:43:38

V jiných jazycích

Tato stránka je v jiných jazycích

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................