Python regex matching Url

Question 1

Mám seznam v textovém souboru z adresy Url s některé nežádoucí texty jsem napsal regex, která bude splňovat mé potřeby a že je práce v pořádku, ale já jsem čelí problému, kde regex přidat do výstupního nežádoucí vzorků ["] níže příklady:

obsah souboru seznam adres Url:

http://www.example.com/52                   (Status: 403) [Size: 919]
http://www.example.com/details              (Status: 403) [Size: 919]
http://www.example.com/h                    (Status: 403) [Size: 919]
http://www.example.com/affiliate            (Status: 403) [Size: 919]
http://www.example.com/56                   (Status: 403) [Size: 919]

regulární výrazy, které jsem použil je: "^[://.a-zA-Z0-9-_]*"

výstup, jak je uvedeno níže:

['http://www.example.com/52']
['http://www.example.com/details']
['http://www.example.com/h']
['http://www.example.com/affiliate']
['http://www.example.com/56']

Potřebuji výstup jako následující:

http://www.example.com/52
http://www.example.com/details
http://www.example.com/h
http://www.example.com/affiliate
http://www.example.com/56

kód použitý pro tento program níže:

import re

with open("test.txt","r") as test:
    for i in test:
        x = re.findall("^[://.a-zA-Z0-9-_]*",i)
        print(x)

Question 2

findall vytváří seznam řetězců, můžete buď vytisknout první prvek v důsledku print(x[0]) nebo stačí použít match místo pro tento případ použití, protože tam je 1 url na řádek.

with open("test.txt","r") as test:
    for i in test:
        x = re.match(r"[://.a-zA-Z0-9-_]*", i)
        print(x.group(0))

Zhenhir · Answer 1 · 2021-11-22T04:43:38

findall vytváří seznam řetězců, můžete buď vytisknout první prvek v důsledku print(x[0]) nebo stačí použít match místo pro tento případ použití, protože tam je 1 url na řádek.

with open("test.txt","r") as test:
    for i in test:
        x = re.match(r"[://.a-zA-Z0-9-_]*", i)
        print(x.group(0))

Python regex matching Url

Otázka

Nejlepší odpověď

V jiných jazycích

Tato stránka je v jiných jazycích

Populární v této kategorii

Oblíbené položky v této kategorii