# Reguläre Ausdrücke
## Hintergrund
Reguläre Ausdrücke (engl. Regular Expressions) dienen dazu, Texte bzw. Textpassagen zu beschreiben, um sie analysieren zu können. Speziell unter UNIX werden Reguläre Ausdrücke gerne für Verarbeitungsskripte verwendet, da hier sehr einfach auf die Ausgaben von Batchprogrammen zugegriffen werden kann und mit Hilfe des Programms „grep“ (**g**lobal/**r**egular **e**xpression/**p**rint) die gewünschten Inhalte gesucht werden können.
Die Anwendung von Regulären Ausdrücken auf Texte erfolgt durch entsprechende Implementierungen, welche (leider) unterschiedliche Funktionsumfänge und Dialekte hervorgebracht haben. Hierbei wird auch zwischen den grundlegenden (basic) und den erweiterten (extended) Regulären Ausdrücken unterschieden.

Die drei wichtigsten Anwendungsfälle von Regulären Ausdrücken sind:
- Prüfen von Konventionen
- Ersetzen von Werten
- Suchen (und ausgeben) von relevanten Textbereichen

In den meisten Programmiersprachen ist das Aufteilen von Strings in ein Array ebenfalls über einen Regulären Ausdruck gelöst. Wenn wir bspw. den String `myStr = "Mo;Di;Mi;Do;Fr"` in ein Array zerlegen wollen, so wird dies bspw. in Python mit `split(";", myStr)` bzw. in Java mit `myStr.split(";")` erledigt. Diese Erkenntnis ist deshalb wichtig, da wir bei Regulären Ausdrücken manche Zeichen escapen müssen. Der String  `myStr = "Mo|Di|Mi|Do|Fr"` muss in Python bspw. mit `split("\\|", myStr)` zerlegt werden.
<br><br>Das hier vorliegende Dokument dient dazu, die wesentlichen Elemente von Regulären Ausdrücke zu verstehen, anzuwenden und und zu Üben. Da wir mit einem Jupyter Notebook arbeiten, nutzen wir als Regex Processor die Python Funktionalität "re".

## Nutzung von Regulären Ausdrücken in Python
Die Bibliothek für Reguläre Ausdrücke heißt "re" und wird wie folgt importiert:
<br>`import re`
<br>Allerdings wurde nun eine neue Bibliothek erstellt, welche einen größeren Funktionsumfang hat. Diese werden wir in diesem Tutorial nutzen. Um sie verwenden zu können, müssen wir sie allerdings zuerst über pip installieren:
<br>`pip install regex`
<br>Danach kann sie importiert werden:

In [None]:
import regex

Damit stehen die Funktionalitäten im "regex" - Objekt zur Verfügung. Als nächstes wollen wir die drei primären Anwendungsfälle prüfen, ersetzen und suchen anwenden. Die Details der hierbei verwendeten Regulären Ausdrücke werden wir im Nachgang klären.
## Prüfen von Konventionen
Hierunter versteht man, dass ein String daraufhin überprüft wird, ob er vorgegebenen Anforderungen entspricht. Sehen wir uns hierfür die beiden Strings an:
<br>`123.143`
<br>`123,143`
<br>Angenommen, wir wollen den String in einen Gleitkommawert parsen, so würde der erste Wert funktionieren, der zweite jedoch einen Fehler verursachen. Führen Sie den Code mit ` myString = "123.143" ` und ` myString = "123,143" ` aus:

In [None]:
myString = "123.143"
print(float(myString))

Wir können nun mit Hilfe eines Regulären Ausdrucks prüfen, ob das Parsen erfolgreich sein würde. Die einfachste Möglichkeit in Python ist es, den match direkt anzuwenden. Hierbei gilt folgender Syntax:
<br>`match(`*regex*`,`*String*`,`*flags*`)`
<br>wobei die Flags optional sind. Der Reguläre Ausdruck für das Finden von korrekt formatierten float-Zahlen lautet: 
<br>`^\d*\.?\d+$`
<br>Da der Backslash in Python jedoch escaped werden muss, schreiben wir vor jeden Backslash einen weiteren:

In [None]:
if regex.match('^\\d*\\.?\\d+$', "123.456", regex.IGNORECASE):
    print("OK")
    print(float(myString))
else:
    print("not OK")

## Ersetzen von Werten
Hier suchen wir mit einem Ausdruck Textfragmente und erstetzen sie durch einen Ersatzsstring:
<br>`regex.sub("`*regex*`", "`*Replacement*`", "`*suchstring*`, `*flags*`)`
<br>wobei die Flags wieder optional sind.

In [None]:
print(regex.sub(";", "_", "Mo;Di;Mi;Do;Fr"))

## Suchen (und ausgeben) von relevanten Textbereichen
Hier ist zu beachten, dass wir 0, 1 oder mehrere Matches erhalten können. Die Python Funktion hierfür lautet:
<br>`regex.findall(`*regex*`,`*String*`,`*flags*`)`
<br>Der Rückgabewert dieser Funktion ist ein Array mit allen Fundstellen, welches wir mit einer for-each Schleife abarbeiten können. Ein Regulärer Ausdruck zum Finden aller Wörter, die mit einem Großbuchstaben beginnen lautet:
<br>`\b[A-ZÄÖÜ]\S+\b`

In [None]:
srch = regex.findall('\\b[A-ZÄÖÜ]\\S+\\b', "eins Zwei drei Vier Fünf sechs Sieben")

for element in srch:
    print(element)

## Syntax von Regulären Ausdrücken
### Identifikation von Zeichen
In den folgenden Kapiteln werden wir die Funktioalität von Regulären Ausdrücken untersuchen. Hierbei nutzen wir die Ersetzung - somit können wir exakt feststellen, welcher Teil des untersuchten Strings einen Match darstellt, da er mit dem Ersetzungszeichen belegt wurde. Der einfachste Reguläre Ausdruck ist einfach nur ein Zeichen. Sehen wir uns hierfür folgende Ersetzung an:

In [None]:
print(regex.sub("u", "+", "Berufsschule7"))

Das Pattern ist einfach nur `u`, wodurch jede Fundstelle des Buchstaben "u" mit dem Replacement (in unserem Fall "+") ersetzt wird. Wenn das Flag `regex.IGNORECASE` gesetzt wurde, dann würde sowohl "u", als auch "U" gefunden. Wenn wir nun als Pattern `ul` setzen, so wird wieder entsprechend jede Fundstelle von "ul" ersetzt:

In [None]:
print(regex.sub("ul", "+", "Berufsschule7"))

Wichtig ist nun, dass wir alle funktionalen Zeichen escapen müssen. Hier die wichtigsten:
<br>`. ^ $ * + - ? ( ) [ ] { } \ |`
<br>Nochmal zur Erinnerung - wir das Escapezeichen in den Regulären Ausdrücken ist der Backslash `\`. Python nutzt nun aber auch den Backslash als Escapezeichen. Dies können wir an folgenden beiden Ausgabebefehlen sehen:

In [None]:
print("hallo\nwelt")
print("hallo\\nwelt")

Wenn wir also einen Punkt zu einem Komma ersetzten wollen, dann dürfen wir nicht schreiben:
<br>`print(regex.sub(".", ",", "Berufsschule.7"))`
<br>sondern:
<br>`print(regex.sub("\\.", ",", "Berufsschule.7"))`

In [None]:
print(regex.sub(".", ",", "Berufsschule.7"))
print(regex.sub("\\.", ",", "Berufsschule.7"))

Überlegen Sie sich vor diesem Hintergrund, wie Sie in folgendem String die `\` Zeichen durch `|` Zeichen ersetzen können:
<br>`"Mo\Di\Mi\Do\Fr"`

In [None]:
# Ergänzen Sie den Code:
print(regex.sub("", "", "Mo\Di\Mi\Do\Fr"))

Zeilen und Linienterminatoren sind mitunter gesondert zu behandeln. Zum einen unterscheiden sie sich bei Windows und UNIX Systemen und zum anderen gibt es hierfür eigene Sonderzeichen als "Grenzen" (siehe Unten).
### Zeichengruppen
Hierunter versteht man die Möglichkeit, mehrere Zeichen in Gruppen zusammenzufassen. Hier unterscheiden wir die eigene Gruppenbildung und die vordefinierten Gruppen. Beginnen wir mit den eigen definierten Gruppen. Hierzu dienen die eckigen Klammern `[]`. Werte, die in diesen Klammern stehen, werden als "oder" Gruppen gewertet. Alle Vokale (a, e, i, o, u) können also wie folgt identifiziert werden: 
<br>`[aeiou]`
<br>Ersetzen Sie nun im String `Berufsschule7` alle Vokale durch ein `+`:

In [None]:
print(regex.sub("", "+", "Berufsschule7"))

Nun ist es auch möglich, die Gruppeninhalte zu invertieren. Hierzu schreiben wir nach der öffnenden Klammer `[` ein Zirkumflexzeichen `^`. Die Menge `[^aeiou]` findet also alle Zeichen, welche keine Vokale sind. Aber Achtung - hier zählen dann wirklich **alle** Zeichen dazu, nicht nur die Buchstaben! Insofern können wir hier nicht behaupten, wir würden alle *Konsonanten* ersetzen. Probieren wir es aus:

In [None]:
print(regex.sub("", "+", "Berufsschule7"))

In ASCII zusammenhängende Zeichen können mit einem Bindestrich zusammengefasst werden. Ersetzen Sie nun alle Buchstaben `[a-f]` mit einem `+`: 

In [None]:
print(regex.sub("", "+", "Berufsschule7"))

Bei einzelnen Zeichen konnten wir diese beliebig aneinanderhängen (bspw. `ul`). Man spricht hier von "concatenation". Dies geht bei Zeichengruppen auch. Die Zeichengruppe `[aeiou]` identifizierte alle Vokale, `[a-f]` alle Buchstaben a-f. Konsequenterweise findet `[aeiou][a-f]` somit alle Vokale gefolgt von einem Buchstaben a-f. Testen wir es:

In [None]:
print(regex.sub("", "+", "Berufsschule7"))

Neben dem Aneinanderhängen von Elementen, gibt es noch den "union". Dies wird zwar am einfachsten in der Gruppe erledigt - bspw. `[aeioua-f]`, es ist jedoch auch möglich, diese beiden Gruppen `[aeiou]` und `[a-f]` explizit mit einem ODER zusammenzuhängen: `[aeiou]|[a-f]`. Ergänzen Sie den Code:

In [None]:
print(regex.sub("", "+", "Berufsschule7"))

Nun können wir noch Schnittmengen bilden - die "intersections". Hierzu wird eine äußere Gruppe gebildet, bspw. `[a-z]` und diese wird mit einer zweiten Menge "geschnitten" - sagen wir alle "nicht Vokale" `[^aeiou]`, wodurch wir alle Konsonanten erhalten. Dies würde bspw. in Java mit dem doppelten `&`, also "Ampersand" Zeichen durchgeführt werden:
<br>`[a-z&&[^aeiou]]`
<br>Die Python Implementierung geht hier allerdings einen anderen Weg. Der hierfür entsprechende Syntax wäre:
<br>`[[a-z]--[aeiou]]`
<br>Allerdings muss hier die Version zwingend auf `regex.VERSION1` gesetzt werden, was derzeit nur durch einen vorcompilierten Ausdruck möglich ist, weshalb wir den folgenden Weg gehen müssen:

In [None]:
myRegex = regex.compile("[[a-z]--[aeiou]]", regex.VERSION1)
print(myRegex.sub("+", "Berufsschule7"))

Nun gibt es noch die vordefinierten Zeichengruppen. Diese sind (mit Ausnahme des Punktoperators `.`) immer ein Backslash, gefolgt von einem Kleinbuchstaben. Bspw. ist `\d` die Definition einer Ziffer, also auch mit `[0-9]` erreichbar. Der Großbuchstabe ist dann die Negation der Gruppe. `\D` ist somit alle "Nichtziffern" oder alternativ `[^0.9]`. 
<br>
<table>
<tr><th>Zeichengruppe<th>Bedeutung<th>Ersatzausdruck
<tr><td><b>.          <td>Jedes beliebige Zeichen<td><i>nicht sinnvoll<tr>
<tr><td><b>\d         <td>Eine beliebige Ziffer<td>[0-9]<tr>
<tr><td><b>\D         <td>Alles außer Ziffern<td>[^0-9]<tr>
<tr><td><b>\s         <td>Ein "Whitespace" Zeichen<td>[\t\n\x0B\f\r ]<tr>
<tr><td><b>\S         <td>Alles außer Whitespace Zeichen<td>[^\t\n\x0B\f\r ]<tr>
<tr><td><b>\w         <td>Ein beliebiges "Wort Zeichen" (incl. Unterstrich, mitunter ohne Umlaute)<td>[a-zA-Z_0-9]<tr>
<tr><td><b>\W         <td>Alles außer "Wort Zeichen"<td>[^a-zA-Z_0-9]<tr>
<table>

Vor allem der Punktoperator `.` fällt erstmal auf. Dieser wird erst mit dem nächsten Kapitel, den Quantoren sinnvoll einsetzbar. Er identifiziert alle Zeichen (mit Ausnahme des Zeilenterminierers - sprich "Zeilenumbruch"). In den meisten Implementierungen kann mit dem "dotall" Flag (in Python also `regex.DOTALL`) die Engine so eingestellt werden, dass auch der Zeilenterminierer gefunden wird. Ein weiterer wichtiger Punkt für den deutsschprachigen Raum ist, dass beim Wortzeichen `\w` die Umlaute nicht in allen Umsetzungen mitgenommen werden. Diese müssten dann über eine eigene Gruppe hinzugefügt werden:
<br>`[\wäöü]`
<br>Dies würde bspw. für Java gelten. Python hingegen findet auch die Umlaute:

In [None]:
print(regex.sub("\\w", "+", "Die Berufsschule7 hat ein grünrotes Logo"))

Eine gern genutzte Möglichkeit das Umlaut Problem in den unterschiedlichen Implementierungen zu umgehen ist die Nutzung von `\S` - also alle nicht Whitespaces. Für viele Anwendungen ist dies ausreichend. Folgender Ausdruck soll dies verdeutlichen:

In [None]:
print(regex.sub("\\w", "+", "Die Berufsschule7 hat ein grünrotes Logo"))
# erstetzt die gleichen Stellen wie
print(regex.sub("\\S", "+", "Die Berufsschule7 hat ein grünrotes Logo"))

Allerdings würde das Wort `grün-rot` von den beiden Ausdrücken unterschiedlich behandelt werden.

### Quantoren
Unter Quantoren versteht man Elemente, welche die gewünschte Häufigkeit eines Auftretens spezifizieren können. So ist es bspw. möglich zu sagen, ich möchte, dass ein Element mindestens einmal vorkommt. Bei den Quantoren gibt es diverse Optionen:
<table>
<tr><th>Quantor:<th>Bedeutung:<tr>
<tr><td><b>?<td>Voranstehender Ausdruck muss 0 oder einmal vorkommen.<tr>
<tr><td><b>+<td>Voranstehender Ausdruck muss 1 oder mehrmal vorkommen.<tr>
<tr><td><b>*<td>Voranstehender Ausdruck muss 0, 1 oder mehrmal vorkommen.<tr>
<tr><td><b>{n}<td>Voranstehender Ausdruck muss exakt n mal vorkommen.<tr>
<tr><td><b>{min,}<td>Voranstehender Ausdruck muss mindestens min mal vorkommen.<tr>
<tr><td><b>{,max}<td>Voranstehender Ausdruck darf maximal max mal vorkommen.<tr>
<tr><td><b>{min,max}<td>Voranstehender Ausdruck muss mindestens min mal und maximal max mal vorkommen.<tr> 

Wir können damit bspw. in Texten alle Klammern samt Inhalt suchen:

In [None]:
print(regex.sub("\\(.*\\)", "+", "Berufsschule7 (Haunstetter Straße 66)"))

Bei den Quantoren sind meist die Elemente `?`, `+` und `*` wichtig, da Sie im Zusammenhang mit Zeichengruppen oftmals verwendet werden. Wenn wir also in einem Text alle Zahlen (also nicht Ziffern) durch ein `+` ersetzen wollen, dann müssen wir mit `?` arbeiten. Erstellen Sie einen Ausdruck, der aus *Berufsschule7 (Haunstetter Straße 66)* den String *Berufsschule+ (Haunstetter Straße +)* macht:

In [None]:
print(regex.sub("", "+", "Berufsschule7 (Haunstetter Straße 66)"))

### Gieriges vs. genügsames Verhalten
Grundsätzlich verhalten sich die Quantoren „gierig“ (engl. greedy). Dies bedeutet, dass sämtliche möglichen zusammenhängenden Matches gefunden (und bspw. bei Ersetzung auch angewendet) werden. Folgendes Beispiel soll dies verdeutlichen:

In [None]:
print(regex.sub("s+", "+", "Berufsschule7"))

Die Engine verarbeitet also den String `Berufsschule7` und findet das `s`. Theoretisch ist das schon ein gültiger Match, da wir ja "mindestens ein" `s` suchen. Trotzdem ist die Engine "gierig" und versucht den Match mit noch weiteren möglichen `s` Zeichen aufzufüllen, weshalb die beiden Buchstaben `s` als ein großer und nicht zwei kleine Matches auftreten - es wird also `ss` mit dem `+` ersetzt. Wollen wir allerdings, dass der Match geschlossen wird, sobald er die Mindestanforderungen erreicht, so müssen wir ihn mit Hilfe des `?` "genügsam" (oder "reluctant") machen. Das `?` ist aber nicht als Quantor zu verstehen! 

In [None]:
print(regex.sub("s+?", "+", "Berufsschule7"))

Ein mitunter "verwirrender" Begriff im Zusammenhang mit "possesives" Verhalten. Dies ist im Wesentlichen für Performanceoptimierung relevant - aber ein kleiner Exkurs ist an deser Stelle vielleicht ganz sinnvoll. Sehen wir uns hierfür folgenden Ausdruck an, den wir auf `Berufsschule7` anwenden:
<br>`.*\d`
<br>Wir suchen also beliebige Zeichen, gefolgt von einer Ziffer. Mit unserem Wissen über greedy Verhalten müssten wir nun eigentlich sagen, dass wir keinen Match haben. Der erste Ausdruck `.*` findet ja eigentlich den Kompletten String `Berufsschule7`, da wir ja beliebit viele Zeichen suchen. Nach `Berufsschule7` folgt aber keine Ziffer mehr. Dies ist so aber nicht gewünscht. Also würde die Engine mit der Auswertung in der Zeichenkette von der Position nach der `7` wieder zurücklaufen auf die Position zwischen dem `e` und der `7`, was "Backtracking" genannt wird und Performance kostet. Wenn wir unseren Ausdruck aber wie folgt ändern:
<br>`.*+\d`
<br>dann würde das Backtracking ausgeschaltet werden und wir hätten keinen Match:

In [None]:
print(regex.sub(".*\\d", "+", "Berufsschule7"))
print(regex.sub(".*+\\d", "+", "Berufsschule7"))

Man nutzt das possesive Verhalten meist dann, wenn Performance eine wichtige Rolle spielt und wir von vorneherein wissen, dass wir kein Backtracking benötigen.
### Grenzen
Oftmals ist es notwendig, Zeichenketten anhand ihrer Position in Zeilen oder Wörtern zu identifizieren. Zum Beispiel erwirkt der Operator `\b', dass die Zeichenkette an der Grenze eines Wortes stehen muss. Sehen wir uns hierfür die folgenden Ausdrücke an:

In [None]:
print(regex.sub("\\ber", "+", "er, der Piere erfährt mehr."))
print(regex.sub("er\\b", "+", "er, der Piere erfährt mehr."))
print(regex.sub("\\ber\\b", "+", "er, der Piere erfährt mehr."))

<table>
<tr><th>Grenze:<th>Bedeutung:<tr>
<tr><td><b>^<td>Anfang einer Zeile (Zeichen nicht mit dem Negierer verwechseln – dieser steht nicht am  Anfang)<tr>
<tr><td><b>$<td>Ende einer Zeile <tr>
<tr><td><b>\b<td>Wortgrenze<tr>
<tr><td><b>\B<td>Nichtwortgrenze (also das Pattern darf nicht an einer Wortgrenze stehen)<tr>
<tr><td><b>\A<td>Anfang des untersuchten Strings<tr>
<tr><td><b>\G<td>Ende des vorausgegangenen Matches<tr>
<tr><td><b>\Z<td>Ende des untersuchten Strings, ohne dem finalen Terminator, sofern er existiert<tr>
<tr><td><b>\z<td>Ende des untersuchten Strings<tr>
<table> 

Bei dem Anfang der Zeile `^` bzw. Ende der Zeile `$` Operator muss in den meisten Implementierungen das Muliline Flag gesetzt sein (`regex.MULTILINE`). 
### Capturing Groups
Matches können in runden Klammer zusammengefasst werden und somit über Quantoren referenziert werden. Wenn wir bspw. eine Zahl, gefolgt von einem Punkt und Leerzeichen suchen, können wir folgenden Ausdruck verwenden: 

In [None]:
print(regex.sub("\\d\\.\\s", "+", "Dies ist der 3. 4. und 5. Versuch."))

Wenn wir aber nur die 3. und 4. als Gesamtes suchen und ersetzen wollen, so können wir dies entweder mit 
<br>`\d\.\s\d\.\s`
<br>bewerkstelligen, oder einfacher mit
<br>`(\d\.\s){2}`
<br>Wir fassen also den Ausdruck `\d\.\s` zusammen und sagen, er soll zweimal vorkommen:

In [None]:
print(regex.sub("\\d\\.\\s\\d\\.\\s", "+", "Dies ist der 3. 4. und 5. Versuch."))
# findet in "Dies ist der 3. 4. und 5. Versuch." das Gleiche wie
print(regex.sub("(\\d\\.\\s){2}", "+", "Dies ist der 3. 4. und 5. Versuch."))

Der hauptsächliche Vorteil ist jedoch, die gefundenen Zeichen wieder neu zu referenzieren. Sehen wir uns hierfür folgendes Beispeiel an:

In [None]:
print(regex.sub("(.)\\1", "+", "Berufsschule7"))

Der Ausdruck `(.)` findet jedes beliebige Zeichen. Nun hängen wir aber eine weitere Bedingung hinten an - nämlich die `\1`. Dies bedeutet, dass das Ergebnis der ersten Klammer (also das `B`, dann das `e`, das `r` usw.) nochmal danach kommen muss. Es wird also nach `BB`, `ee`, `rr` usw. gesucht. Die Zahl `\1` bezieht sich hier auf die erste öffnende Klammer. Bspw. würde die folgende Klammerkonstruktuion:
<br>`((A)(B(C)))`
<br>folgende Zuordnungen erhalten:
<br>`\1` referenziert alles, was `((A)(B(C)))` findet.
<br>`\2` referenziert alles, was `(A)` findet.
<br>`\3` referenziert alles, was `(B(C))` findet.
<br>`\4` referenziert alles, was `(C)` findet.
<br><br>**Achtung:**: Die Python Implementierung dieser Funktionalität ist für die `findall()` Funktionalität aus meiner Sicht nicht sauber! Sie liefert nur die innere Gruppe, nicht aber den gesamten Match. 
### Look around assertions
Hierunter versteht man die Möglichkeit etwas zu finden, was vor oder nach einem Ausdruck steht. Wenn wir bspw. folgenden Ausdruck ansehen:

In [None]:
print(regex.sub("\\(.*\\)", "+", "Berufsschule7 (Haunstetter Straße 66)"))

So wird die gesamte Klammer erstetzt. Wenn unser Ziel aber folgendes ist:
<br>`"Berufsschule7 (+)"`
<br>so haben wir ein Problem. Wir suchen also den Klammerninhalt - aber ohne die Klammern. Dies können wir mit den lookahead- und lookback Assertions in den Griff bekommen. Die lookahead Assertion wird auch "vorausschauende Prüfung" genannt. Bei einer vorausschauenden Prüfung wird mit `(?=X)` geprüft, ob der gesuchte Ausdruck vor einem Referenzausdruck `X` steht (positive look ahead assertion). Der Ausdruck `(?!X)` negiert dies und prüft, ob der gesuchte Ausdruck nicht vor einem Referenzausdruck `X` steht.

In [None]:
print(regex.sub("u(?=f)", "+", "Berufsschule7"))
print(regex.sub("u(?!f)", "+", "Berufsschule7"))

Lookback assertions werden auch "zurückschauende" Prüfung genannt. Die zurückschauende Prüfung wird mit `(?<=X)` formuliert und prüft, ob der gesuchte Ausdruck nach einem Referenzausdruck `X` steht (positive look behind assertion). Der Ausdruck `(?<!X)` negiert dies und prüft, ob der gesuchte Ausdruck nicht nach einem Referenzausdruck `X` steht:

In [None]:
print(regex.sub("(?<=r)u", "+", "Berufsschule7"))
print(regex.sub("(?<!r)u", "+", "Berufsschule7"))

## Aufgabenstellung
Nun sollen Sie basierend auf einem Text üben. Hierzu kopiern Sie das File "RegExText.txt" auf Ihr Laufwerk, passen im folgenden Code den Pfad an und laden ihn in die Variable text_data:

In [None]:
# Öffnen des Files
text_file = open("C:/temp/RegExText.txt", "r")

# Einlesen des gesamten Files in die Variable text_data
text_data = text_file.read()

# Schließen des Files
text_file.close() 

Nun können Sie die folgenden Aufgaben erstellen. Hierfür nutzen wir allerdings nicht die Ersetzungsfunktion, sonder wir suchen und ersetzen die gefundenen Matches (siehe ganz oben). Achten Sie heirbei auch auf die notwendigen Flags. Geben Sie also folgende Textstellen aus:
<br><br>
**1.: Jedes Wort, das ein „a“ bzw. „A“ enthält**

In [None]:
## Ihre Lösung

**2.: Jedes Wort, das mit einem „B“ beginnt**

In [None]:
## Ihre Lösung

**3.: Jede Zeile, die das Wort „Bearbeiten“ beinhaltet**

In [None]:
## Ihre Lösung

**4.: Jede Zeile, die eine Zahl enthält**

In [None]:
## Ihre Lösung

**5.: Sofern vorhanden, eine eMail Adresse**

In [None]:
## Ihre Lösung

**6.: Sofern vorhanden, einen Weblink**

In [None]:
## Ihre Lösung

**7.: Worte, die zwischen „Online“ und „Auswerten“ stehen**

In [None]:
## Ihre Lösung

**8.: Jede Zeile, die ein Datum mit Formatierung (dd.mm.yyyy) enthält**
<br>Hier müssen nur die im Textfile ungültigen Datumsformate entfernt werden - es ist keine vollständige Datumsvalidierung in Regex möglich.

In [None]:
## Ihre Lösung

**9.: Worte mit mindestens drei Buchstaben, aber ohne Vokale**

In [None]:
## Ihre Lösung