Mit der Data Reviewer-Lizenz verfügbar.
Anhand der Prüfung mit regulärem Ausdruck können Sie sowohl die Werte als auch die Formate der Zeichenfolgenwerte prüfen. Zeichenfolgenfelder verwenden alphanumerische Zeichenfolgen als Werte.
Sie enthalten Felder, die den Namen des Features, Maße (Höhe, Länge, Breite und Fläche), Z-Werte und Metadaten wie das Erstellungsdatum eines Features enthalten. Wenn eine Zeichenfolge gefunden wird, die nicht mit dem angegebenen Format oder den angegebenen Werten übereinstimmt, wird die Tabellenzeile als Fehler zurückgegeben. Um beispielsweise nach Datensätzen zu suchen, die ein falsches Format der Sozialversicherungsnummer (Social Security Number, SSN) aufweisen, können Sie \b[0-9][0-9][0-9]-[0-9][0-9]-[0-9][0-9][0-9][0-9]\b in das Feld "SSN" eingeben. Bei der Prüfung werden Features oder Zeilen zurückgegeben, die falsche Werte wie 123456789, 123-ab-4567, 1123-34-12345 oder 123-4567 für das Feld "SSN" aufweisen.
Sie können die Prüfung mit regulärem Ausdruck auch verwenden, um die Textzeichenfolgen auf Grundlage von Wertebereichen zu prüfen. Um diese Werte zu formatieren, können verschiedene Parameter definiert werden. Diese Parameter bestehen aus Metazeichen und Abkürzungen. Mit den Metazeichen können Sie Ihre Abfrage komplexer gestalten, während die Abkürzungen Shortcuts bieten, über die Sie bestimmte Arten von Werten in die Abfrage aufnehmen können.
Weitere Informationen zur Prüfung mit regulärem Ausdruck
Beschreibungen von Metazeichen
Die in der folgenden Tabelle beschriebenen Metazeichen sind Operatoren, die in der Abfrage verwendet werden können, um zu bestimmen, was bei der Prüfung mit regulären Ausdrücken abgeglichen werden soll.
Metazeichen | Beschreibung | Beispiel |
---|---|---|
. | Steht für ein einzelnes Zeichen. | x.y.z findet Zeichenfolgen wie x1y0z oder xaybz. |
[ ] | Enthält einzelne Zeichen und Wertebereiche, die abgeglichen werden sollen. | [xyz] findet Zeichenfolgen, die x, y oder z enthalten. |
^ | Findet bei Verwendung am Anfang des Ausdrucks Zeichenfolgen mit identischem Anfang. Findet bei Verwendung innerhalb von eckigen Klammern Zeichenfolgen, in denen die nachfolgenden Zeichen nicht vorkommen. | ^[xyz] findet Zeichenfolgen, die mit x, y oder z anfangen. [^abc] findet Zeichenfolgen, die keine Kombination von a, b und c enthalten. Passende Zeichenfolgen wären "bat" und "bar", jedoch nicht "cab". |
- | Gibt einen Wertebereich für den Abgleich an. | [1–5][1-9][1-9] [1-9][1-9] findet Zeichenfolgen wie 12345 oder 26589, jedoch nicht 67890. |
? | Vorangestellte Zeichen oder Wertebereiche sind ein optionaler Teil des Ausdrucks, der abgeglichen werden soll. | Sept? findet "Sept" und "September", jedoch nicht "Dezember". |
+ | Platzhalter für ein oder mehr Vorkommen des vorherigen Zeichens oder Wertebereichs | [0–9]+ findet 1, 11, 456 und so weiter. |
* | Platzhalter für 0 oder mehr Vorkommen des vorherigen Zeichens oder Wertebereichs | 12*3 findet 1223 und 123, jedoch nicht 223 oder 23. |
?? | Gleicht einen minimalen Teil der optionalen Zeichen oder Wertebereiche ab. | "6(th)??" findet "6th". |
+? | Gleicht einen minimalen Teil der Zeichen oder Wertebereiche ab, die sich wiederholen können. Der minimale Teil kann sich ein- oder mehrfach wiederholen. | "Ju+?" findet "Juni" und "Juli", jedoch nicht "Januar". |
*? | Gleicht einen minimalen Teil der Zeichen oder Wertebereiche ab, die sich wiederholen können. Der minimale Teil kann sich null- oder mehrfach wiederholen. | "ea*?" findet Zeichenfolgen wie "each", "era" und "fare". |
( ) | Enthält eine Gruppe von Ausdrücken und Werten. | (cat) findet Zeichenfolgen wie "category" und "concatenate", jedoch nicht "cart". |
\ | Ermöglicht die Verwendung eines Metazeichens als "echtes" Zeichen. | Mit \+ wird das Pluszeichen als solches erkannt. |
$ | Gleicht die Eingabe mit dem letzten Zeichen ab. | [123]$ findet Zeichenfolgen, die mit 1, 2 oder 3 enden. |
| | Findet alternative Ausdrücke oder Schreibweisen. | "I|international" findet "International" und "international". |
Shortcuts für Wertebereiche
Die folgenden Abkürzungen bieten Shortcuts für Wertebereiche:
Abkürzung | Beschreibung |
---|---|
\a | Beliebiges alphanumerisches Zeichen (a–zA–Z0–9) |
\b | Leerzeichen |
\c | Beliebiger Buchstabe (a–zA–Z) |
\d | Beliebige Ziffer (0–9) |
\h | Beliebige Hexadezimalziffer |
\n | Neue Zeile |
\q | Zitierte Zeichenfolge |
\w | Einfaches Wort ([a–zA–Z]+) |
\z | Ganzzahl ([0–9]+) |
Beispiele für reguläre Ausdrücke
Die folgende Tabelle enthält einige Beispiele für reguläre Ausdrücke:
Zu suchende Zeichenfolge | Regulärer Ausdruck |
---|---|
Ein Datum im Format JJJJ-MM-TT zwischen 1900-01-01 und 2099-12-31 | ((19)|(20))\d\d((0[1-9])|(1[012]))((0[1-9])|([12][0-9])|(3[01])) |
Teile einer Zeile vor und nach dem Namen einer Person | ^.*Chris.*$ |
Ein Zeichenfolgenfeld, das nur Buchstaben enthält | [A-Za-z]* |