Syntaxe
Paramètres
| Nom |
Description |
| input |
Ce paramètre permet de spécifier la valeur d'entrée (de type STRING ou BYTES) pour laquelle vous souhaitez calculer le hachage MD5. La fonction retournera une séquence d'octets (BYTES) représentant le hachage MD5 de l'entrée. |
Description
Cette fonction permet de retourner le résultat d'un hachage avec un algorithme MD5.
Remarques
- Fonction de hachage cryptographique non réversible : MD5 permet de transformer une chaîne ou des données binaires en une empreinte unique de 128 bits,
représentée sous forme de BYTES. Le hachage MD5 est non réversible, ce qui signifie qu'il est impossible (en théorie) de retrouver la valeur d'origine à partir du
résultat.
- Idéal pour anonymiser des données sensibles : On utilise MD5 pour anonymiser ou pseudonymiser des champs comme des adresses de courriel, des identifiants
ou des numéros de téléphone, sans conserver leur contenu original. Cela permet de protéger la vie privée tout en gardant la possibilité de faire des correspondances
via le hachage.
- Résultat retourné en BYTES, souvent converti en HEX : Par défaut, MD5 retourne un résultat de type BYTES. Si l'on souhaite afficher ou entreposer le
hachage sous forme lisible (hexadécimal), on peut utiliser la fonction TO_HEX(MD5(input)) pour obtenir une chaîne alphanumérique standardisée.
- MD5 n'est plus considéré comme sécurisé pour la cryptographie : Bien que MD5 soit rapide et pratique, il est vulnérable aux collisions (deux entrées
différentes pouvant produire le même hachage). Il est donc déconseillé pour les usages critiques en sécurité informatique ou authentification, mais reste acceptable
pour des usages non sensibles.
- Compatible avec STRING et BYTES : Le paramètre input accepté par MD5 peut être de type STRING (texte) ou BYTES (données binaires). Cela permet d'utiliser
la fonction sur des fichiers, des blobs, ou des textes formatés, à condition de bien contrôler l'encodage utilisé en amont.
- Fonction déterministe et stable : Pour une même valeur d'entrée, MD5 retournera toujours le même résultat, ce qui permet de l'utiliser comme clef de
correspondance ou pour détecter des doublons de contenu (texte, documents, etc.) dans une base de données ou un entrepôt BigQuery.
- Utile pour générer des identifiants uniques dérivés : MD5 est fréquemment utilisé pour générer des identifiants anonymes dérivés à partir d'une
valeur claire. Par exemple, MD5(email) peut produire un ID client haché sans révéler l'e-mail d'origine, pratique pour l'analyse ou l'export de données publiques.
- Performante sur de grandes quantités de données : La fonction MD5 est rapide et optimisée dans BigQuery, même sur des millions de lignes. Elle
peut être utilisée dans des requêtes d'analyse massive sans dégradation significative des performances, contrairement à certains algorithmes plus lourds comme
SHA-512.
Dernière mise à jour : Jeudi, le 18 Juin 2020