Tokenization (Tokenizasyon) nedir?

Tokenization (Tokenizasyon), hassas verilerin farklı değerlerle ifade edilerek, korunması yöntemi olarak tanımlanır. Simgeleştirme olarak da tabir edilen bu yöntem, bir veriyi daha küçük birimlere ayırmanın yoludur.

Veriler; karakter, kelime ya da alt kelime gruplarıyla simgeleştirilir. Bir kredi kartı numarasının tamamının yazılması yerine, bazı bölümlerinde çeşitli harfler kullanılması, buna örnek gösterilebilir. 1111-2222-3333-4444 numaralı bir kartın sistemler arasında 1111-abcd-efgh-4444 biçiminde dolaşması tokenizasyonun en somut göstergelerinden biridir.

Birkaç şekilde tokenizasyon yapılabilir: kelime, karakter ya da alt kelime şifrelemesi. Her birinin avantaj ve dezavantajları da bulunmaktadır. Kullanılacak alana göre bu tokenization yöntemlerinden en uygun olanı belirlenir.

Tokenization (Tokenizasyon) nerelerde kullanılır?

Mobil uygulamalar, oyunlar, gayrimenkul yatırımı, varlık yönetimi, sözleşme ve kontratlar için tokenization yöntemi uygulanabilir ve uygulanır durumdadır. Tüm bu yapılar içinde kullanılan hassas veriler, bu yöntemle güvenlik altına alınır.

Blokzincirde tokenization (tokenizasyon)

Blokzincir, merkeziyetsiz yapıda bir ekosistem olduğu için tokenization yöntemi, bu dünyanın olmazsa olmazıdır. Yapılan işlemlerin onaylanması için üçüncü bir kişiye ihtiyaç duyulmaması, bu yöntemin uygulanmasını zorunlu kılmıştır. Bu sayede blokzincir; noter, aracılık masrafları ya da bürokratik kurallar olmadan hızlı ve şeffaf bir şekilde işlemleri gerçekleştiren bir yapıdadır. Hatta her varlığın tokenize edilebileceğinin de kanıtını beraberinde sunar.

Her ekosistemin kendine ait tokeninin olması, tokenization yöntemi için gereklidir. Ethereum ağının sağladığı hizmetten yararlanmak için Ether almak bunun bir örneğidir. Her kripto paranın bağlı olduğu ve hizmet sunan bir ağı, her ağın da bir tokeni vardır. Bu şekilde güvenli bir döngü sağlanır.

Tokenizasyon türleri nelerdir?

Tokenizasyon üç ana yöntemle uygulanır: kelime (word), karakter (character) ve alt kelime (subword) tokenizasyonu. Bu üçü arasındaki temel fark, verinin ne kadar küçük parçalara bölündüğüdür.

Her yöntemin kullanım amacına göre farklı avantajları vardır:

  • Kelime tokenizasyonu: Metni boşluk ve noktalama işaretlerine göre kelimelere böler. Uygulaması basittir. Ancak Türkçe gibi eklemeli dillerde aynı kelimenin onlarca farklı biçimi ortaya çıkabilir.
  • Karakter tokenizasyonu: Her harfi ayrı bir token olarak ele alır. Sözlük boyutu küçük kalır. Ancak cümleler çok uzun token dizilerine dönüşür ve modelin işi zorlaşır.
  • Alt kelime tokenizasyonu: Kelimeyi kök ve eklere böler. Günümüz yapay zeka modellerinin büyük çoğunluğu bu yöntemi tercih eder. Nadir kelimeler bile parçalanarak temsil edilebildiğinden sözlük boyutu dengede tutulur.

Kullanılacak alana göre bu tokenizasyon yöntemlerinden en uygun olanı belirlenir.

NLP ve yapay zekada tokenizasyon nasıl çalışır?

Doğal dil işleme (NLP) modellerinin metni anlayabilmesi için önce onu sayısal birimlere dönüştürmesi gerekir. Bu dönüşüm süreci tokenizasyonla başlar. Ham metin, seçilen yönteme göre token’lara ayrılır. Ardından her token bir sayıya (ID) eşlenerek model beslenir.

Örneğin “Dondurmacı dükkanı” cümlesi kelime tokenizasyonuyla [“Dondurmacı”, “dükkanı”] biçiminde iki token’a ayrılır. Alt kelime tokenizasyonuyla ise [“dondurma”, “cı”, “dükkan”, “ı”] gibi dört ya da daha fazla token’a bölünebilir.

Günümüz büyük dil modellerinin çoğu Byte Pair Encoding (BPE) yöntemini kullanır. GPT-2, GPT-3 ve benzeri modellerde standart haline gelen BPE, metindeki en sık geçen karakter çiftlerini tekrar tekrar birleştirerek bir sözlük oluşturur. Nadir kelimeler bile parçalanarak temsil edilebildiğinden sözcük dışı (out-of-vocabulary) hataları azalır.

Türkçe, eklemeli dil yapısı nedeniyle tokenizasyonda özel bir zorluk taşır. ACM’de yayımlanan bir araştırmada standart BPE ve WordPiece yöntemlerinin Türkçe sözcük köklerini ve eklerini doğru biçimde ayrıştırmakta güçlük çektiği gösterilmiştir. Bu nedenle Türkçe için morfolojinin farkında olan tokenizasyon yaklaşımları üzerine akademik çalışmalar sürdürülür.

Yaygın kullanılan tokenizasyon kütüphaneleri arasında Hugging Face Tokenizers, NLTK, spaCy ve OpenAI’ın TikToken kütüphanesi sayılabilir.

Veri güvenliğinde tokenizasyon nasıl kullanılır?

Veri güvenliği bağlamında tokenizasyon, hassas bilgiyi (örneğin kredi kartı numarası veya kimlik numarası) onunla matematiksel bağlantısı bulunmayan rastgele bir değerle değiştirme işlemidir. Bu rastgele değere “token” denir. Orijinal veri “vault” adı verilen güvenli bir kasada şifreli olarak saklanır.

Süreç şu şekilde işler: 

  1. Kullanıcı alışveriş sırasında kredi kartı bilgisini sisteme girer. 
  2. Tokenizasyon motoru bu bilgiyi güvenli bir kanal üzerinden alır, rastgele bir token üretir ve orijinal kartı vault sisteminde saklar. 
  3. Bundan sonra tüm işlemler bu token üzerinden yürütülür; gerçek kart numarası sistemler arasında dolaşmaz.

Dünya genelinde ödeme sektöründe yaygın olarak kullanılan PCI DSS (Payment Card Industry Data Security Standard), ödeme verilerinin işlenmesi, saklanması ve aktarılmasında uyulması gereken uluslararası güvenlik kurallarını tanımlar. Visa, Mastercard, American Express ve Discover’ın ortak konsorsiyumu tarafından 2004’te kurulan bu standart, birçok ülkede ödeme altyapısının temelini oluşturmaktadır.

Türkiye’de ise durum farklıdır. Ödeme sistemlerine ilişkin kendi düzenleyici çerçevesini uygular. Bu çerçeve kapsamında kredi kartı verilerinin tokenizasyon yoluyla üçüncü taraf sistemlerde işlenmesi ve saklanması, ulusal mevzuata aykırı kabul edilmektedir. Yani PCI DSS’in uluslararası alanda öngördüğü tokenizasyon modeli, Türkiye’deki ödeme sistemleri için doğrudan geçerli değil veya geçerli olsa dahi kripto varlık hizmet sağlayıcıları ile işbirliği içinde kullanılabilecek bir model değildir. 

Tokenizasyon ile şifreleme arasındaki fark

Tokenizasyon ve şifreleme (encryption) sık karıştırılan iki kavramdır. Ancak çalışma mantıkları birbirinden farklıdır.

Şifreleme, orijinal veriyi matematiksel bir algoritmayla dönüştürür. Doğru anahtara sahip olan herhangi biri bu veriyi geri çözebilir. Yani şifreleme geri döndürülebilir bir işlemdir.

Tokenizasyon ise veriyi başka bir değerle değiştirir; bu değerin orijinal veriyle matematiksel bir ilişkisi yoktur. Token ele geçirilse bile gerçek veriye ulaşmak için vault sistemine erişmek gerekir.

Paribu

Türkiye’nin alanında öncü teknoloji şirketi ve lider kripto para işlem platformu.

 

MOBİL UYGULAMAMIZI İNDİRİN