{"id":4005,"date":"2021-04-15T21:34:03","date_gmt":"2021-04-15T18:34:03","guid":{"rendered":"https:\/\/www.paribu.com\/blog\/?post_type=glossary&#038;p=4005"},"modified":"2026-05-20T09:32:55","modified_gmt":"2026-05-20T06:32:55","slug":"tokenization-tokenizasyon-nedir","status":"publish","type":"glossary","link":"https:\/\/www.paribu.com\/blog\/sozluk\/tokenization-tokenizasyon-nedir\/","title":{"rendered":"Tokenization (Tokenizasyon) nedir?"},"content":{"rendered":"<p>Tokenization (Tokenizasyon), hassas verilerin farkl&#305; de&#287;erlerle ifade edilerek, korunmas&#305; y&ouml;ntemi olarak tan&#305;mlan&#305;r. Simgele&#351;tirme olarak da tabir edilen bu y&ouml;ntem, bir veriyi daha k&uuml;&ccedil;&uuml;k birimlere ay&#305;rman&#305;n yoludur.<\/p>\n<p>Veriler; karakter, kelime ya da alt kelime gruplar&#305;yla simgele&#351;tirilir. Bir kredi kart&#305; numaras&#305;n&#305;n tamam&#305;n&#305;n yaz&#305;lmas&#305; yerine, baz&#305; b&ouml;l&uuml;mlerinde &ccedil;e&#351;itli harfler kullan&#305;lmas&#305;, buna &ouml;rnek g&ouml;sterilebilir. <span style=\"font-weight: 400;\">1111-2222-3333-4444 numaral&#305; bir kart&#305;n sistemler aras&#305;nda 1111-abcd-efgh-4444 bi&ccedil;iminde dola&#351;mas&#305; tokenizasyonun en somut g&ouml;stergelerinden biridir.<\/span><\/p>\n<p>Birka&ccedil; &#351;ekilde tokenizasyon yap&#305;labilir: kelime, karakter ya da alt kelime &#351;ifrelemesi. Her birinin avantaj ve dezavantajlar&#305; da bulunmaktad&#305;r. Kullan&#305;lacak alana g&ouml;re bu tokenization y&ouml;ntemlerinden en uygun olan&#305; belirlenir.<\/p>\n<h2><strong>Tokenization (Tokenizasyon) nerelerde kullan&#305;l&#305;r?<\/strong><\/h2>\n<p>Mobil uygulamalar, oyunlar, gayrimenkul yat&#305;r&#305;m&#305;, varl&#305;k y&ouml;netimi, s&ouml;zle&#351;me ve kontratlar i&ccedil;in tokenization y&ouml;ntemi uygulanabilir ve uygulan&#305;r durumdad&#305;r. T&uuml;m bu yap&#305;lar i&ccedil;inde kullan&#305;lan hassas veriler, bu y&ouml;ntemle g&uuml;venlik alt&#305;na al&#305;n&#305;r.<\/p>\n<h2><strong>Blokzincirde tokenization (tokenizasyon)<\/strong><\/h2>\n<p><span class=\"\" title=\"Paribu S&ouml;zl&uuml;k: Blokzincir (blockchain) nedir?\" data-mobile-support=\"0\" data-gt-translate-attributes='[{\"attribute\":\"data-cmtooltip\", \"format\":\"html\"}]' tabindex=\"0\" role=\"link\">Blokzincir<\/span>, merkeziyetsiz yap&#305;da bir ekosistem oldu&#287;u i&ccedil;in tokenization y&ouml;ntemi, bu d&uuml;nyan&#305;n olmazsa olmaz&#305;d&#305;r. Yap&#305;lan i&#351;lemlerin onaylanmas&#305; i&ccedil;in &uuml;&ccedil;&uuml;nc&uuml; bir ki&#351;iye ihtiya&ccedil; duyulmamas&#305;, bu y&ouml;ntemin uygulanmas&#305;n&#305; zorunlu k&#305;lm&#305;&#351;t&#305;r. Bu sayede blokzincir; noter, arac&#305;l&#305;k masraflar&#305; ya da b&uuml;rokratik kurallar olmadan h&#305;zl&#305; ve &#351;effaf bir &#351;ekilde i&#351;lemleri ger&ccedil;ekle&#351;tiren bir yap&#305;dad&#305;r. Hatta her varl&#305;&#287;&#305;n tokenize edilebilece&#287;inin de kan&#305;t&#305;n&#305; beraberinde sunar.<\/p>\n<p>Her ekosistemin kendine ait tokeninin olmas&#305;, tokenization y&ouml;ntemi i&ccedil;in gereklidir. <span class=\" cmtt_Kripto Para\" title=\"Paribu S&ouml;zl&uuml;k: Ethereum (ETH) nedir?\" data-mobile-support=\"0\" data-gt-translate-attributes='[{\"attribute\":\"data-cmtooltip\", \"format\":\"html\"}]' tabindex=\"0\" role=\"link\">Ethereum<\/span> a&#287;&#305;n&#305;n sa&#287;lad&#305;&#287;&#305; hizmetten yararlanmak i&ccedil;in Ether almak bunun bir &ouml;rne&#287;idir. Her kripto paran&#305;n ba&#287;l&#305; oldu&#287;u ve hizmet sunan bir a&#287;&#305;, her a&#287;&#305;n da bir tokeni vard&#305;r. Bu &#351;ekilde g&uuml;venli bir d&ouml;ng&uuml; sa&#287;lan&#305;r.<\/p>\n<h2><strong>Tokenizasyon t&uuml;rleri nelerdir?<\/strong><\/h2>\n<p><span style=\"font-weight: 400;\">Tokenizasyon &uuml;&ccedil; ana y&ouml;ntemle uygulan&#305;r: kelime (word), karakter (character) ve alt kelime (subword) tokenizasyonu. Bu &uuml;&ccedil;&uuml; aras&#305;ndaki temel fark, verinin ne kadar k&uuml;&ccedil;&uuml;k par&ccedil;alara b&ouml;l&uuml;nd&uuml;&#287;&uuml;d&uuml;r.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Her y&ouml;ntemin kullan&#305;m amac&#305;na g&ouml;re farkl&#305; avantajlar&#305; vard&#305;r:<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><b>Kelime tokenizasyonu:<\/b><span style=\"font-weight: 400;\"> Metni bo&#351;luk ve noktalama i&#351;aretlerine g&ouml;re kelimelere b&ouml;ler. Uygulamas&#305; basittir. Ancak T&uuml;rk&ccedil;e gibi eklemeli dillerde ayn&#305; kelimenin onlarca farkl&#305; bi&ccedil;imi ortaya &ccedil;&#305;kabilir.<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><b>Karakter tokenizasyonu: <\/b><span style=\"font-weight: 400;\">Her harfi ayr&#305; bir <span class=\"\" title=\"Paribu S&ouml;zl&uuml;k: Token nedir?\" data-mobile-support=\"0\" data-gt-translate-attributes='[{\"attribute\":\"data-cmtooltip\", \"format\":\"html\"}]' tabindex=\"0\" role=\"link\">token<\/span> olarak ele al&#305;r. S&ouml;zl&uuml;k boyutu k&uuml;&ccedil;&uuml;k kal&#305;r. Ancak c&uuml;mleler &ccedil;ok uzun token dizilerine d&ouml;n&uuml;&#351;&uuml;r ve modelin i&#351;i zorla&#351;&#305;r.<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><b>Alt kelime tokenizasyonu:<\/b><span style=\"font-weight: 400;\"> Kelimeyi k&ouml;k ve eklere b&ouml;ler. G&uuml;n&uuml;m&uuml;z yapay zeka modellerinin b&uuml;y&uuml;k &ccedil;o&#287;unlu&#287;u bu y&ouml;ntemi tercih eder. Nadir kelimeler bile par&ccedil;alanarak temsil edilebildi&#287;inden s&ouml;zl&uuml;k boyutu dengede tutulur.<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">Kullan&#305;lacak alana g&ouml;re bu tokenizasyon y&ouml;ntemlerinden en uygun olan&#305; belirlenir.<\/span><\/p>\n<h2><strong>NLP ve yapay zekada tokenizasyon nas&#305;l &ccedil;al&#305;&#351;&#305;r?<\/strong><\/h2>\n<p><span style=\"font-weight: 400;\">Do&#287;al dil i&#351;leme (NLP) modellerinin metni anlayabilmesi i&ccedil;in &ouml;nce onu say&#305;sal birimlere d&ouml;n&uuml;&#351;t&uuml;rmesi gerekir. Bu d&ouml;n&uuml;&#351;&uuml;m s&uuml;reci tokenizasyonla ba&#351;lar. Ham metin, se&ccedil;ilen y&ouml;nteme g&ouml;re token&rsquo;lara ayr&#305;l&#305;r. Ard&#305;ndan her token bir say&#305;ya (ID) e&#351;lenerek model beslenir.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">&Ouml;rne&#287;in &ldquo;Dondurmac&#305; d&uuml;kkan&#305;&rdquo; c&uuml;mlesi kelime tokenizasyonuyla [&ldquo;Dondurmac&#305;&rdquo;, &ldquo;d&uuml;kkan&#305;&rdquo;] bi&ccedil;iminde iki token&rsquo;a ayr&#305;l&#305;r. Alt kelime tokenizasyonuyla ise [&ldquo;dondurma&rdquo;, &ldquo;c&#305;&rdquo;, &ldquo;d&uuml;kkan&rdquo;, &ldquo;&#305;&rdquo;] gibi d&ouml;rt ya da daha fazla token&rsquo;a b&ouml;l&uuml;nebilir.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">G&uuml;n&uuml;m&uuml;z b&uuml;y&uuml;k dil modellerinin &ccedil;o&#287;u Byte Pair Encoding (BPE) y&ouml;ntemini kullan&#305;r. GPT-2, GPT-3 ve benzeri modellerde standart haline gelen BPE, metindeki en s&#305;k ge&ccedil;en karakter &ccedil;iftlerini tekrar tekrar birle&#351;tirerek bir s&ouml;zl&uuml;k olu&#351;turur. Nadir kelimeler bile par&ccedil;alanarak temsil edilebildi&#287;inden s&ouml;zc&uuml;k d&#305;&#351;&#305; (out-of-vocabulary) hatalar&#305; azal&#305;r.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">T&uuml;rk&ccedil;e, eklemeli dil yap&#305;s&#305; nedeniyle tokenizasyonda &ouml;zel bir zorluk ta&#351;&#305;r. <\/span><a href=\"https:\/\/dl.acm.org\/doi\/10.1145\/3578707\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\"><span class=\" cmtt_Kripto Para\"  title=\"Paribu S&ouml;zl&uuml;k: AC Milan Fan Token (ACM) nedir?\"  data-mobile-support=\"0\"  data-gt-translate-attributes='[{\"attribute\":\"data-cmtooltip\", \"format\":\"html\"}]' tabindex='0' role='link'>ACM<\/span>&rsquo;de yay&#305;mlanan<\/span><\/a><span style=\"font-weight: 400;\"> bir ara&#351;t&#305;rmada standart BPE ve WordPiece y&ouml;ntemlerinin T&uuml;rk&ccedil;e s&ouml;zc&uuml;k k&ouml;klerini ve eklerini do&#287;ru bi&ccedil;imde ayr&#305;&#351;t&#305;rmakta g&uuml;&ccedil;l&uuml;k &ccedil;ekti&#287;i g&ouml;sterilmi&#351;tir. Bu nedenle T&uuml;rk&ccedil;e i&ccedil;in morfolojinin fark&#305;nda olan tokenizasyon yakla&#351;&#305;mlar&#305; &uuml;zerine akademik &ccedil;al&#305;&#351;malar s&uuml;rd&uuml;r&uuml;l&uuml;r.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Yayg&#305;n kullan&#305;lan tokenizasyon k&uuml;t&uuml;phaneleri aras&#305;nda Hugging Face Tokenizers, NLTK, spaCy ve OpenAI&rsquo;&#305;n TikToken k&uuml;t&uuml;phanesi say&#305;labilir.<\/span><\/p>\n<h2><strong>Veri g&uuml;venli&#287;inde tokenizasyon nas&#305;l kullan&#305;l&#305;r?<\/strong><\/h2>\n<p><span style=\"font-weight: 400;\">Veri g&uuml;venli&#287;i ba&#287;lam&#305;nda tokenizasyon, hassas bilgiyi (&ouml;rne&#287;in kredi kart&#305; numaras&#305; veya kimlik numaras&#305;) onunla matematiksel ba&#287;lant&#305;s&#305; bulunmayan rastgele bir de&#287;erle de&#287;i&#351;tirme i&#351;lemidir. Bu rastgele de&#287;ere &ldquo;token&rdquo; denir. Orijinal veri &ldquo;vault&rdquo; ad&#305; verilen g&uuml;venli bir kasada &#351;ifreli olarak saklan&#305;r.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">S&uuml;re&ccedil; &#351;u &#351;ekilde i&#351;ler:&nbsp;<\/span><\/p>\n<ol>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Kullan&#305;c&#305; al&#305;&#351;veri&#351; s&#305;ras&#305;nda kredi kart&#305; bilgisini sisteme girer.&nbsp;<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Tokenizasyon motoru bu bilgiyi g&uuml;venli bir kanal &uuml;zerinden al&#305;r, rastgele bir token &uuml;retir ve orijinal kart&#305; vault sisteminde saklar.&nbsp;<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Bundan sonra t&uuml;m i&#351;lemler bu token &uuml;zerinden y&uuml;r&uuml;t&uuml;l&uuml;r; ger&ccedil;ek kart numaras&#305; sistemler aras&#305;nda dola&#351;maz.<\/span><\/li>\n<\/ol>\n<p><span style=\"font-weight: 400;\">D&uuml;nya genelinde &ouml;deme sekt&ouml;r&uuml;nde yayg&#305;n olarak kullan&#305;lan PCI DSS (Payment Card Industry Data Security Standard), &ouml;deme verilerinin i&#351;lenmesi, saklanmas&#305; ve aktar&#305;lmas&#305;nda uyulmas&#305; gereken uluslararas&#305; g&uuml;venlik kurallar&#305;n&#305; tan&#305;mlar. Visa, Mastercard, American Express ve Discover&rsquo;&#305;n ortak konsorsiyumu taraf&#305;ndan 2004&rsquo;te kurulan bu standart, bir&ccedil;ok &uuml;lkede &ouml;deme altyap&#305;s&#305;n&#305;n temelini olu&#351;turmaktad&#305;r.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">T&uuml;rkiye&rsquo;de ise durum farkl&#305;d&#305;r. &Ouml;deme sistemlerine ili&#351;kin kendi d&uuml;zenleyici &ccedil;er&ccedil;evesini uygular. Bu &ccedil;er&ccedil;eve kapsam&#305;nda kredi kart&#305; verilerinin tokenizasyon yoluyla &uuml;&ccedil;&uuml;nc&uuml; taraf sistemlerde i&#351;lenmesi ve saklanmas&#305;, ulusal mevzuata ayk&#305;r&#305; kabul edilmektedir. Yani PCI DSS&rsquo;in uluslararas&#305; alanda &ouml;ng&ouml;rd&uuml;&#287;&uuml; tokenizasyon modeli, T&uuml;rkiye&rsquo;deki &ouml;deme sistemleri i&ccedil;in do&#287;rudan ge&ccedil;erli de&#287;il veya ge&ccedil;erli olsa dahi kripto varl&#305;k hizmet sa&#287;lay&#305;c&#305;lar&#305; ile i&#351;birli&#287;i i&ccedil;inde kullan&#305;labilecek bir model de&#287;ildir.&nbsp;<\/span><\/p>\n<h2><strong>Tokenizasyon ile &#351;ifreleme aras&#305;ndaki fark<\/strong><\/h2>\n<p><span style=\"font-weight: 400;\">Tokenizasyon ve &#351;ifreleme (encryption) s&#305;k kar&#305;&#351;t&#305;r&#305;lan iki kavramd&#305;r. Ancak &ccedil;al&#305;&#351;ma mant&#305;klar&#305; birbirinden farkl&#305;d&#305;r.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">&#350;ifreleme, orijinal veriyi matematiksel bir algoritmayla d&ouml;n&uuml;&#351;t&uuml;r&uuml;r. Do&#287;ru anahtara sahip olan herhangi biri bu veriyi geri &ccedil;&ouml;zebilir. Yani &#351;ifreleme geri d&ouml;nd&uuml;r&uuml;lebilir bir i&#351;lemdir.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Tokenizasyon ise veriyi ba&#351;ka bir de&#287;erle de&#287;i&#351;tirir; bu de&#287;erin orijinal veriyle matematiksel bir ili&#351;kisi yoktur. Token ele ge&ccedil;irilse bile ger&ccedil;ek veriye ula&#351;mak i&ccedil;in vault sistemine eri&#351;mek gerekir.<\/span><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tokenization, hassas verilerin farkl&#305; de&#287;erlerle ifade edilerek, korunmas&#305; y&ouml;ntemi olarak tan&#305;mlan&#305;r. <\/p>\n","protected":false},"author":1,"featured_media":24431,"menu_order":0,"template":"","meta":{"footnotes":""},"glossary-categories":[],"glossary-tags":[],"glossary-languages":[],"class_list":["post-4005","glossary","type-glossary","status-publish","has-post-thumbnail","hentry"],"post_title":"Tokenization (Tokenizasyon) nedir?","post_content":"Tokenization (Tokenizasyon), hassas verilerin farkl\u0131 de\u011ferlerle ifade edilerek, korunmas\u0131 y\u00f6ntemi olarak tan\u0131mlan\u0131r. Simgele\u015ftirme olarak da tabir edilen bu y\u00f6ntem, bir veriyi daha k\u00fc\u00e7\u00fck birimlere ay\u0131rman\u0131n yoludur.\r\n\r\nVeriler; karakter, kelime ya da alt kelime gruplar\u0131yla simgele\u015ftirilir. Bir kredi kart\u0131 numaras\u0131n\u0131n tamam\u0131n\u0131n yaz\u0131lmas\u0131 yerine, baz\u0131 b\u00f6l\u00fcmlerinde \u00e7e\u015fitli harfler kullan\u0131lmas\u0131, buna \u00f6rnek g\u00f6sterilebilir. <span style=\"font-weight: 400;\">1111-2222-3333-4444 numaral\u0131 bir kart\u0131n sistemler aras\u0131nda 1111-abcd-efgh-4444 bi\u00e7iminde dola\u015fmas\u0131 tokenizasyonun en somut g\u00f6stergelerinden biridir.<\/span>\r\n\r\nBirka\u00e7 \u015fekilde tokenizasyon yap\u0131labilir: kelime, karakter ya da alt kelime \u015fifrelemesi. Her birinin avantaj ve dezavantajlar\u0131 da bulunmaktad\u0131r. Kullan\u0131lacak alana g\u00f6re bu tokenization y\u00f6ntemlerinden en uygun olan\u0131 belirlenir.\r\n<h2><strong>Tokenization (Tokenizasyon) nerelerde kullan\u0131l\u0131r?<\/strong><\/h2>\r\nMobil uygulamalar, oyunlar, gayrimenkul yat\u0131r\u0131m\u0131, varl\u0131k y\u00f6netimi, s\u00f6zle\u015fme ve kontratlar i\u00e7in tokenization y\u00f6ntemi uygulanabilir ve uygulan\u0131r durumdad\u0131r. T\u00fcm bu yap\u0131lar i\u00e7inde kullan\u0131lan hassas veriler, bu y\u00f6ntemle g\u00fcvenlik alt\u0131na al\u0131n\u0131r.\r\n<h2><strong>Blokzincirde tokenization (tokenizasyon)<\/strong><\/h2>\r\nBlokzincir, merkeziyetsiz yap\u0131da bir ekosistem oldu\u011fu i\u00e7in tokenization y\u00f6ntemi, bu d\u00fcnyan\u0131n olmazsa olmaz\u0131d\u0131r. Yap\u0131lan i\u015flemlerin onaylanmas\u0131 i\u00e7in \u00fc\u00e7\u00fcnc\u00fc bir ki\u015fiye ihtiya\u00e7 duyulmamas\u0131, bu y\u00f6ntemin uygulanmas\u0131n\u0131 zorunlu k\u0131lm\u0131\u015ft\u0131r. Bu sayede blokzincir; noter, arac\u0131l\u0131k masraflar\u0131 ya da b\u00fcrokratik kurallar olmadan h\u0131zl\u0131 ve \u015feffaf bir \u015fekilde i\u015flemleri ger\u00e7ekle\u015ftiren bir yap\u0131dad\u0131r. Hatta her varl\u0131\u011f\u0131n tokenize edilebilece\u011finin de kan\u0131t\u0131n\u0131 beraberinde sunar.\r\n\r\nHer ekosistemin kendine ait tokeninin olmas\u0131, tokenization y\u00f6ntemi i\u00e7in gereklidir. Ethereum a\u011f\u0131n\u0131n sa\u011flad\u0131\u011f\u0131 hizmetten yararlanmak i\u00e7in Ether almak bunun bir \u00f6rne\u011fidir. Her kripto paran\u0131n ba\u011fl\u0131 oldu\u011fu ve hizmet sunan bir a\u011f\u0131, her a\u011f\u0131n da bir tokeni vard\u0131r. Bu \u015fekilde g\u00fcvenli bir d\u00f6ng\u00fc sa\u011flan\u0131r.\r\n<h2><strong>Tokenizasyon t\u00fcrleri nelerdir?<\/strong><\/h2>\r\n<span style=\"font-weight: 400;\">Tokenizasyon \u00fc\u00e7 ana y\u00f6ntemle uygulan\u0131r: kelime (word), karakter (character) ve alt kelime (subword) tokenizasyonu. Bu \u00fc\u00e7\u00fc aras\u0131ndaki temel fark, verinin ne kadar k\u00fc\u00e7\u00fck par\u00e7alara b\u00f6l\u00fcnd\u00fc\u011f\u00fcd\u00fcr.<\/span>\r\n\r\n<span style=\"font-weight: 400;\">Her y\u00f6ntemin kullan\u0131m amac\u0131na g\u00f6re farkl\u0131 avantajlar\u0131 vard\u0131r:<\/span>\r\n<ul>\r\n \t<li style=\"font-weight: 400;\" aria-level=\"1\"><b>Kelime tokenizasyonu:<\/b><span style=\"font-weight: 400;\"> Metni bo\u015fluk ve noktalama i\u015faretlerine g\u00f6re kelimelere b\u00f6ler. Uygulamas\u0131 basittir. Ancak T\u00fcrk\u00e7e gibi eklemeli dillerde ayn\u0131 kelimenin onlarca farkl\u0131 bi\u00e7imi ortaya \u00e7\u0131kabilir.<\/span><\/li>\r\n \t<li style=\"font-weight: 400;\" aria-level=\"1\"><b>Karakter tokenizasyonu: <\/b><span style=\"font-weight: 400;\">Her harfi ayr\u0131 bir token olarak ele al\u0131r. S\u00f6zl\u00fck boyutu k\u00fc\u00e7\u00fck kal\u0131r. Ancak c\u00fcmleler \u00e7ok uzun token dizilerine d\u00f6n\u00fc\u015f\u00fcr ve modelin i\u015fi zorla\u015f\u0131r.<\/span><\/li>\r\n \t<li style=\"font-weight: 400;\" aria-level=\"1\"><b>Alt kelime tokenizasyonu:<\/b><span style=\"font-weight: 400;\"> Kelimeyi k\u00f6k ve eklere b\u00f6ler. G\u00fcn\u00fcm\u00fcz yapay zeka modellerinin b\u00fcy\u00fck \u00e7o\u011funlu\u011fu bu y\u00f6ntemi tercih eder. Nadir kelimeler bile par\u00e7alanarak temsil edilebildi\u011finden s\u00f6zl\u00fck boyutu dengede tutulur.<\/span><\/li>\r\n<\/ul>\r\n<span style=\"font-weight: 400;\">Kullan\u0131lacak alana g\u00f6re bu tokenizasyon y\u00f6ntemlerinden en uygun olan\u0131 belirlenir.<\/span>\r\n<h2><strong>NLP ve yapay zekada tokenizasyon nas\u0131l \u00e7al\u0131\u015f\u0131r?<\/strong><\/h2>\r\n<span style=\"font-weight: 400;\">Do\u011fal dil i\u015fleme (NLP) modellerinin metni anlayabilmesi i\u00e7in \u00f6nce onu say\u0131sal birimlere d\u00f6n\u00fc\u015ft\u00fcrmesi gerekir. Bu d\u00f6n\u00fc\u015f\u00fcm s\u00fcreci tokenizasyonla ba\u015flar. Ham metin, se\u00e7ilen y\u00f6nteme g\u00f6re token\u2019lara ayr\u0131l\u0131r. Ard\u0131ndan her token bir say\u0131ya (ID) e\u015flenerek model beslenir.<\/span>\r\n\r\n<span style=\"font-weight: 400;\">\u00d6rne\u011fin \"Dondurmac\u0131 d\u00fckkan\u0131\" c\u00fcmlesi kelime tokenizasyonuyla [\"Dondurmac\u0131\", \"d\u00fckkan\u0131\"] bi\u00e7iminde iki token\u2019a ayr\u0131l\u0131r. Alt kelime tokenizasyonuyla ise [\"dondurma\", \"c\u0131\", \"d\u00fckkan\", \"\u0131\"] gibi d\u00f6rt ya da daha fazla token\u2019a b\u00f6l\u00fcnebilir.<\/span>\r\n\r\n<span style=\"font-weight: 400;\">G\u00fcn\u00fcm\u00fcz b\u00fcy\u00fck dil modellerinin \u00e7o\u011fu Byte Pair Encoding (BPE) y\u00f6ntemini kullan\u0131r. GPT-2, GPT-3 ve benzeri modellerde standart haline gelen BPE, metindeki en s\u0131k ge\u00e7en karakter \u00e7iftlerini tekrar tekrar birle\u015ftirerek bir s\u00f6zl\u00fck olu\u015fturur. Nadir kelimeler bile par\u00e7alanarak temsil edilebildi\u011finden s\u00f6zc\u00fck d\u0131\u015f\u0131 (out-of-vocabulary) hatalar\u0131 azal\u0131r.<\/span>\r\n\r\n<span style=\"font-weight: 400;\">T\u00fcrk\u00e7e, eklemeli dil yap\u0131s\u0131 nedeniyle tokenizasyonda \u00f6zel bir zorluk ta\u015f\u0131r. <\/span><a href=\"https:\/\/dl.acm.org\/doi\/10.1145\/3578707\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">ACM'de yay\u0131mlanan<\/span><\/a><span style=\"font-weight: 400;\"> bir ara\u015ft\u0131rmada standart BPE ve WordPiece y\u00f6ntemlerinin T\u00fcrk\u00e7e s\u00f6zc\u00fck k\u00f6klerini ve eklerini do\u011fru bi\u00e7imde ayr\u0131\u015ft\u0131rmakta g\u00fc\u00e7l\u00fck \u00e7ekti\u011fi g\u00f6sterilmi\u015ftir. Bu nedenle T\u00fcrk\u00e7e i\u00e7in morfolojinin fark\u0131nda olan tokenizasyon yakla\u015f\u0131mlar\u0131 \u00fczerine akademik \u00e7al\u0131\u015fmalar s\u00fcrd\u00fcr\u00fcl\u00fcr.<\/span>\r\n\r\n<span style=\"font-weight: 400;\">Yayg\u0131n kullan\u0131lan tokenizasyon k\u00fct\u00fcphaneleri aras\u0131nda Hugging Face Tokenizers, NLTK, spaCy ve OpenAI'\u0131n TikToken k\u00fct\u00fcphanesi say\u0131labilir.<\/span>\r\n<h2><strong>Veri g\u00fcvenli\u011finde tokenizasyon nas\u0131l kullan\u0131l\u0131r?<\/strong><\/h2>\r\n<span style=\"font-weight: 400;\">Veri g\u00fcvenli\u011fi ba\u011flam\u0131nda tokenizasyon, hassas bilgiyi (\u00f6rne\u011fin kredi kart\u0131 numaras\u0131 veya kimlik numaras\u0131) onunla matematiksel ba\u011flant\u0131s\u0131 bulunmayan rastgele bir de\u011ferle de\u011fi\u015ftirme i\u015flemidir. Bu rastgele de\u011fere \"token\" denir. Orijinal veri \"vault\" ad\u0131 verilen g\u00fcvenli bir kasada \u015fifreli olarak saklan\u0131r.<\/span>\r\n\r\n<span style=\"font-weight: 400;\">S\u00fcre\u00e7 \u015fu \u015fekilde i\u015fler:\u00a0<\/span>\r\n<ol>\r\n \t<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Kullan\u0131c\u0131 al\u0131\u015fveri\u015f s\u0131ras\u0131nda kredi kart\u0131 bilgisini sisteme girer.\u00a0<\/span><\/li>\r\n \t<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Tokenizasyon motoru bu bilgiyi g\u00fcvenli bir kanal \u00fczerinden al\u0131r, rastgele bir token \u00fcretir ve orijinal kart\u0131 vault sisteminde saklar.\u00a0<\/span><\/li>\r\n \t<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Bundan sonra t\u00fcm i\u015flemler bu token \u00fczerinden y\u00fcr\u00fct\u00fcl\u00fcr; ger\u00e7ek kart numaras\u0131 sistemler aras\u0131nda dola\u015fmaz.<\/span><\/li>\r\n<\/ol>\r\n<span style=\"font-weight: 400;\">D\u00fcnya genelinde \u00f6deme sekt\u00f6r\u00fcnde yayg\u0131n olarak kullan\u0131lan PCI DSS (Payment Card Industry Data Security Standard), \u00f6deme verilerinin i\u015flenmesi, saklanmas\u0131 ve aktar\u0131lmas\u0131nda uyulmas\u0131 gereken uluslararas\u0131 g\u00fcvenlik kurallar\u0131n\u0131 tan\u0131mlar. Visa, Mastercard, American Express ve Discover'\u0131n ortak konsorsiyumu taraf\u0131ndan 2004'te kurulan bu standart, bir\u00e7ok \u00fclkede \u00f6deme altyap\u0131s\u0131n\u0131n temelini olu\u015fturmaktad\u0131r.<\/span>\r\n\r\n<span style=\"font-weight: 400;\">T\u00fcrkiye'de ise durum farkl\u0131d\u0131r. \u00d6deme sistemlerine ili\u015fkin kendi d\u00fczenleyici \u00e7er\u00e7evesini uygular. Bu \u00e7er\u00e7eve kapsam\u0131nda kredi kart\u0131 verilerinin tokenizasyon yoluyla \u00fc\u00e7\u00fcnc\u00fc taraf sistemlerde i\u015flenmesi ve saklanmas\u0131, ulusal mevzuata ayk\u0131r\u0131 kabul edilmektedir. Yani PCI DSS'in uluslararas\u0131 alanda \u00f6ng\u00f6rd\u00fc\u011f\u00fc tokenizasyon modeli, T\u00fcrkiye'deki \u00f6deme sistemleri i\u00e7in do\u011frudan ge\u00e7erli de\u011fil veya ge\u00e7erli olsa dahi kripto varl\u0131k hizmet sa\u011flay\u0131c\u0131lar\u0131 ile i\u015fbirli\u011fi i\u00e7inde kullan\u0131labilecek bir model de\u011fildir.\u00a0<\/span>\r\n<h2><strong>Tokenizasyon ile \u015fifreleme aras\u0131ndaki fark<\/strong><\/h2>\r\n<span style=\"font-weight: 400;\">Tokenizasyon ve \u015fifreleme (encryption) s\u0131k kar\u0131\u015ft\u0131r\u0131lan iki kavramd\u0131r. Ancak \u00e7al\u0131\u015fma mant\u0131klar\u0131 birbirinden farkl\u0131d\u0131r.<\/span>\r\n\r\n<span style=\"font-weight: 400;\">\u015eifreleme, orijinal veriyi matematiksel bir algoritmayla d\u00f6n\u00fc\u015ft\u00fcr\u00fcr. Do\u011fru anahtara sahip olan herhangi biri bu veriyi geri \u00e7\u00f6zebilir. Yani \u015fifreleme geri d\u00f6nd\u00fcr\u00fclebilir bir i\u015flemdir.<\/span>\r\n\r\n<span style=\"font-weight: 400;\">Tokenizasyon ise veriyi ba\u015fka bir de\u011ferle de\u011fi\u015ftirir; bu de\u011ferin orijinal veriyle matematiksel bir ili\u015fkisi yoktur. Token ele ge\u00e7irilse bile ger\u00e7ek veriye ula\u015fmak i\u00e7in vault sistemine eri\u015fmek gerekir.<\/span>","_links":{"self":[{"href":"https:\/\/www.paribu.com\/blog\/wp-json\/wp\/v2\/glossary\/4005","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.paribu.com\/blog\/wp-json\/wp\/v2\/glossary"}],"about":[{"href":"https:\/\/www.paribu.com\/blog\/wp-json\/wp\/v2\/types\/glossary"}],"author":[{"embeddable":true,"href":"https:\/\/www.paribu.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":3,"href":"https:\/\/www.paribu.com\/blog\/wp-json\/wp\/v2\/glossary\/4005\/revisions"}],"predecessor-version":[{"id":25635,"href":"https:\/\/www.paribu.com\/blog\/wp-json\/wp\/v2\/glossary\/4005\/revisions\/25635"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.paribu.com\/blog\/wp-json\/wp\/v2\/media\/24431"}],"wp:attachment":[{"href":"https:\/\/www.paribu.com\/blog\/wp-json\/wp\/v2\/media?parent=4005"}],"wp:term":[{"taxonomy":"glossary-categories","embeddable":true,"href":"https:\/\/www.paribu.com\/blog\/wp-json\/wp\/v2\/glossary-categories?post=4005"},{"taxonomy":"glossary-tags","embeddable":true,"href":"https:\/\/www.paribu.com\/blog\/wp-json\/wp\/v2\/glossary-tags?post=4005"},{"taxonomy":"glossary-languages","embeddable":true,"href":"https:\/\/www.paribu.com\/blog\/wp-json\/wp\/v2\/glossary-languages?post=4005"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}