Արհեստական ինտելեկտի տեխնոլոգիաների արագ զարգացող աշխարհում, որտեղ յուրաքանչյուր նոր մոդել դառնում է ավելի հզոր և ռեսուրսատար, հիշողության արդյունավետ օգտագործման խնդիրը հատկապես սուր է դրված։ Հենց այս կարևորագույն խնդրի լուծմանն է ուղղված Google Research-ի նոր բեկումը։ Ընկերությունը ներկայացրել է TurboQuant-ը՝ հիշողության սեղմման նորարարական ալգորիթմ, որը խոստանում է արմատապես փոխել խոշորածավալ ԱԻ համակարգերի տեղակայման և շահագործման մոտեցումը։
Google-ի հետազոտողների կողմից մշակված TurboQuant-ը զգալի առաջընթաց է նեյրոնային ցանցերի աշխատանքի օպտիմալացման գործում։ Դրա հիմնական առանձնահատկությունը ԱԻ մոդելների գործունեության համար անհրաժեշտ օպերատիվ հիշողության սպառումը առնվազն վեց անգամ կրճատելու կարողությունն է։ Ընդ որում, ինչը չափազանց կարևոր է, սա ձեռք է բերվում առանց ալգորիթմների ճշգրտության կամ արդյունավետության որևէ վնասի։ Այս նորությունը, որն առաջին անգամ հրապարակվել է Google Research-ի պաշտոնական բլոգում և տարածվել TechCrunch-ի կողմից, արդեն լայն արձագանք է գտել տեխնոլոգիական հանրության շրջանում։
Ժամանակակից խոշոր լեզվական մոդելների (ԽԼՄ) հիմնական «նեղ վիզը» աշխատանքային հիշողության բարձր սպառումն է, մասնավորապես, այսպես կոչված KV-քեշի (key-value cache)։ Այս քեշը ծառայում է միջանկյալ հաշվարկների պահպանման համար՝ կանխելով դրանց կրկնակի հաշվարկը պատասխանի յուրաքանչյուր նոր տարրի ստեղծման ժամանակ, ինչը չափազանց կարևոր է արագության և արդյունավետության համար։ Սակայն մոդելների բարդության և կոնտեքստային պատուհանի աճի հետ մեկտեղ KV-քեշի չափը դառնում է աստղաբաշխական՝ պահանջելով հսկայական ծավալի թանկարժեք հիշողություն։
TurboQuant-ը լուծում է այս խնդիրը՝ հիմնվելով վեկտորային քվանտացման առաջադեմ մեթոդի վրա, որը վաղուց հայտնի է տվյալների սեղմման ոլորտում, բայց զգալիորեն կատարելագործվել է Google-ի կողմից։ Ալգորիթմը օպտիմալացնում է բանալիների և արժեքների պահպանումը KV-քեշում՝ արդյունավետորեն վերացնելով ավելորդ հիշողության ծախսերը (overhead), որոնք բնորոշ են քվանտացման ավանդական մեթոդներին։ Լաբորատոր մանրակրկիտ փորձարկումների ընթացքում հանրաճանաչ բաց մոդելների վրա, ինչպիսիք են Gemma-ն և Mistral-ը, TurboQuant-ը ցույց է տվել տպավորիչ արդյունքներ. նրան հաջողվել է սեղմել KV-քեշը մինչև անհավանական 3 բիթ մեկ արժեքի համար։
Հատկապես ուշագրավ է, որ այս սեղմումը ձեռք է բերվել առանց որևէ որակի անկման։ Մոդելների ճշգրտությունը հարց-պատասխան, կոդի գեներացման և ամփոփման խնդիրներում մնացել է լիովին չսեղմված տարբերակների մակարդակում։ Բացի հիշողության սպառման զգալի կրճատումից, Google-ը հայտարարում է ուշադրության հաշվարկների (attention logits) պոտենցիալ արագացման մասին՝ մինչև ութ անգամ մասնագիտացված սարքավորումների վրա, ինչպիսին է NVIDIA H100-ը, որոշ սցենարներում։ Սա նշանակում է ոչ միայն ռեսուրսների խնայողություն, այլև տեղեկատվության մշակման արագության բարձրացում։
TurboQuant-ի իրական արտադրանքներում ներդրման հեռանկարները խոստումնալից են թվում։ Այս տեխնոլոգիայի հաջող մասշտաբավորումը կարող է զգալիորեն նվազեցնել ԱԻ համակարգերի շահագործման ծախսերը՝ դրանք ավելի մատչելի դարձնելով ընկերությունների և մշակողների լայն շրջանակի համար։ Բացի այդ, դա թույլ կտա մոդելներին աշխատել շատ ավելի երկար կոնտեքստով՝ նույն ապարատային ռեսուրսների դեպքում՝ բացելով նոր հորիզոններ ավելի խելացի և հարմարվողական հավելվածներ ստեղծելու համար։
Կարևոր է նշել, որ TurboQuant-ը հիմնականում ուղղված է ինֆերենցիայի (արդեն մարզված մոդելի կատարման) փուլին, որտեղ հիշողության սպառումը ամենակարևորն է մասշտաբավորման համար։ Այն չի լուծում մոդելների մարզման փուլում հսկայական ծախսերի խնդիրը, ինչը մնում է հետազոտողների համար առանձին, բայց ոչ պակաս կարևոր խնդիր։ Ներկայումս մշակումը գտնվում է լաբորատոր հետազոտությունների փուլում, և դրա ամբողջական շնորհանդեսը, կապակցված PolarQuant և Quantized Johnson-Lindenstrauss ալգորիթմների հետ մեկտեղ, սպասվում է ICLR 2026 հեղինակավոր կոնֆերանսում։
Ինտերնետում տեխնոլոգիան արդեն հասցրել են համեմատել հանրաճանաչ «Սիլիկոնային հովիտ» սերիալի լեգենդար Pied Piper «կոմպրեսորի» հետ, որը նույնպես խոստանում էր տվյալների էքստրեմալ սեղմում գրեթե առանց կորուստների։ Այս համեմատությունը ընդգծում է TurboQuant-ի բարձր ներուժը և հեղափոխական բնույթը, որը, եթե արդարացնի իր վրա դրված հույսերը, կարող է դառնալ արհեստական ինտելեկտի հետագա ժողովրդավարացման և մասշտաբավորման հիմնական տարրերից մեկը։
