Ինչպես է Google BERT Vs. Սմիթի ալգորիթմները միասին են աշխատում - Սեմալտի ակնարկ




Google- ը վերջերս թողարկեց հետազոտական ​​աշխատանք իրենց նոր NLP ալգորիթմի SMITH- ի վերաբերյալ: Այս փաստաթուղթը լուսաբանեց SEO- ի շատ մասնագետների այն փոփոխությունների մասին, որոնք ենթադրում են SERP վարկանիշի ավելացում կամ անկում: Այնուամենայնիվ, այստեղ մեր մտահոգությունն այն է, թե ինչպե՞ս է այս նոր SMITH ալգորիթմը համեմատվում BERT- ի հետ:

Google- ի կողմից հրապարակված փաստաթղթում նրանք պնդում են, որ SMITH- ը գերազանցում է BERT- ին `հասկանալու երկար որոնման հարցերը և երկար փաստաթղթերը: ՍՄԻԹ-ին այդքան հետաքրքիր դարձնելն այն է, որ այն կարող է հասկանալ փաստաթղթի հատվածներ, որոնք նման են այն բաներին, որոնք անում է BERT- ը բառերի և նախադասությունների հետ: SMITH- ի այս բարելավված առանձնահատկությունը հնարավորություն է տալիս հեշտությամբ հասկանալ ավելի երկար փաստաթղթեր:

Բայց մինչև որևէ առաջ գնալը, մենք պետք է տեղեկացնենք ձեզ, որ այս պահի դրությամբ SMITH- ը չի ապրում Google- ի ալգորիթմներում: Բայց եթե մեր շահարկումները ճիշտ են, այն կգործարկվի հատվածի ինդեքսավորմանը զուգահեռ, կամ դրան նախորդելու է: Եթե ​​իսկապես հետաքրքրված եք սովորել, թե ինչպես դասակարգվել SEP- ում, մեքենայական ուսուցումն անխուսափելիորեն գնալու է այս հետաքրքրության կողքին:

Դե ինչ վերադառնանք թեմային ՝ BERT- ը պատրաստվում է փոխարինել? Արդյո՞ք ոստայնում շատ փաստաթղթեր, որոնք հսկայական, առողջ և, հետեւաբար, ավելի երկար են, ավելի լավ են կատարում SMITH- ի հետ:

Եկեք ավելի ցատկենք և տեսնենք, թե ինչ ենք եզրակացրել: SMITH- ը կարող է կատարել ինչպես ուժեղ, այնպես էլ բարակ փաստաթղթեր կարդալու գործը: Մտածեք դա բազուկայի պես: Դա կարող է մեծ վնաս պատճառել, որով կարող է նաև դռներ բացել:

Սկսել ՝ ինչու՞ BERT կամ SMITH:

Այստեղ իրական հարցն այն է, թե ինչու է որոնիչը պահանջելու Բնական ուսուցման վերամշակում `որոնման արդյունքներ տրամադրելու համար: Պատասխանը պարզ է. Որոնման համակարգերը պահանջում են NLP ՝ որոնման համակարգից բանալի բառեր դեպի իրեր կամ էջեր անցնելու համար:

Որտեղ Google- ը գաղափար չունի, այլ բան կարող է լինել էջում, բացի հիմնաբառերից, կամ արդյոք ինդեքսավորվող բովանդակությունը նույնիսկ իմաստ ունի որոնման հարցման հետ կապված: NLP- ի շնորհիվ Google- ը կարող է հասկանալ իր որոնման մեջ մուտքագրված նիշերի համատեքստը:
NLP- ի շնորհիվ Google- ը կարող է տարբերակել օգտագործողի մտադրությունները, երբ նրանք ասում են «գետի ափ» և «բանկային հաշիվ»: Այն նաև կարող է անբնական համարել այնպիսի արտահայտություններ, ինչպիսիք են. «Քերոլայնը հանդիպել է իր ընկերներին խմելու, խմելու, խմորեղենի, ալյուրի, խմիչքի համար»:

Որպես SEO- ի մասնագետներ, մենք պետք է ասենք, որ որոնման հարցում հասկանալը երկար ճանապարհ է անցել: Լավագույնները կարծում են, որ անցյալում չափազանց դժվար էր գտնել ճիշտ հոդվածներ ինտերնետում:

Հասկանալով BERT- ին

BERT- ը ներկայումս գործում է որպես NLP- ի լավագույն մոդելը, որը մենք ունենք շատ, եթե ոչ մեծամասնության համար նախատեսված ծրագրերի համար, հատկապես երբ խոսքը վերաբերում է բարդ լեզվական կառուցվածքները հասկանալուն: Շատերը համարում են, որ առաջին Bidirectianal նիշը ամենամեծ թռիչքն է այս ալգորիթմում: Փոխանակ ունենալու ալգորիթմ, որը կարդում է ձախից աջ, BERT- ը կարող է նաև հասկանալ բառերը ՝ կապված դրանց համատեքստի հետ: Այսպիսով, դա արդյունք չի տա հարցման մեջ դրված առանձին բառերի համար, բայց ինդեքսավորում է վեբ-էջերը ՝ հիմնված որոնման հարցում բառերի հավաքական նշանակության վրա:

Ահա մի օրինակ ՝ ձեր ընկալումը հեշտացնելու համար.

ԲԵՌՆԱՊԵՏ ԼՈՒՍ ՈՒՆԻ:

Եթե ​​դուք մեկնաբանեք այդ պնդումը ձախից աջ, «լույս» բառին հասնելուն պես, բեռնատարը կդիտարկեիք որպես լույս ունեցող մի բան: Դա այն պատճառով է, որ բեռնատարը եկել է հայտարարության լույսից առաջ:

Բայց եթե մենք ուզում ենք դասակարգել բեռնատար ավտոմեքենաների վրա, մենք կարող է «լույս» թողնել, քանի որ դրան «բեռնատարից» առաջ չենք հանդիպում:

Դժվար է հայտարարությունը դիտարկել միայն մեկ ուղղությամբ:

Բացի այդ, BERT- ն ունի նաև այսքան ուշագրավ լինելու գաղտնի մեկ այլ առավելություն, որը թույլ է տալիս արդյունավետորեն մշակել լեզուն նախորդ մոդելների համեմատ ռեսուրսների ավելի ցածր արժեքով: Դա իսկապես կարևոր գործոն է, որը պետք է հաշվի առնել, երբ մեկը ցանկանում է այն կիրառել ամբողջ ոստայնում:

Նշանների կիրառումը ևս մեկ էվոլյուցիա է, որն ուղեկցել է BERT- ին: BERT- ում կա 30,000 նշան, և սրանցից յուրաքանչյուրը ներկայացնում է ընդհանուր բառ `որոշ զույգերով` լրացուցիչ նշանների նիշերի և դրվագների համար, եթե բառ գոյություն ունի 30,000-ից դուրս:

Նշաններ և տրանսֆորմատորներ մշակելու իր ունակության միջոցով BERT- ը հասկացավ բովանդակությունը, ինչը նրան նաև հնարավորություն տվեց պատշաճ կերպով հասկանալ նախադասություններ:

Այնպես որ, եթե ասենք, որ «օրիորդը գնաց ափ. Նա ավելի ուշ նստեց գետի ափին և դիտեց գետի հոսքը»:

BERT- ը այդ նախադասություններին տարբեր արժեքներ է նշանակելու, քանի որ դրանք վերաբերում են երկու տարբեր բաների:

Հասկանալով SMITH- ը

Դրանից հետո գալիս է SMITH- ը ՝ ավելի լավ ռեսուրսներով և թվերով ալգորիթմ, որն օգտագործվում է ավելի մեծ փաստաթղթերի մշակման համար: BERT- ն օգտագործում է շուրջ 256 նշան յուրաքանչյուր փաստաթղթի համար, և երբ այն գերազանցում է այս շեմը, հաշվարկման արժեքը չափազանց բարձր է դառնում օպտիմալ գործառույթի համար: Ի հակադրություն, SMITH- ը կարող է գործածել մինչև 2,248 նշան յուրաքանչյուր փաստաթղթի համար: Դա մոտավորապես 8X թվանշանի BERT- ի օգտագործման քանակն է:

Հասկանալու համար, թե ինչու են հաշվարկային ծախսերը բարձրանում մեկ NLP մոդելի մեջ, նախ պետք է հաշվի առնել, թե ինչ է անհրաժեշտ նախադասություն և պարբերություն հասկանալու համար: Նախադասության հետ գործ ունենալիս պետք է հասկանալ միայն մեկ ընդհանուր հասկացություն: Ավելի քիչ բառեր կան, որոնք առնչվում են միմյանց, ուստի ավելի քիչ կապեր են բառերի և գաղափարների միջև, որոնք նրանք պահում են հիշողության մեջ:

Նախադասությունները դարձնելով պարբերություններ, այս բառերի կապը մեծապես բազմապատկվում է: 8X պրոցեսները տեքստը կպահանջի ևս շատ անգամ արագության և հիշողության օպտիմալացման կարողություն `նույն մոդելի օգտագործմամբ: Սա այն դեպքն է, երբ SMITH- ը բոլոր փոփոխությունները կատարում է հիմնականում խմբաքանակով և շատ անցանց վերամշակմամբ: Հետաքրքիր է, որ SMITH- ը դեռ կախված է BERT- ից `ճիշտ գործելու համար:

Ահա այն նկարագրությունը, թե ինչպես SMITH- ն իր հիմքում վերցնում է մի փաստաթուղթ.
  1. Այն նախ բաժանում է փաստաթուղթը խմբավորման չափերի, որոնք ավելի հեշտ են կառավարվում:
  2. Դրանից հետո այն վերամշակում է նախադասությունների յուրաքանչյուր բլոկը անհատապես:
  3. Տրանսֆորմատորն այնուհետև սովորում է յուրաքանչյուր բլոկի համատեքստային ներկայացուցչություն, որից հետո դրանք վերածում է փաստաթղթերի ներկայացման:

Ինչպե՞ս է աշխատում ՍՄԻԹ-ը:

SMITH մոդելը մարզելու համար մենք BERT- ից սովորում ենք երկու եղանակով.

BERT- ը մարզելու համար նախադասությունից մի բառ է հանում, և կտրամադրվեն այլընտրանքային տարբերակներ

Ավելի լավ պատրաստված BERT- ն այն մեկն է, որն ավելի հաջող կլինի տրամադրված այլընտրանքներից ճիշտ տարբերակ ընտրելիս: Օրինակ, եթե BERT- ին տրվի նախադասությունը.

Ուրախ շագանակագույնը ------ ցատկեց պիկետի ցանկապատի վրայով:
  • Տարբերակ մեկը `լոլիկ:
  • Երկու տարբերակ `շուն:
Որքան ավելի լավ պատրաստված լինի BERT- ը, այնքան մեծ կլինի ճիշտ տարբերակ ընտրելու նրա շանսերը, ինչը երկրորդ տարբերակն է:

Վերապատրաստման այս մեթոդը կիրառվում է նաև SMITH- ում:

SMITH- ը պատրաստված է մեծ փաստաթղթերի համար

Որքան լավ պատրաստված SMITH- ն է, այնքան ավելի մեծ են նրա հնարավորությունները `ճանաչված բաց թողած նախադասությունները: Դա նույն գաղափարն է BERT- ի հետ, բայց այլ ծրագիր: Այս մասը հատկապես հետաքրքիր է, քանի որ այն նկարում է մի աշխարհ, որում Google- ը ստեղծում է բովանդակություն, որը միմյանց հետ միասին պատված է որոնման համակարգի արդյունքների էջերում: Իհարկե, օգտվողները կարող են հեռանալ, բայց չեն գնա, որովհետև Google- ը կարող է իր կարճ արդյունքների էջում կարճ և երկար ձևով պարունակել բովանդակություն բոլոր լավագույն աղբյուրներից:

Եթե ​​կասկածում եք, որ դա տեղի է ունենում, պետք է իմանաք, որ այն արդեն սկսել է տեղի ունենալ, և չնայած նրանք դեռ չեն տիրապետել դրան, դա սկիզբ է:

SMITH- ն ավելի՞ լավ է, քան BERT- ը:

Բոլոր կարդացածներիդ հետ միանգամայն բնական է ենթադրել, որ ՍՄԻԹ-ն ավելի լավն է, և շատ առաջադրանքներում, իրոք, ավելի լավ է: Բայց հաշվի առեք, թե ինչպես եք մի պահ օգտագործում ինտերնետը. ի՞նչ հարցեր եք պարբերաբար մուտքագրում որոնման հարցերում:
  • «Ի՞նչ եղանակ է կանխատեսվում այսօրվա համար»:
  • «Ուղղություններ դեպի ռեստորան»:
Նման որոնման հարցումների պատասխանելը սովորաբար պահանջում է կարճ բովանդակություն, հաճախ սահմանափակ և առանց բարդ տվյալների: SMITH- ն ավելի շատ ներգրավված է ավելի երկար և ավելի բարդ փաստաթղթերի և երկար ու բարդ որոնման հարցումների ըմբռման մեջ:

Սա կներառի մի քանի փաստաթղթերի և թեմաների միավորում `դրանց պատասխանները ստեղծելու համար: Այն որոշում է, թե ինչպես կարելի է կոտրել բովանդակությունը ՝ Google- ին հնարավորություն տալով իմանալ ցուցադրման ճիշտը: Դա կօգնի Google- ին հասկանալ, թե ինչպես են բովանդակության էջերը կապված միմյանց հետ, և այն տալիս է սանդղակ, որի վրա հղումները կարող են գնահատվել այլ առավելությունների շարքում:

Ասվածի հետևանքով մենք եզրակացնում ենք ՝ ասելով, որ և ԲԵՐՏ-ն, և ՍՄԻԹ-ը կարևոր են, և նրանք երկուսն էլ ծառայում են իրենց յուրահատուկ նպատակին:

Եզրակացություն

Չնայած SMITH- ը բազուկա է, այն մեզ պետք է, որպեսզի հստակ պատկերացնի, թե ինչպես են ընդհանուր առմամբ իրերը: Ռեսուրսներում դա ավելի շատ արժե, քանի որ ավելի մեծ աշխատանք է կատարում, բայց շատ ավելի քիչ է արժի, քան BERT- ը ՝ նույն այդ աշխատանքը կատարելիս:

BERT- ն օգնում է SMITH- ին `հասկանալու կարճ հարցումները և փոքր բովանդակության կտորները: Սա, սակայն, այնքան ժամանակ, քանի դեռ Google- ը չի մշակել մեկ այլ NLP ալգորիթմ, որը կփոխարինի երկուսին, և այնուհետև մենք կշարժվենք և կհասնենք SEO- ի ևս մեկ առաջխաղացման:

Հետաքրքրվա՞ծ եք SEO- ով: Outանոթացեք մեր այլ հոդվածների հետ Սեմալտ բլոգ,

mass gmail