dogs

Аз съм ентусиаст на ИИ и обичам да следя ...

Прочетете Напред
Как Индия може да преосмисли цялата си здравна система с блокчейн

По същество изкуственият интелект е изпълнил много психологически концепции в цифрова форма. Съответно една от най-големите части на човешкия интелект е способността да се учи и усъвършенства миналите опити на една и съща задача.

Въпреки че това е разширено в AI като машинно обучение, съществува специфичен тип ML, който заимства сериозно от психологията. Усилващото обучение се основава на концепцията за обусловеност в психологията и го прилага по уникален начин, за да улесни надеждното обучение.

Какво е кондициониране?

„Кондициониране“ е общ термин, използван за описване на явление, при което преди това несвързан стимул и реакция са свързани чрез учене. Един от най-ранните и най-известни видове кондициониране е класическото кондициониране, известно още като павловско кондициониране.

Класическо кондициониране:

Открит за първи път от руския физиолог Иван Павлов, този метод на кондициониране се фокусира върху сдвояването на неутрален стимул с отговора от биологично мощен стимул. Това може да се види на примера на кучетата на Павлов.

Физиологът откри този феномен, когато изучаваше храносмилането при кучета. Когато храната е внесена, кучетата се слюноотделят; неволен биологичен отговор на храната. Въпреки това той експериментира с камбанен звън всеки път, когато храната е внесена, като по този начин създава връзка между звука на камбаната и храната.

Това води до слюнки на кучетата, когато чуят камбанен звън, като по този начин се ‘обуславят’ да реагират по начин, подобен на начина, по който биха реагирали на условен стимул (храна), освен ако стимулът не присъства. По този начин те бяха „научили“, че звукът на камбаната означава, че идва храна.

Днес класическото кондициониране намери приложение в приспособленията за диетични часовници. Тези приспособления дават на потребителя лек токов удар върху тях, показвайки неблагоприятно поведение, обикновено преяждане. Създава се връзка между неприятния стимул от токов удар към реакцията на хранене, като в крайна сметка се намаляват хранителните навици на потребителя.

Оперантно кондициониране:

Друг вид кондициониране е оперантното кондициониране, което е изградено върху класическите принципи на кондициониране и е вдъхновение за RL. Пионер на психолога Б. Ф. Скинър, това се разглежда като метод за обяснение на по-сложни човешки поведения, които не могат да бъдат обяснени с класическа обусловеност.

Оперативното кондициониране по-задълбочено разглежда процеса на кондициониране и също така дава начин да се повлияе на човешкото поведение чрез извършване на действия. Процесът се отличава с 3 основни принципа; укрепване, наказание и изчезване.

Оперативното кондициониране функционира върху идеята, че насърчаването на положителното поведение и обезсърчаването на негативното поведение може да има положителни ефекти върху психиката. Насърчаването на положителното поведение чрез благоприятни промени в околната среда е известно като подсилване, докато обезсърчаването на негативното поведение чрез неблагоприятни промени е известно като наказание.

Изчезването е премахване на връзката между стимул и реакция след дълъг период на наказание или подсилване. Това води до поведение, което се елиминира напълно.

Подсилването и неговите подкатегории са в основата на това, което изгражда концепциите за учене на подкрепления.

Как се прилага психологията в RL

Вместо да използва както подсилване, така и наказание, RL използва две форми на подсилване. Това са положително подкрепление и отрицателно подкрепление и се виждат в системите за възнаграждения на работния процес на обучение за усилване. Положителното подсилване е, когато се дава награда за насърчаване на положителното поведение. Отрицателното подсилване е, когато се отнема наказание, за да се насърчи поведението.

Въпреки че това не е черно-бяло в RL, тези концепции се използват в градиентна форма, за да се гарантира, че системата продължава по пътя си на самоусъвършенстване. По-ефективните решения получават по-голям размер на наградите, докато по-малко ефективните решения се предоставят с по-малък размер на наградите.

Зад TikTok Fiasco: Поредният изстрел от американски технологични гиганти в облачното господство

Това създава условие в алгоритъма, че по-ефективните решения предлагат по-голям шанс за получаване на награди, което води до агента да се опита да избере решението, което дава максимален размер на наградите.

Концепцията за изчезване също намира приложение в този подход, тъй като по-старите, по-малко ефективни пътища към решение са ефективно изкоренени поради липсата на армировка.

Кондициониране в обучението за подсилване

RL е пряко представяне на концепцията за укрепване, използвана за учене. В типичен работен процес на RL агент (алгоритъм) изпълнява определената му функция в околната среда. След това резултатът се предава на интерпретатор, който декодира както състоянието на околната среда, така и наградата, която се дава на алгоритъма.

Наградата, която се дава на системата, зависи от степента на успех или ефективност, с която проблемът е решен. Следователно алгоритъмът се опитва да реши проблема с различна степен на ефективност. При първата итерация системата най-вероятно ще излезе с най-малко ефективно решение.

Тъй като обаче се намират и подсилват по-ефективни решения, като се предлагат награди за системата, самото решение се насочва към по-ефективно. След това се създава алгоритъм за самообучение, който се усъвършенства, използвайки обратната връзка, дадена му от преводача.

Усилващото обучение се различава от другите методологии за машинно обучение, тъй като не е необходимо да се казва как точно да се реши проблемът. Той използва психологически методи за симулиране на човешките учебни процеси.

Това е само една от многото психологически концепции, приложени за използване в ИИ, като правдоподобен път напред е прилагането на по-сложни теории към машините. Следователно възходът на истинския изкуствен интелект може да дойде от по-дълбоко, психологическо разбиране на човешкото съзнание.

Ако сте харесали тази история, присъединете се към нашата Telegram общност.


Също така можете да пишете за нас и да бъдете един от 500+ експерти, които са допринесли с истории в AIM. Споделете вашите номинации тук.

Аз съм ентусиаст на ИИ и обичам да следя последните събития в космоса. Обичам видео игрите и пицата.