СПИЧКИ ДЛЯ… «КИБЕРА»

СПИЧКИ ДЛЯ... «КИБЕРА»Вспомните, как вы учились играть в какую-либо игру — шашки, шахматы, домино… Вначале успехи были весьма скромными: вас все время обыгрывал более опытный партнер. Но постепенно, анализируя исход партий, обнаруживая свои ошибки, вы набирались опыта, запоминали все больше и больше выигрышных комбинаций и оказывали противникам все большее сопротивление. Словом, играя, вы обучались.

Вот этим — обучением игре — и заинтересовались ученые-кибернетики. Появилось очень много машин. Сначала играющих по какой-то определенной схеме, а потом и самообучающихся, совершенствующих свою тактику от партии к партии.

Несколько лет назад американец А. Сэмюэль создал машину для игры в шашки. Она могла запоминать сыгранные партии и, учитывая накопленный опыт, изменять свою стратегию. Вначале Сэмюэль легко выигрывал у своего «противника». Однако потом ситуация изменилась на противоположную. Более того, в матче из десяти партий машина сумела победить чемпиона штата Коннектикут, причем не проиграла ни разу. Ученый М. Гарднер предложил даже запрограммировать машину таким образом, чтобы они длительно и ожесточенно сражалась против… самой себя. Быстродействие электронной машины позволило бы ей в короткое время приобрести опыт, далеко превосходящий опыт любого игрока-человека.

Заманчиво было бы иметь дома такую машину и в свободное время «сгонять» с ней несколько партий. Хоть машина и обучается в процессе игры, мы ведь тоже обучаемся, и еще неизвестно — кто кого. Где только юному технику раздобыть современную ЭВМ!

Однако для опытов с самообучающимися играющими машинами не обязательно иметь в своем распоряжении современную ЭВМ. Можно воспользоваться и более простыми устройствами и построить простую самообучающуюся машину из… спичечных коробков. Эту оригинальную идею предложил в 1961 году американский ученый Дональд Мичи, построивший из 300 спичечных коробков самообучающуюся машину для игры в крестики-нолики. Мы предлагаем построить более простую спичечную ЭВМ, обучающуюся игре Баше.

Рис. 1. Схемы игровых позиций.

Рис. 1. Схемы игровых позиций.

Как мы знаем, в этой игре оба противника берут по очереди камешки из кучи, содержащей вначале (в нашем случае) 8 камешков. При каждом ходе игрок может взять один, два или три камешка (но не более!). Выигрывает тот, кто возьмет последний камень. Чтобы построить машину, способную обучиться игре Баше, нужно всего 7 пустых спичечных коробков и 18 разноцветных бусинок — достаточно иметь бусинки трех цветов. На каждом коробке изображается одна из схем, показанных на рисунке 1. Эти схемы соответствуют различным позициям, которые могут возникнуть во время игры перед очередным ходом машины, причем начинать игру всегда должен человек.

В верхней части каждой схемы кружком обведено число, показывающее, сколько камешков остается в куче, — назовем это число состоянием машины. Стрелками на схеме обозначены варианты ходов машины в данной ситуации. Рядом с каждой стрелкой записано число камешков, которые берет «своим» ходом машина, а острие стрелки указывает, сколько камешков останется после этого. В нижней части каждой схемы римскими цифрами от I до IV указывается, перед каким ответным ходом машины возможно возникновение данной позиции. Так, первые две схемы изображают ситуацию, которая может возникнуть только после первого хода человека; третья схеме соответствует позиции, которая возможна как после первого, так и после второго хода и т. д.

В коробок нужно положить бусинки — на каждую стрелку определенный цвет. После этого наша машина готова к игре.

Рис. 2. Так выглядит передняя панель автомата.

Рис. 2. Так выглядит передняя панель автомата.

Процесс обучения происходит следующим образом. Сделав первый ход, выберите тот из коробков с цифрами I или I—II, на котором изображена возникшая позиция. Встряхните коробок и, закрыв глаза, вытащите из него наугад одну бусинку. Затем посмотрите, какого цвета эта бусинка, и сделайте за машину ответный ход, взяв указанное соответствующей стрелкой число камешков из кучи. Теперь снова ваш ход. Сделав его, повторите ту же самую процедуру с одним из коробков, обозначенных цифрами I—II, II— III, II—III—IV. Так следует продолжать, пока партия не закончится. Если выиграет машина, положите все вынутые бусинки на место и играйте снова. Если же машина проиграет, то «накажите» ее, забрав из коробка ту бусинку, которая представляла последний ход машины. Все остальные бусинки положите на место и продолжайте курс обучения — играйте снова. Если во время игры очередной коробок окажется пустым, то это значит, что все дальнейшие ходы машины ведут ее к проигрышу и она сдается. В этом случае надо ее «наказать», забрав бусинку из предыдущего коробка. В процессе игры ваш противник быстро накапливает опыт и обучается. Система наказаний построена так, чтобы свести к минимуму необходимое для обучения время, но последнее существенно зависит от мастерства партнера машины: чем лучше он играет, тем быстрее «вырастит» достойного «противника».

Расчет показывает, что для того, чтобы прочно усвоить алгоритм победы, спичечной ЭВМ нужно потерпеть поражение не более чем в 12 партиях игры. При этом из всех коробков вынимаются бусинки, соответствующие ходам, приводящим машину к поражению. Так что во всяком турнире, состоящем более чем из 24 партий, общий счет будет в пользу машины. Слабого игрока машина может победить и при меньшем количестве сыгранных партий, но гарантировать ее идеальное обучение мы при этом не можем.

Но, конечно, спичечный «автомат» интересен только как первый опыт. Вторым этапом должна быть постройка электромагнитной системы с аналогичным процессом обучения.

На лицевой панели такого играющего автомата (рис. 2) расположены в ряд 8 лампочек, снабженных выключателями, кнопка «Ход автомата», кнопка «Награда», кнопка «Наказание», кнопка «Сброс», табло «Вы выиграли», табло «Вы проиграли» и сетевой выключатель.

Оба играющих (один из них автомат) по очереди выключают произвольное число памп, но не менее одной и не более трех за один ход. Лампочки должны выключаться последовательно, одна за другой, начиная с Л1. «Перескакивать» через них не разрешается. Выигравшим считается тот, кто своим очередным ходом выключит последнюю лампочку.

После каждого своего хода человек должен нажимать на кнопку «Ход автомата». Начинает игру всегда человек. В случае выигрыша автомата человек должен нажать на кнопку «Награда», в случае проигрыша — на кнопку «Наказание».

После того как будет нажата кнопка «Сброс» и тумблеры возвращены в исходное положение, автомат готов к следующей партии.

Принципиальная схема самообучающегося играющего автомата приведена на рисунке 3. Основные узлы и блоки модели: блок программы игры I, блок памяти II, блок ламп накаливания III и блок питания IV. Рассматривая блок программы игры, можно обнаружить знакомые нам спичечные коробки, составленные из электромагнитных реле.

Реле Р1 и Р2 образуют «коробок», играющий в позиции 7; РЗ и Р4 — в позиции 6; Р5 — в позиции 5; Р6, Р7, Р8 — в позиции 4; Р9, Р10, Р11 — в позиции 3; Р12, Р13 — в позиции 2; Р14 — в позиции 1.

Срабатывание репе Р1, РЗ, Р5, Р6, Р9, Р12, Р14 означает, что автомат взял один предмет (выключается одна лампочка); Р4, Р7, Р10, Р13 — два предмета (две лампочки); Р2, Р8, Р11 — три предмета (три лампочки). Хотя в спичечном «автомате» количество предметов, которые он берет очередным ходом, выявляется случайным образом (мы с закрытыми глазами выбираем бусинку), в машине для упрощения схемы введен последовательный перебор стратегий. Это значит, что в любой позиции автомат берет вначале один предмет. Если стратегия оказалась проигранной, она отбрасывается, и в следующей партии в той же позиции автомат возьмет уже два предмета и т. п. Например, в позиции 2 (осталось 2 предмета и ход автомата) автомат возьмет один предмет, проиграет, будет «наказан» и в последующих партиях обязательно погасит 2 лампочки, осуществляя тем самым выигрышную стратегию. Здесь, как и в спичечном автомате, отключение неверных стратегий начинается с последнего хода, приведшего к проигрышу автомата. Проиграв, машина «наказывается» нажатием кнопки «Наказание» (КН2), и последний ход, приведший к проигрышу, отбрасывается, заменяясь другим ходом.

Рис. 3. Электрическая схема.

Рис. 3. Электрическая схема.

Проведя несложный анализ игры Баше для 8 предметов, мы видим, что выигрышная стратегия заключается в том, чтобы своим очередным ходом Дополнить число предметов до четырех. Например, человек взял первым ходом один предмет — машина должна взять три предмета, человек вторым ходом берет два предмета, машина — оставшиеся два предмета и выигрывает.

Отсюда же мы видим, что в позиции 4 машина не имеет оптимальных стратегий игры, поскольку при любом ее ходе человек, играя правильно, выигрывает. После того как наш автомат переберет все варианты в данной позиции, он «поймет», что она ему очень невыгодна. Значит, он должен играть так, чтобы человек не мог привести игру к позиции 4. Для этого автомат сам приводит игру к позиции 4, чтобы создать «противнику» проигрышную ситуацию: в позиции 7 автомат начинает брать три предмета, в позиции 6 — два.

Отключение репе, осуществляющих проигрышные стратегии автомата, производится блоком памяти II. Реле блока памяти «запоминают» проигрышные стратегии и своими контактами отключают их, включая одновременно следующую по порядку стратегию игры. Таким образом осуществляется последовательный перебор стратегий.

Рассмотрим теперь конкретный пример. Допустим, человек первым ходом взяп один предмет — выключил тумблер В1, пампа ЛІ погасла. После нажатия на кнопку «Ход автомата» (КНІ) срабатывает репе Р1, становится на самопитание, контакт Р1/3 отключает пампу Л2 — автомат берет один предмет. Человек вторым ходом снова берет один предмет, отключает тумблер В3, лампа Л3 гаснет. Нажатие на кнопку КН1 вызывает срабатывание реле Р5, оно становится на самопитание, и контакт Р5/2 отключает лампу Л4 (автомат берет один предмет). Допустим, человек берет два предмета, выключает тумблеры В5 и В6, пампы ЛЗ и Л6 гаснут.

После нажатия на кнопку КН1 срабатывает репе Р12, становится на самопитание, и контакт Р12/3 отключает пампу Л7 (автомат берет один предмет). Как видите, автомат во всех состояниях берет своим ходом по одному предмету. Человек берет последний предмет —-отключает тумблер В8, пампа Л8 гаснет — и выигрывает. При этом загорается лампа Л9, подсвечивающая табпо «Вы выиграли». Поскольку автомат проиграл, он «наказывается» нажатием кнопки КН2. При этом замыкается цепь питания репе Р12 (контакт Р12/2 подводит питание к реле Р12′, так как в данной партии игры репе Р12 сработало), оно становится на самопитание и контактом Р12’/2 отключает репе Р12, а вместе с ним и проигрышную стратегию, и подключает репе Р13. Это значит, что в следующей партии игры в позиции 2 автомат возьмет не один, а два предмета и выиграет. После этого нужно нажать на кнопку «Сброс» (КН4). Цепь питания всех репе блока игры размыкается, и сработавшие в данной партии репе блока игры вернутся в исходное положение.

Аналогичным образом происходит отключение проигрышных стратегий в позиции 3 (репе блока памяти Р9′ и Р10′ отключают репе Р9 и Р10) и в позиции 4 (репе Р6′, Р7′, Р8′ отключают репе Р6,

Р7, Р8). Когда автомат в позиции 4 перепробует все три стратегии игры — брать один, два и три предмета, — он контактом Р8 1/3 отключает свои предыдущие стратегии (брать один предмет в позиции 7 и брать один предмет в позиции 6) и включает стратегии — брать три предмета в позиции 7 и брать два предмета в позиции 6, следуя которым он сам будет приводить человека к проигрышной позиции 4.

На схеме это выглядит так: отключаются репе Р1 и Р3, а подключаются Р2 и Р4. Таким образом, проиграв 6 партий (отсоединяются репе Р6, Р7, Р8, Р9, Р10, Р12, Р1 и Р3), автомат «обучается» играть безошибочно.

Лампа Л10 подсвечивает табло «Вы проиграли», оно включается контактами Р11 /4, Р13/З, Р14/3.

В модели применены пампы накаливания 3,3 в на 0,28 а. Электронные репе — РС-13, РЭС-9 или другого типа, с достаточным числом контактных групп. Силовой трансформатор набран из пластин Ш32, пакет — 33 мм. Первичная обмотка состоит из 1220 витков провода ПЭЛ-0,5, вторичная — из 150 витков провода ПЭЛ-0,5. Обмотка III — 20 витков провода ПЭЛ-0,5. Мостик выпрямителя образуют диоды Д226Б.

Тумблеры типа ТВ2-1.

Если все монтажные соединения выполнены верно, играющий автомат начинает работать сразу же после включения его в сеть.

Б. ИГОШЕВ, Д. КОМСКИЙ, г. Свердловск

Рекомендуем почитать

  • «ДЕНДИ» БЕЗ ПОМЕХ«ДЕНДИ» БЕЗ ПОМЕХ
    Хороши игровые приставки «Денди», но... Если соседи смотрят телевизор, а антенна у них комнатная, то при включении Вашей приставки они порой вынуждены терпеть появление на своем экране...
  • ИЗОЛЕНТА-ПОМОЩНИЦАИЗОЛЕНТА-ПОМОЩНИЦА
    Измерить длину или периметр криволинейной детали без специального инструмента не так-то просто. В этом деле поможет липкая электроизоляционная лента, которую наклеивают по контуру...
Тут можете оценить работу автора: