Schafkopf-Strategie: Optimale Strategie

Ex-Sauspieler #256353, 19. März 2020, um 22:03
Dieser Eintrag wurde entfernt.

Hirndiewe, 19. März 2020, um 22:22

Klingt schon vernünftig, erst 2-4 als Koalition zu optimieren und von dort ausgehend individuell spielen und weiterlernen zu lassen.

Wenn ich so nachdenke, wird die Optimallösung für die Koalition schon sehr extrem ausfallen. Jeder der Spieler 2-4 klopft immer. Es spielt immer einer von denen ein Einzelspiel. Und jeder gibt wann immer möglich Kontra und Re.

Ex-Sauspieler #256353, 19. März 2020, um 22:37
Dieser Eintrag wurde entfernt.

Ex-Sauspieler #663897, 19. März 2020, um 23:23
zuletzt bearbeitet am 19. März 2020, um 23:43

ich spiele kein poker, und wenn sehr schlecht... dürfte ja nix neues sein für euch.^^ darf ich trotzdem fragen, warum das spielerverhalten so formuliert ist, dass ein 3er-team zuerst den gemeinsamen gewinn zu optimieren sucht und einen abzockt? wechseln die teammitglieder dabei? und wo ist definiert, dass dies die wahre methode ist, um beim Schafkopf viel zu gewinnen?

ginge es nicht zuerst darum, die KI so zu trainieren, dass sie möglichst viele spiele ansagt und gewinnt, sich ggf. auch bei nicht so gutem blatt den spielpartner ruft und so spielt, dass selbst mit schlechtem partnerblatt 61 zusammenkommen etc.?

vermutlich ist das viel zu simpel gedacht. mir scheint, es geht nicht darum, ein spiel zu gewinnen, sondern sich so zu verhalten, dass man, wenn man spielt, hoch gewinnt, und ansonsten dafür zu sorgen, dass die anderen hoch verlieren bzw. wenig gewinnen? PS: letzteres ist ja durchaus im sinne des spiels in bezug auf augen.

Ex-Sauspieler #256353, 19. März 2020, um 23:56
Dieser Eintrag wurde entfernt.

Ex-Sauspieler #256353, 20. März 2020, um 00:13
Dieser Eintrag wurde entfernt.

tych, 20. März 2020, um 00:42

aber dieser dreckige ramsch dürfte hier ein problem darstellen: hier spielt doch a priori jeder gegen jeden, aber es muss sich bei drohendem durchmarsch dann die strategie von drei spielern während des spiels ändern: denn nun gilt plötzlich (ab wann?) 3 gegen einen.

Ex-Sauspieler #663897, 20. März 2020, um 00:49
zuletzt bearbeitet am 20. März 2020, um 00:51

sauber - vielen dank, HerzSanny. diese Nash-dingsda waren tatsächlich böhmische dörfer für mich.

was das training der KIs betrifft, dachte ich, sie trainieren sich selbst, zumindest hab ich das zu der Schach-KI AlphaZero so gelesen. in einem weiteren artikel hieß es, dass selbstlernende KIs in kürzester zeit einen "außerirdischen" level erreichen und bisher bekannte Schachstrategien auf den kopf gestellt haben:
** "...es faktisch so ist, als hätte man ein Lösungsbuch, bzw. kann hinter den Vorhang des Spiels sehen."
so geht's mir ja schon bei einigen sauspielern ;D

auf jeden fall danke für die ausführliche antwort. ob ich den letzten absatz noch für mich zerlege, um rauszukriegen, was du da sagst, mach ich davon abhängig, ob ich zu den stichworten interessante und verständliche lektüre finde. ich bin aber schon beim thema Nash und GTO in einem artikel für Poker-interessierte ausgestiegen. nicht mein ding.

** quelle: https://www.dr-wachs.de/blog/2018/03/22/openai-und-alphazero-selbstlernende-programme-lehren-schach-und-dota-2

Ex-Sauspieler #256353, 20. März 2020, um 01:31
Dieser Eintrag wurde entfernt.

tych, 20. März 2020, um 01:56

aber ab wann erkennt er es?

tych, 20. März 2020, um 02:03

ab stich 1, 2, 3, 4, 5, 6 ... ? aber ab wann ist der strategiewechsel, wohlgemerkt: innerhalb eines konkreten spiels!, nun optimal?

Ex-Sauspieler #256353, 20. März 2020, um 02:52
Dieser Eintrag wurde entfernt.

HH111, 20. März 2020, um 03:21

@Herz Sanny,Verzeih wenn ich etwas Frage.Bei einem Schachcomputer werden x 1000de Züge Einprogrammiert und je nach Level stellt er sich auf den Spieler ein.Der Computer "wartet"dann auf den "Blöden Zug" seines Gegenübers und schlägt dann Eiskalt zu.Dies trifft beim Schafkopf stich x. Wie stellt er sich aber beim Schafkopf auf die 3 Gegenspieler ein,die verschiedene Spielstärken,verschiedenen Spielwitz,verschiedene Aggression/Leichtsinn und immer auch andere Tagesform haben?Wie geht es mit den wechselnden Spielern um,oder geht das System immer mit den selben Spielern?Im Prinzip habe ich das schon einmal Gefragt,nur habe ich es da noch nicht so Ernst genommen.

Ex-Sauspieler #256353, 20. März 2020, um 09:01
Dieser Eintrag wurde entfernt.

HH111, 20. März 2020, um 09:16

@Herz Sanny,da ich mich mit einem Schachcomputer lange Beschäftigt/Gespielt habe,weiß ich das der noch stärker wird je stärker der Gegner.Wenn er sieht es wird ein enges Spiel,dann macht er Alibizüge bis ein Fehler gemacht wird.Ansonsten macht er ein Patt,dies geht aber nicht beim Schafkopf. Wie du Schreibst das sich 3Spieler gegen einen Verbünden,dient das meiner Meinung,das man sich auf nur einen Spieler konzentrieren muss mit dem Computer und nicht auf 3. Aber diese Strategie wird im Realen Spiel nicht von dauer sein,da der Einer immer schnell Pleite sein wird und irgendwan findet man keinen Einer mehr.Ich als Technischer Depp,jedoch als Schachcumputerspieler sehe das Schach(Königsspiel) gegenüber dem Schafkopf als Kinderfasching an(mit einem guten Programm).Wenn du das schaffst da eine Lösung zu finden,wirst du nicht mehr Arbeiten müssen.

Ex-Sauspieler #663897, 20. März 2020, um 12:06
zuletzt bearbeitet am 20. März 2020, um 12:07

HH fragt, ob der agent seine strategie abhängig von wechselnden spielern und ggf. realen spielern ändert. das ist laut HerzSanny die richtige frage, die die programmierung zeigen soll: wie geht der agent (KI spieler) mit unbekannten parametern um, zum beispiel die karten in gegnerischen blättern und die spielstärke (zur bewertung eines spielzugs, um ähnlich stark dagegen zu halten)?

entweder komme ich da logisch nicht mit oder die fragen sind mit verschiedenem begriffsverständnis formuliert:

* nicht ein agent (andere KI oder realer spieler) beeinflussen das verhalten der betrachteten KI, sondern das evaluierte ergebnis der implementierten funktionen des agenten. demnach wäre es egal, gegen bzw. mit wem die KI spielt.

* unbekannte parameter werden mit hilfe implementierter funktionen evaluiert. was nicht berücksichtigt ist, nimmt auch keinen einfluss auf das ergebnis.

* beeinflusst das verhalten der anderen spieler die betrachtete KI, ist wohl ebenfalls eine frage der modellierung: wird also ein strategiewechsel eines agenten in die evaluierung einbezogen? wobei...

* ...grundsätzlich auch die frage zu beantworten ist: ist ein strategiewechsel überhaupt möglich - vom teamplayer zum solisten? ist das team zur maximierung des gesamtgewinns beispielsweise so definiert, dass der gewinn des einzelnen nachrang hat, wenn er den verlust der anderen teamplayer maximiert? oder hat der gemittelte gesamtgewinn zu jedem zeitpunkt vorrang?

hier ist eine masterarbeit zur "Stabilisierung unkontrollierter Flugzustände mit Reinforcement Learning" am beispiel einer flugsimulation mit eine quadcopter im freien fall. "Um dies zu erreichen, wird ein Deep Deterministic Policy Gradient Algorithmus angewendet. Durch Erweiterung wie Experience Replay Speicher, parametrisiertem Rauschen, Prioritized Experience Replay, Hindsight Experience Replay und Curriculum Learning lassen sich darüberhinaus Umgegebung mit sparse Reward trainieren."

viel "name dropping" zur beschreibung von implementierten funktionen (algorithmen und speichern), die das meistern von aufgaben durch lernen aus erfahrung beschreiben und bei der KI menschliche lernstrategien nachbilden. ein effekt wird bei dem ansatz hervorgehoben: die gespeicherten erfahrungswerte durch einen realen meisterflieger. hier der abschnitt mit der abschließenden zusammenfassung:

"Eine Vorführung (demonstration) ist in diesem Fall eine Flugbahn, die von einem professionellen Modellflieger geflogen wurde. Die Flugdaten werden vor Trainingsbeginn anstatt der Aufwärmphase in den Experience Replay Speicher geladen [16]. Dadurch soll ein schnelleres Training ermöglicht werden. Die Problematik ist die Erstellung solcher Flugdaten. Für viele Szenarien ist es nicht möglich einen Experten auf dem Gebiet zu finden. Eine Alternative ist es, Flugdaten zu nehmen, die mit einer bestehenden Strategie erstellt worden sind. Dies setzt allerdings voraus, dass ein Agent das Problem bereits einmal gelöst hat. Somit ist diese Technik nicht immer eine Option. Insbesondere für neue, unerforschte Probleme kann eine Vorführung nicht eingesetzt werden."

quelle: https://autonomesysteme.informatik.haw-hamburg.de/papers/2019Rohden.pdf

😜 worum geht's hier nochmal?

Ex-Sauspieler #663897, 20. März 2020, um 12:27

...und iwie einordnen können, was sie finden.

Ex-Sauspieler #256353, 20. März 2020, um 12:33
Dieser Eintrag wurde entfernt.

Ex-Sauspieler #663897, 20. März 2020, um 12:46

ja, sicher ist das problem sehr komplex und die zusammenhänge auf mehreren ebenen - grundsätzlich:
* das ausspielen welcher karte im jeweiligen spiel ist die eine seite,
* die andere die strategie zur gewinnmaximierung (wann ansagen, was ansagen, klopfen), die du ja mit Nash+co. lösen würdest.

ich hatte dich so verstanden, dass du den fokus weniger auf strategien im spiel (das spielen an sich) legst und mehr das ansage-/klopfverhalten betrachten wolltest, wobei vermutlich statistische wahrscheinlichkeiten und Poker-strategien eine größere rolle einnehmen als spielerfahrung/-stärke oder Schafkopf-talent.

HH111, 20. März 2020, um 13:01

@Herz Sanny, du kannst hier aber nicht Vorraussetzen,das sich "The Maschien"im Laufe des Spiels die Inteligentesten "Züge" noch sich selbst beibringt,das muss er sofort können.Denn wenn ich mir sowas Kaufe,will ich sofort eine Herrausforderung und nicht erst in einem Jahr.Genauso wenn ich Geld Gewinnen will,das muss sofort sein,den wenn ich zuvor ein Vermögen Verliere,habe ich "The Maschien"an die Wand geschmissen!Denke du hast eine richtige Herrausforderung voe dir!

Ex-Sauspieler #256353, 20. März 2020, um 13:03
Dieser Eintrag wurde entfernt.

zur Übersichtzum Anfang der Seite