Ohne die Notwendigkeit eines Modells kann Q-Learning Probleme lösen, indem es Zuständen und Aktionen jeweils Werte bzw. Belohnungen zuweist. Das Ziel besteht darin, über eine Reihe von Aktionen, die das System in neue Zustände versetzen, die maximale Belohnung zu erzielen. Durch wiederholtes Anwenden dieses Verfahrens und das Speichern der besten Entscheidungen setzt das verstärkende Lernen ein. Während die Aktionen anfangs zufällig gewählt werden, wird über die Zeit die optimale Strategie „gelernt“. Parameter für die Berechnung der Belohnung, welche den Kern des Lernprozesses darstellen, können dabei variabel angepasst werden, um verschiedenen Szenarien und Zielen gerecht zu werden.
Die Nachteile von Q-Learning liegen in der hohen Dimensionalität und der Skalierbarkeit der Zustands- und Aktionsräume, da die Anzahl der möglichen Paare exponentiell ansteigt. Außerdem muss eine anwendungsspezifische Balance der wählbaren Parameter gefunden werden, und das Training kann sehr zeitintensiv sein, bevor es in der Praxis angewendet werden kann.