Das laden/Speicher von Daten ist dazu erstmal nicht nötig, und kann später kommen.

Mach erstmal alles im Speicher, basierend auf Arrays.

Du könntest zB anfangen eine Funktion zu schreiben, die eine
Linie erkennt. (anfangs/End x/y koordinaten)

Mach erstmal ein Program bei dem du per Maus in ein Array eine
Linie per Hand zeichnen kannst.
Die Pixel sind dann in deinem Array.
Dann versuch Dir eine Funktion auszudenken, die die
Anfangs und Endpunkte der Linie findet und die Koordinaten ausgibt/als Linie nachzeichnet.
(Beispiel: Anfang und End"Pixel" haben jeweils nur max eine direktes Nachbarpixel, die anderen auf der Linie 2 oder mehr)

Voila: Du hast ein Program das aus einer "Bilddatei" eine
Vektorlinie extrahieren kann.
Ein erster Schritt Text per geometrischer Umwandlung zu erkennen.

So würde ich so ein Problem angehen.

Sachen wie laden/speichern von Daten in deinem eigenen Format
kannst Du später implementeiren.
Da gibts im Manual genug zu Dateioperationen.


------

Das wichtigste was man bei KI Algorythmen lernen muß, ist es
möglichst viele Informationen die unnötig sind schrittweise herrauszufiltern.
So ist eine Texterkennug basierend auf Vektorlinien einfacher
als aus den Roh-pixeldaten. (und Farben sind komplett unnötig dafür)

So hat zB ein neuronales Netz es schwer einen Buchstaben zu
erkennen, der eine andere Größe oder Rotation als
die "Lernbuchstaben" hat. Wandelt man den Buchstaben
ertmal in ein paar wenige Linien um, läßt sich so ein
Erkennungsalgorythmus einfacher implementieren.