In realtà dipende che cosa intendi esattamente.
Intanto onestamente non riesco a capire per quale motivo con un processore così potente tu abbia bisogno di scrivere in assembly.
Il fatto di non avere un sistema operativo non è di per se una giustificazione per vari motivi.
Prima di tutto per lavorare così dovresti scrivere tu stesso il bootloader, quando invece sarebbe molto più comodo utilizzarne uno lightweight di linux come ad esempio quello di uClinux.
Seconda cosa, anche quando si sviluppa per microcontrollori si è nella tua stessa e identica situazione, eppure si scrive in C.
Terza cosa, è assurdo leggere manualli di oltre mille pagine quando Intel stessa ha rilasciato il TBB che fa esattamente quello che chiedi.
Bisogna considerare seriamente l'effort totale dell'attività e i vantaggi che se ne traggono. La possibilità di usare un linux from scratch e di compilare un kernel minimale con abilitate soltanto le features e le periferiche che si vogliono usare è sicuramente una buona scelta su un processore del genere.
A quel punto avrai la possibilità di usare TBB e di cross-compilare tutto il codice che vuoi su un altra macchina ed eseguirlo sul tuo IA-32 con delle prestazioni praticamente real-time.
Il motivo per cui non si trova molta documentazione a riguardo è fondamentalmente questo: non esiste una reale necessità di fare un lavoro del genere su un processore di quella potenza.
Ma in caso contrario, devi necessariamente usare il manuale di Intel, perchè tutti gli esempi che ci sono chiaramente non saranno scritti in assembly dal momento l'unico kernel open è scritto in C, e sinceramente ci vuole un bel po' di tempo per produrre una documentazione esaustiva partendo dal bytecode.