maybe uninit

Fiche mémo: parsing, if pattern

2023-02-24T00:00:00+00:00

Fiche mémo: parsing, if pattern

[2023-02-24] #Parsing #State_machine #Code

Fiche mémo: parsing, if pattern

Adrien Zinger, février 2023, maybeuninit.com

Lors de la conception d’une grammaire, la présence de certaines structures syntaxiques peut entraîner des ambiguïtés. Une grammaire ayant plusieurs arbres de dérivation possibles pour une même phrase est une grammaire dite “ambiguë”, ce qui peut compliquer l’analyse et la compréhension du langage en question. Prenons l’exemple du pattern if, qui branche vers un état ou un autre selon le résultat d’une expression.

stmt : IF EXPR then stmt
     | IF EXPR then stmt IF stmt
     | STMT ;

if E1 then if E2 then S1 else S2

On ne peut pas déterminer avec la grammaire ci-dessus si la phrase sera traduite en un arbre tel que (if E1 then (if E2 then S1) else S2) ou (if E1 then (if E2 then S1 else S2)). Deux arbres de dérivation pour la même phrase. Afin de résoudre l’ambiguïté causée par la présence d’un pattern tel que celui-ci, nous pouvons remplacer la partie grammaticale par une structure syntaxique équivalente, mais qui ne pose pas de difficulté pour l’analyse syntaxique.

stmt :      matched | unmatched ;
matched :   IF EXPR then matched ELSE matched | STMT ;
unmatched : IF EXPR then matched
          | IF EXPR then matched ELSE unmatched ;

La factorisation à gauche représente toujours un défi lorsqu’on conçoit un générateur de parseurs pour une grammaire. Dans le cas présent, cette difficulté est exacerbée par la possibilité que le token IF puisse être le premier symbole de plusieurs états générés, du fait, des conflits peuvent survenir entre les règles de production unmatched et matched. Si l’on décide de raisonner dès la lecture du IF, ces conflits peuvent apparaître, compromettant ainsi l’efficacité et la fiabilité de la grammaire. Dans de tels cas, un générateur de parseurs pourrait prendre une décision arbitraire pour résoudre le conflit, entraînant ainsi une possible altération de la grammaire désirée.

matched :   IF /* { printf("pop\n"); } */ EXPR THEN matched ELSE matched
          | STMT ;
unmatched : IF /* { printf("pop\n"); } */ EXPR THEN matched
          | IF /* { printf("pop\n"); } */ EXPR THEN matched ELSE unmatched ;

Le pattern en question pose un problème majeur en ce sens qu’il nécessite la lecture complète du code pour pouvoir réduire le statement à sa racine, ce qui peut représenter un problème important lorsqu’on souhaite compiler le code en une seule passe. Pour pallier cette difficulté, certains langages optent pour des patterns plus contraignants. Par exemple, en Rust, les statements doivent obligatoirement être entourés d’accolades. En Nix, toute condition doit retourner une valeur car la résolution de type requiert la spécification de chaque alternative, ce qui permet de supprimer la règle de production unmatched.

x: T = if ... then T else T

En obligeant l’utilisateur à définir toutes les alternatives, il est possible d’inférer le type de l’expression if, entre autres. Cette inférence est généralement effectuée lors du preprocessing si le langage utilisé est compilé. Toutefois, certains outils de développement peuvent proposer de réaliser cette vérification pendant l’écriture du code.

Pour finir, analysons l’expression suivante avec un parser combinator. Cette méthode, ne construisant pas de machine à état à proprement dit, devra résoudre les conflits à l’exécution. Pour ce faire, il convient d’adapter préalablement la grammaire pour qu’elle corresponde autant que possible à un parseur de ce type.

stmt :              matched_eof | unmatched_eof ;

matched_eof :       matched EOF ;
unmatched_eof :     unmatched EOF ;

matched :           token_if EXPR token_then matched token_else matched
                  | STMT ;
unmatched :         token_if EXPR token_then matched
                  | token_if EXPR token_then matched token_else unmatched ;

token_if :          IF spaces ;
token_then :        spaces THEN spaces ;
token_else :        spaces THEN spaces ;

spaces :            at_least_one(SPACE) ;

Dans le cas d’une analyse avec un parser combinator, il faut garder à l’esprit qu’une alternative comme celle-ci: stmt : matched_eof | unmatched_eof, peut être complètement lue. C’est-à-dire que le premier élément matched_eof va tenter d’être lu en premier, puis s’il y a eu une erreur, unmatched_eof sera lu également. L’analyse se découpe donc en plusieurs branches d’un potentiel arbre de dérivation jusqu’à en trouver une valide. Contrairement à un parseur GLR, les deux branches ne sont pas analysées simultanément. La première règle de dérivation qui fonctionne sera la bonne. Cette particularité implique que l’ordre des branches alternatives est important, dans un cas comme celui-ci, il aura une incidence sur les performances de l’analyse. La dernière figure montre respectivement l’output avec matched_eof | unmatched_eof et unmatched_eof | matched_eof.

ext matched done
ext matched done
bounded stmt matched done

ext matched done
ext unmatched done
error bounded stmt unmatched
ext matched done
ext matched done
bounded stmt matched done

State machine and async queue (French)

2023-02-07T00:00:00+00:00

State machine and async queue (French)

[2023-02-07] #Design_pattern #State_machine #Code

Machines à états (première partie)

Multithreading, atomicité et files non-bloquantes

Adrien Zinger, janvier 2023, maybeuninit.com

Introduction

Dans sa carrière, un bon informaticien qui tentera d’implémenter un programme cherchera à le présenter d’une façon plus abstraite. Penser l’architecture d’un programme est une phase importante de son développement. Une des méthodes d’architecture consiste à imaginer son programme comme une machine à états. Car c’est toujours possible. Cette méthode de représentation est vieille comme l’informatique. Aujourd’hui, elle est mise en avant par des frameworks tels que React et Redux. Mais il n’est pas nécessaire d’utiliser un framework pour qu’un programme ressemble à une machine à états.

Je découperai mon travail en trois parties, et les prochains chapitres en couvriront la première. Chacune d’entre elles aura un focus précis sur des mécanismes disponibles en informatique et j’utiliserai l’implémentation de machines à états comme prétexte pour parler de ces derniers. Cette partie sera consacrée aux files d’événements qui modifient ces automates. Dans ce contexte, les files d’événements doivent être traitées de façon séquentielle, elles représentent donc des goulots d’étranglement pour les performances d’un programme. Je ne dis pas qu’il soit effectivement important de se soucier autant des performances d’un automate. Cependant, traiter ce sujet offre l’occasion de regarder de plus près ce qui peut être utilisé dans un programme multithreadé. Je ne peux pas non plus dire dans quels contextes ces mécanismes sont réellement appliqués, ils n’en restent pas moins intéressants. Mais ils existent et sont utilisés, pour des raisons parfois arbitraires, à cause de croyances personnelles, ou bien plus raisonnablement, du fait des connaissances poussées du sujet. Parfois, plus simplement, ils sont présents parce qu’un sous-problème nécessite une attention particulière et doit être le plus performant possible, on essaie donc plusieurs méthodes, souvent empiriquement. Si j’échoue à faire comprendre pour quelles raisons une machine à états correspond à votre cas d’usage, ces chapitres pourront être intéressants au moins pour les sujets variés qu’ils abordent.

Je ne présenterai donc pas tout à fait, comme pourrait l’indiquer le titre trompeur, les machines à états. Cependant, pour le contexte j’évoquerai tout de même une introduction sur l’état de l’art aujourd’hui. J’y ajouterai quelques opinions personnelles, également partagées par quelques collègues et amis, bien que subjectives. Pour l’introduction, j’utiliserai un langage qui est habituellement plus adapté pour parler de parseurs (analyseurs syntaxique). Même si un analyseur est un sous-type de machine à états, le vocabulaire sera suffisant. Je parlerai donc de grammaires, de contextes, de conflits, etc.

Un chapitre sur deux en moyenne sera dédié au multithreading, aux structures de données non-bloquantes. En particulier des files d’attente, des implémentations de mpsc (Multiple Producer Single Consumer), d’opérations atomiques et de mécanismes de synchronisation. Ce sujet est bien plus complexe qu’il ne le paraît. Changer une structure synchrone en une structure non-bloquante asynchrone n’est pas anodin et peut avoir un fort impacte sur un programme. Parfois, l’espace mémoire que la structure prendra sera bien plus grand que l’original. Parfois, il faudra faire des concessions sur les performances et se poser les bonnes questions.

Quelques exemples en C, Rust et Pseudocode accompagneront mon propos. Le code complet est disponible en annexe. Je vous recommande toutefois de ne pas trop vous y attarder et de considérer qu’il n’y a pas de réponse parfaite et encore moins d’implémentation unique à une solution. Aussi, j’espère que vous me pardonnerez les simplifications que je fais en Rust étant un langage plutôt verbeux, j’ai dû tailler quelques morceaux pour en extraire l’essentiel.

J’en profite pour vous prévenir que je suis conscient de maîtriser certains aspects et pas d’autres. Même si j’ai le sentiment d’être dans le vrai, n’hésitez pas à me corriger si vous rencontrez des erreurs. Il y en aura forcement, même après une centaine de relectures. Je serai heureux de recevoir les remarques ainsi que les opinions par mail (zinger.ad@gmail.com) on dans un commentaire sur mon github.

Chapitre 1 - Les machines à états

Ce que tu peux faire de mieux pour ton programme, c’est d’en faire une machine à états.

Dans un projet, on souhaite une machine à états quand une partie du programme gère un contexte global ou temporaire, subit des modifications lors d’appels exterieurs ou doit réagir à différentes entrées et retourner un résultat cohérent avec celles-ci, en tenant compte d’un historique. Une telle machine peut être utilisée pour modeler un composant d’un système distribué par exemple, et même le système complet. Chaque état, dans ce cas, peut contenir un snapshot à un instant T qui inclue l’état de la mémoire des composants (processeurs) ainsi que les messages en transit. Plus généralement, on souhaite une machine à états lorsqu’une fonction donne une sortie différente après chaque appel. On remarque que les itérateurs et les générateurs sont aussi des genres de machine à états.

Il y a différentes façons d’aborder le problème. La façon scolaire, linéaire que la plupart des raisonnements humains vont produire. Cette façon de faire pourra, entre autres, ressembler à un analyseur LL ou LR car les implémentations peuvent être très similaires. Souvent, ces deux méthodes ne se différencient que dans les structures qu’elles utilisent dans l’implémentation. On y trouvera, dans tous les cas la logique suivante : “si j’ai tel événement dans tel contexte, je passe à tel état suivant”. Au début de mes études, je codais de nombreuses fonctions qui s’appelaient les unes les autres, pleines de conditions et de branchements.

Un raisonnement de la sorte, avec une implémentation bien linéaire, des états qui s’empilent puis se réduisent, est efficace si on souhaite développer rapidement un petit morceau de code. Mais cela devient vite ingérable dans une application qui traversera beaucoup d’états, si en plus aucun des branchements ne peut être auto-généré ou encore que les transitions se complexifient. Idem, si le projet change ses grammaires ou s’il s’avère qu’on commence à y trouver des conflits.

Depuis longtemps, on élude ces problèmes en utilisant des générateurs de parseurs. Vous avez peut-être déjà entendu parler de YACC et LEX. Ce genre de générateur existe dans de nombreux langages et sous de nombreuses formes. Il me semble qu’aujourd’hui, leur utilisation est moins répandue ou moins célèbre. Dans mon entourage, parmi mes amis et collègues, je trouve peu de gens à qui cela laisse de bons souvenirs. Pourtant, selon moi, c’est la meilleure solution pour générer des machines à états encore aujourd’hui. Se plonger dans une grammaire sous le format BNF, aussi ennuyeux que cela puisse être, vous fera gagner une base de code propre et un temps considérable. Toute méthode a ses avantages et ses inconvénients. Bien sûr, dans certains cas, il sera plus simple d’écrire rapidement un analyseur à la main ou en utilisant une bibliothèque tierce.

Depuis quelques temps, on développe aussi des analyseurs par petits morceaux. Ces combinaisons de parseurs ont des bons côtés. Déjà, on ne dépend pas d’un générateur et, dans le meilleur des cas, on ne dépend pas non plus d’une bibliothèque. Le développement est linéaire et correspond plus au attente d’un développeur classique : je lis, je change d’état. Les états sont des parseurs, des fonctions. Bien sûr, on risque de retomber dans le piège des nombreuses fonctions pleines de conditions, il faut faire attention.

Ensuite, il y a la manière React ou Redux. Car en faisant du React, on fait des parseurs, ou plutôt, des machines à états. L’un ou l’autre, c’est presque pareil.

// green thread 1
function state_machine() {
    // création de la machine à états
    let (state, dispatch) = use_state(reducer_function, state_1);
    foo(dispatch).then(() => {});
}

// green thread 2
async function foo(dispatch) {
    let state2 = await recv_async_call();
    dispatch(state2); // changement d'état
}

React permet de recharger des composants (des machines à états) avec des nouveaux états. On a à disposition des fonctions comme useReducer et useState, qui sont les plus utilisées. Ces méthodes permettent chacune de créer une fonction de mise à jour (dispatch) en donnant pour paramètres une valeur initiale et une routine de réduction : (current_state, action) => new_state. Une fonction de réduction permet de créer un nouvel état à partir de l’état courant et d’un événement, telle qu’une entrée utilisateur. Pouvoir donner cette fonction en argument permet de centraliser les comportements complexes en fonction d’un contexte. Avec useState, on se limite à prendre pour argument un état initial, il utilise sa propre fonction de réduction où le paramètre action sera le nouvel état.

L’idée n’est pas tout a fait de reproduire React dans son integralité, ni d’entrer dans des concepts d’effets algébriques, mais bien de reprendre certaines bases qui pourraient donner des résultats visuellement identiques. Par exemple, le fait que useState soit composé d’un useReducer est bien exacte. Voici un extrait de l’implémentation actuelle qui, si l’action est une fonction, retourne le résultat de celle-ci, sinon retourne l’objet de l’action. Cette routine est le réducteur utilisé à l’appel de useState.

function basicStateReducer<S>(state: S, action: BasicStateAction<S>): S {
  return typeof action === 'function' ? action(state) : action;
}

Le fonctionnement d’une machine à états similaire React est alors décrit par des structures génériques dans une file et une fonction de transition si nécessaire. Grâce à cette méthode, nous pouvons utiliser la généricité afin de simplifier l’implémentation finale.

function onStateChange_Tests(state) {
  if (state.view == "view1") return showView1();
  else if (state.view == "view2") return showView2();
  else return showView3();
}

function onStateChange_Generique(state) {
  return state.showView();
}

Chapitre 2 - Utiliser une machine à état

Une machine à états est flexible, on l’adapte en fonction du besoin. Un itérateur, un générateur ou encore un analyseur sont des types de machines à états. Parfois, un simple appel à un timeout peut en cacher une : “en cours -> annulé”, “ouvert -> fermé”. Mais parmi tous, l’analyseur est un cas particulier. Un parseur suppose une fin à ses états. Que le programme soit écrit à l’aide d’un générateur ou avec la méthode des combinaisons, on attend des états qu’ils se résolvent et, pour finir, qu’ils arrivent à l’état ultime : la sortie du programme avec succès.

Pourtant, avec la méthode React, on peut écrire des itérateurs, des parseurs et toute sorte de machines à états finies et infinies. C’est pour cette raison qu’elle est extrêmement efficace pour la gestion d’une application. Faire avancer ses états avec React se résume à empiler des événements et les traiter un par un afin d’appliquer les modifications adéquates.

Les morceaux de codes qui suivront font partie d’une expérience : créer une bibliothèque de zéro, avec les mêmes attentes qu’on pourrait avoir de React. Le sujet de l’expérience ici sera un programme simpliste où j’implémente un echo volontairement complexe (à ne pas refaire chez soi).

Voici le comportement attendu :

la sortie standard affichera waiting for an entry.
you wrote: ${entrée} suivit de Can you write something else?.
you wrote: ${entrée} puis Can you write something else? (${compteur}). Puis répéter à partir de 3.

Le programme devra s’arrêter à la lecture du mot clef “exit”. Et avancera à chaque lecture d’une entrée utilisateur.

Je commence par créer une structure State représentant un état contenant une méthode appliquant une des étapes du programme et certaines variables contextuelles. La méthode associée dynamiquement variera lors d’une transition ou bien pourra être modifiée, puis validée avec une fonction dispatch que proposera cette logique. Chacune des méthodes sera représentative de l’état du programme (1, 2 ou 3 et plus). Visuellement, il suffira de lire une fonction pour comprendre ce qu’un état va avoir comme effet de bord. Pour le développement du projet, un diagramme d’états suffira pour comprendre la logique de l’application, ce qui est très agréable.

La figure ci-dessous montre l’implémentation de chacune des étapes de l’automate. Les lignes A2 et B3 montrent comment changer d’état après une exécution. La ligne C3 modifie un contexte en incrémentant un compteur pour l’itération suivante. Les autres lignes sont des effets de bord.

void step_1(struct State *self)
{
    printf("waiting for an entry\n");                       // A1
    self->step = step_2;                                    // A2
}

void step_2(struct State *self)
{
    printf("you wrote: %s\n");                              // B1
    printf("Can you write something else?\n", self->val);   // B2
    self->step = step_n;                                    // B3
}

void step_3_and_more(struct State *self)
{
    printf("you wrote: %s\n");                              // C1
    printf("Can you write something else? (%i)\n",          // C2
        self->val, ++(self->count));                        // C3
}

Il est important de noter qu’ici plusieurs lignes modifient la valeur de l’état. Ces valeurs sont modifiées en prévision de l’itération suivante de mon programme. Autrement dit, je ne modifie pas mon état actuel, mais je construis l’état suivant. Dans certains cas, cette façon de faire peut poser problème, notamment si le programme utilise plusieurs threads qui ont accès à cette variable parallèlement. Parmi les problèmes qu’on peut rencontrer, dans le multithreading, le fait de rendre l’état courant immutable ou limiter sa mutabilité devient une nécessité. Ne touchez pas à l’état courant, construisez-en un nouveau ou entourez-le de mutexes. J’évoque le terme d’itération dans ce paragraphe. En quelques mots, le coeur de mon programme est une boucle infinie, qui à chaque nouvelle mise à jour exécutera la même fonction. La logique ne change pas, l’état si.

int state_machine()
{
    struct Reaction *re = use_state(make_init_state);
    struct State *st = re->state;
    if (st->before(st) == 1)
    {
        pthread_join(st->scan, NULL);
        return EXIT_SM;
    }
    st->step(st);
    async_scan(re);
    return CONTINUE_SM;
}

Voici comment une machine à états infinie pourrait s’implémenter. La complexité (absurde) de l’exemple par rapport à l’objectif montre comment on peut se défaire d’une série de conditions et d’intrications de fonctions. Par exemple, l’optimisation de la routine before qui en premier lieu retourne forcément 0, n’ayant aucune entrée à lire, ne fera d’abord rien, puis se mettra à jour pour faire quelque chose. Dans un projet plus réaliste, ces petites différences sont importantes. Elle permet de contrôler à chaque état les effets de bord nécessaires ou superflus, variants et invariants.

Chapitre 3 - La file d’états

Abordons une partie importante de l’exemple : la lecture de l’entrée utilisateur. C’est-à-dire l’endroit où j’appelle la méthode dispatch associée à la machine à états. Cette méthode ajoute dans une file un nouvel objet associé à une fonction de réduction, selon qu’on ai utilisé use_state ou use_reducer.

void *scan(void *_re)
{
    // Récupération de la machine à états à altérer
    struct Reaction *re = (struct Reaction *)_re;
    struct State *new_state = malloc(sizeof(struct State));
    memcpy(new_state, re->state, sizeof(struct State));
    int _ = scanf("%299s", new_state->val);
    dispatch(re, new_state);
}

Ce modèle de machine à états enfile des objets pour les traiter de façon synchrone, mais rien n’empêche que l’accumulation des événements soit asynchrone ou parallèle. Il est donc important de se poser quelques questions sur la résistance du modèle face au parallélisme.

Dans ce programme simple, j’ai de la chance pour deux raisons. La première est que scanf en C a une implémentation telle que, même si plusieurs threads écoutent en même temps, seulement l’un d’entre eux se réveillera avec un buffer. Mais imaginons que le programme écoute plusieurs entrées différentes, comme des appels réseau ou des notifications de l’OS. Les opérations d’enfilage et de défilage peuvent être concurrentes et poser des problèmes de synchronisation.

Pour résoudre les problèmes liés au parallélisme dans un modèle de machine à états, on peut utiliser des techniques de partage de données appelées X producteur(s) Y consommateur(s) où X et Y peuvent prendre la forme de “unique” ou “multiple”. Il existe de nombreuses implémentations et approches différentes, au moins une par bibliothèque standard. Celle qui est implémentée dans la bibliothèque Reagir, la mienne, n’est peut-être pas la plus efficace, mais elle est facile à comprendre pour commencer.

static void send_state(struct Entry e)
{
    struct Reagir *re = e.rea->re;                       // S1
    pthread_mutex_lock(&re->mutex);                      // S2
    while (re->queue_len == QUEUE_MAX_LEN)               // S3
        pthread_cond_wait(&re->pop_condvar, &re->mutex); // S4
    re->queue[re->push_ptr] = e;                         // S5
    re->push_ptr = (re->push_ptr + 1) % QUEUE_MAX_LEN;   // S6
    re->queue_len++;                                     // S7
    pthread_cond_signal(&re->push_condvar);              // S8
    pthread_mutex_unlock(&re->mutex);                    // S9
}

static struct Entry receive_state(struct Reagir *re)
{
    pthread_mutex_lock(&re->mutex);                      // R1
    while (re->queue_len == 0)                           // R2
        pthread_cond_wait(&re->push_condvar, &re->mutex);// R3
    struct Entry e = re->queue[re->pop_ptr];             // R4
    re->pop_ptr = (re->pop_ptr + 1) % QUEUE_MAX_LEN;     // R5
    re->queue_len--;                                     // R6
    pthread_cond_signal(&re->pop_condvar);               // R7
    pthread_mutex_unlock(&re->mutex);                    // R8
    return e;
}

void dispatch(struct Reaction *rea, void *arg)
{
    struct Entry e = {(struct PrivReaction *)rea, arg};
    send_state(e);
}

Lorsqu’on appelle la fonction dispatch, on créé une nouvelle entrée qui sera traitée par la bibliothèque pour passer d’un état à un autre. La fonction dispatch prend en argument la structure Reaction qui représente la machine à états que l’on souhaite altérer, ainsi qu’un second argument qui peut être un nouvel état (si on utilise use_state) ou une action (si on utilise use_reducer). Cela permet de continuer à avancer pas à pas en enfilant des fonctions de réduction qui seront appelées séquentiellement avec leurs arguments. En d’autres termes, cela consiste à enfiler des fonctions de réduction et l’argument d’événement action.

Prenons un peu le temps de lire l’algorithme de la figure précédente. On remarque que ce code contient plusieurs verrous. Un verrou coûte du temps au processeur. Il est préférable, si possible, d’éviter d’en invoquer un. Bon, cette implémentation est peut être suffisante pour mon exemple.

Le deuxième point qui me rend chanceux dans cette implémentation, c’est que l’utilisation que je fais de ma machine à états est synchrone. Même si j’utilise deux threads différents. Je ne lis pas d’entrée utilisateur pendant l’exécution de la boucle de la machine à états, ou même avant. À aucun moment, je peux envoyer un événement ET en recevoir simultanément. Les lignes S2, S9 R1 et R8 sont donc inutiles dans ce cas. Malgré tout, les lignes S3, S4, S8 et R2, R3 et R7 sont encore nécessaires pour ne pas faire boucler le CPU sans raisons. Si vous n’êtes pas familier avec ce mécanisme, je vous propose de vous documenter sur les variables conditionnelles et leurs usages avant de continuer.

Même si mon programme communiquait avec d’autres, si je m’assure d’un ping pong où chaque instance attend la réponse de l’autre, je peux écrire ces instances sans aucun appel de lock unlock. Autrement dit, tant qu’on peut considérer que l’ensemble du système fonctionne sur un unique thread en additionnant les exécutions concurrentes, on peut se passer de verrou. Le fait d’avoir une utilisation synchrone de cette file est l’unique justification valable pour retirer les mutexes. Des appels parallèles auraient des résultats imprévisibles. Par mesure de sécurité, il faut toujours entourer les variables conditionnelles par des verrous. Tenez ça pour une règle d’or.

Dans ce cas, je retire quelques utilisations de mutexes et ça marche. Mais nous nous bornerons à des systèmes mono-threadé. L’implémentation naïve ne suffit pas dans les cas suivants. Si on souhaite quelque chose de plus puissant qui nous autorise des lectures et écritures parallèles, il faut se tourner vers des structures plus efficaces. Dans un contexte où on recevrait des évenements trop rapidement, une structure de données non-bloquante pourrait être intéressante. Il y a un grand nombre d’implémentation possible, encore, à commencer par celle qui utilise deux mutexes différents pour la tête de file et son bout. Les producteurs se partageraient un verrou et le consommateur sera plus rapide à lire, ayant le monopole sur le défilement.

Plus rapide encore, une version de la file de Michael & Scott propose une solution n’utilisant aucun mutex. L’algorithme tire avantage des capacités atomiques du processeur. En d’autres termes, la lecture ou l’écriture d’une variable sera organisé parmi les différents threads dans un ordre spécifié.

Chapitre 4 - Rappel atomique

Une opération atomique, c’est lire, écrire, effectuer une opération basique comme un ET ou un OU, sur une petite partie de la mémoire comme par exemple là où se trouve un entier. Cette opération garantie qu’aucun autre thread ne va tenter de lire ou écrire pendant le temps de l’opération. Enfin, ces opérations garantissent que le processeur respectera un certain ordre défini par les instructions, éloignant les comportements indéfinis. Ainsi, un programme comme décrit ci-dessous aura une fin déterministe alors qu’un programme similaire avec une incrémentation non-atomique serai non-deterministe.

add(i: AtomicInt*):
    fetch_add(i, 1);

main():
    let i = AtomicInt::new(0);
    let th1 = Thread::spawn({ add(&i) });
    let th2 = Thread::spawn({ add(&i) });
    join(th1, th2);
    assert!(i == 2);

On associera toujours une opération atomique à ce qu’on appelle un ordonnancement. Avant de poursuivre ce chapitre, il est important d’en préciser quelques caractéristiques. Par exemple, une opération de lecture, également appelée chargement, peut être soumise à un ordonnancement nommé ACQUIRE. Cette opération respectera certaines contraintes, lesquelles sont :

Il est impossible pour le processeur de réordonner les lectures ou écritures après le chargement de la variable.
Les écritures effectuées dans d’autres threads sont visibles pour le thread lecteur.

La première règle est garantie par des instructions de barrières mémoire qui permettent de maintenir un ordre cohérent entre le programme écrit et son interprétation par le processeur. Le deuxième point est plus complexe, car il permet au thread courant d’établir un ordre chronologique et les relations “arrive avant” entre les accès à une variable. Le thread qui charge une variable dans une zone mémoire “A” interprètera chronologiquement chaque écriture dans des threads parallèles afin de trouver la dernière valeur dans A. Cependant, les relations arrivé avant sont des interprétations qui ne concernent que le thread courant. Du fait, d’autres threads peuvent avoir une vision chronologique différente des événements. Les autres ordonnancements mentionnés plus tard ont des comportements plus ou moins similaires.

De base, sur un processeur Intel, tout mouvement, selon ce que l’on comprend, est atomique. Prenons l’instruction mov sur x86. Cette instruction est courante dans un programme, elle peut être produite par une assignation de variable ou encore un passage d’argument. Cette instruction permet selon son utilisation de copier une valeur ou de copier l’adresse de cette valeur. C’est la différence entre un déplacement par copie ou par référence. Elle peut être utilisée pour lire ou écrire, selon le sens dans lequel on place les arguments. Lorsqu’une instruction de lecture est exécutée, elle a un comportement similaire à l’ordonnancement défini par ACQUIRE et lorsqu’une instruction d’écriture est exécutée, elle a un comportement similaire à l’ordonnancement défini par RELEASE. Ce, sans avoir besoin de préciser quoi que ce soit. En fait sur x86, l’ordonnancement RELAXED est chimérique. C’est-à-dire que les compilations d’opérations atomiques avec le flag RELAXED produiront le même résultat que des opérations dites non-atomique ou des opérations atomiques ACQUIRE/RELEASE.

Toutes les opérations de lecture et d’écriture, dans un certain sens, sont donc “atomiques” sur x86. Mais ce n’est pas le cas pour tous les processeurs. Sur certains macs, ou quelques consôles de jeu, qui ont un processeur ARM, on devra utiliser des instructions telle que dmb (data memory barrier) pour préciser un ordre ACQUIRE/RELEASE. L’instruction dmb garantit que toutes les instructions de lecture ou écriture en mémoire exécutées avant elle soient bien terminées avant que de passer à d’autre instructions. Il convient alors de dire, en écrivant du code plus haut niveau, comme du Rust ou du C, que toutes les opérations sont non-atomique tant que le développeur ne le précise pas.

En ce qui concerne les variables volatile, il n’y a pas de différence particulière. Cependant, le compilateur tachera de toujours utiliser l’adresse réelle de la variable sans optimiser grâce à des variables temporaires ou en les remplaçant par une logique plus appropriée, après du tree shaking par exemple. Le compilateur est donc simplement informé du fait que la variable est sucéptible de changer dans d’autres exécutions parallèles. Il est important préciser que les instructions produites resteront souvent les mêmes qu’avec des variables globales basiques, et que la compilation ne génèrera aucune barrière mémoire comme elle pourrait le faire avec des variables atomiques. Cela dit, l’utilisation de ce genre de mot-clef se perd avec le temps et les impactes peuvent varier d’un langage à un autre.

Le processeur, pour plusieurs raisons, peut avoir le droit de superposer des opérations sur un même thread. C’est ce qu’on appelle l’out-of-order (OOO). Ce qui peut rendre un programme avec des exécutions parallèles difficiles à se représenter et donc complexes à développer. Avec des opérations atomiques ainsi que les flags Acquire, Release, AcqRel et SeqCst, on peut forcer le processeur à ne plus superposer certaines lectures et écritures. On peut aussi forcer un certain ordre, ou du moins certaines contraintes.

while (ip < iend-15) {
    U32 c = cached; cached = MEM_read32(ip); ip += 4;
    Counting1[(BYTE) c     ]++;
    Counting2[(BYTE)(c>>8) ]++;
    Counting3[(BYTE)(c>>16)]++;
    Counting4[       c>>24 ]++;
    c = cached; cached = MEM_read32(ip); ip += 4;
    Counting1[(BYTE) c     ]++;
    Counting2[(BYTE)(c>>8) ]++;
    Counting3[(BYTE)(c>>16)]++;
    Counting4[       c>>24 ]++;
    c = cached; cached = MEM_read32(ip); ip += 4;
    Counting1[(BYTE) c     ]++;
    Counting2[(BYTE)(c>>8) ]++;
    Counting3[(BYTE)(c>>16)]++;
    Counting4[       c>>24 ]++;
    c = cached; cached = MEM_read32(ip); ip += 4;
    Counting1[(BYTE) c     ]++;
    Counting2[(BYTE)(c>>8) ]++;
    Counting3[(BYTE)(c>>16)]++;
    Counting4[       c>>24 ]++;
}

La figure ci-dessus est extraite de l’implémentation de la construction d’un histogramme dans la bibliothèque zstd. Il peut sembler étrange de couper un compteur en 4 parties et d’en faire la somme plus tard. Surtout sur un seul thread, s’il y avait eu une strategie multithreadé on aurait pensé à un diviser pour mieux rêgner, ou dans ce cas précis pour rêgner plus vite. En réalité, c’est exactement le but recherché. Un processeur OOO peut potentiellement exécuter simultanément les opérations suivantes : la lecture de la mémoire à l’adresse ip, les affectations des variables c en cache, et les accès aux différents tableaux.

Parmi les différents ordonnancements possibles, celui qui contraint le plus la sémantique d’un programme est SeqCst (Séquentiellement Consistant). Chaque paire d’opérations atomiques SeqCst a le même comportement qu’une paire ACQUIRE-RELEASE, en plus d’une caractéristique fondamentale : une série chronologique S des événements de lectures et d’écritures est visible par tous les threads du programme. Dans la conception d’un algorithme performant, la construction de S par le processeur peut être un overhead à prendre en compte. toutefois, il peut être indispensable pour résoudre plusieurs problématiques, notamment si notre programme est constitué de plusieurs threads de lecture et d’écriture.

let x = false
let y = false
let z = 0

write_x():
    x.store(true)

write_y():
    y.store(true)

read_x_then_y():
    while !x.load() {};
    if y.load():
        z.fetch_add(1)

read_y_then_x():
    while !y.load() {};
    if x.load():
        z.fetch_add(1)

main():
    let th1 = spawn(write_x)
    let th2 = spawn(write_y)
    let th3 = spawn(read_x_then_y)
    let th4 = spawn(read_y_then_x)
    join(th1, th2, th3, th4)
    assert(z != 0) // Peut rater

Le pseudocode ci-dessus est un extrait de la documentation des ordonnancements mémoires en c++. Il est probable qu’en tant que lecteur, vous n’ayez pas prêté suffisamment d’attention à la phrase “D’autres threads peuvent avoir une vision chronologique différente des événements”, lors de la présentation de ACQUIRE. Ce manque d’attention est naturel et devrait être pris en compte par celui ou celle qui formule une explication, en répétant par exemple. Donc, arrêtons-nous sur cet algorithme.

Si j’utilisais par défaut l’ordre défini par ACQUIRE-RELEASE, les threads th3 et th4 auraient potentiellement une vision différente de l’historique des accès aux variables x et y, car elles ont étés modifiées par deux threads différents. Utiliser une contrainte plus élevée SeqCst qui partage la chronologie S des accès à la mémoire à travers le processeur permet donc de résoudre les data races entre ces threads. Autrement dit, si pour th3 l’écriture de x est séquentiellement avant l’écriture de y alors pour th4 aussi.

Notez également que la garantie d’une contrainte d’ordonnancement quelle qu’elle soit est toujours rompue lorsqu’un accès à la zone mémoire est non-atomique ou possède des contraintes moins élevées. On en déduit donc qu’une lecture SeqCst N aura pour résultat soit la dernière valeur écrite par une modification SeqCst M dans S, soit toute autre valeur écrite par une modification non-atomique, RELEASE ou RELAXED effectuée entre M et N qui n’est pas dans S.

Une variable peut être atomique dans le cas où elle est assez petite. Elle est généralement d’un type primitif, un pointeur, sur 32 ou 64 bits. On peut lui donner des ordonnancements d’accès en lecture et écriture de manière à ce que différents threads ne tombent pas dans des data races. Et dans tout les cas, il est préférable, si on utilise ces variables, de donner l’ordonnancement SeqCst qui est la contrainte la plus élevée avant de tenter autre chose. En ce qui concerne les conteneurs (set, hashmap, etc) une opération atomique est bien plus complexe à réaliser et nécessite parfois des algorithmes de consensus avancés.

Chapitre 5 - Atomique

Il existe certains cas où tout se déroule au mieux, même sans préciser l’atomicité dans le code, ou avec des ordonnancements plus faibles que SeqCst. Notamment sur des processeurs x86. Cela devient intéressant de savoir pourquoi et comment le mécanisme se traduit en instructions.

Pour observer les instructions qu’un processeur Intel peut comprendre, on peut commencer par écrire avec un langage haut niveau les différents concepts atomiques que la plupart des langages nous permettent d’utiliser. Je vais donc écrire un programme de différentes façons, avec des méthodes plus ou moins validées par la communauté des développeurs. Ce programme consiste principalement en deux threads. L’un produit, l’autre consomme. Le producteur incrémente une variable jusqu’à ce qu’elle soit égale à 5, l’autre lit tant que la même variable ne vaut pas 5. Après quoi, le programme s’arrête.

Je vous épargnerai les déclarations de bibliothèques et la fonction de démarrage. Préférant me concentrer sur les routines des différents threads.

La première version utilise des mutexes.

void *producer_thread(void *counter)
{
    int c = 0;
    while (c != 5)
    {
        pthread_mutex_lock(&COUNTER_MUTEX);
        *(int *)counter = ++c;
        pthread_mutex_unlock(&COUNTER_MUTEX);
    }
}

void *consumer_thread(void *counter)
{
    int c = 0;
    while (c != 5)
    {
        pthread_mutex_lock(&COUNTER_MUTEX);
        c = *(int *)counter;
        pthread_mutex_unlock(&COUNTER_MUTEX);
    }
}

Dans cette version, mon postulat est que l’invocation d’un verrou autour de ma variable est inutilement coûteuse. En plus, je dois gérer une variable globale pour en contrôler l’accès. Cette méthode est particulièrement utilisée lorsque le type de counter n’est pas primitif. Si c’était une structure ou un tableau, cette méthode serait acceptable.

À noter qu’ici, il serait simple de modifier le programme de façon à ce qu’on puisse avoir plusieurs producteurs sans créer de comportement indéfini. Il suffirait d’ajouter dans la boucle du producteur un test de la variable pour voir si elle est déjà égale à 5. Le cas échéant, on retourne une erreur ou l’on sort simplement de la fonction.

Voilà la deuxième version:

void *producer_thread(void *counter)
{
    int c = atomic_fetch_add_explicit(
        (atomic_int *)counter, 1,
        __ATOMIC_RELEASE);
    while (c != 4)
        c = atomic_fetch_add_explicit(
            (atomic_int *)counter, 1,
            __ATOMIC_RELEASE);
}

void *consumer_thread(void *counter)
{
    int c = atomic_load_explicit(
        (atomic_int *)counter,
        __ATOMIC_ACQUIRE);
    while (c != 5)
        c = atomic_load_explicit(
            (atomic_int *)counter,
            __ATOMIC_ACQUIRE);
}

Cette fois-ci, plus de mutex ni de verrouillage. On utilise une opération atomique basique fetch_add qui va, sans surprise, incrémenter la valeur du compteur. fetch_add produit sur ma machine la ligne instruction lock xaddl %edx, (%rax)`. C’est une opération d’addition entre edx et rax, avec le préfixe lock. Ce préfixe permet entre autres de préciser au processeur que la valeur de la cible ne peut ni être changée ni lue pendant l’incrémentation. Utiliser cette fonction est considéré comme wait-free si vous êtes familier avec les types d’algorithmes multithreadés.

La version ci-dessus nous empêche d’avoir plusieurs producteurs. Effectivement, on risque d’avoir une variable temporaire c qui ne soit plus la bonne, cependant, on continue à incrémenter le compteur. C’est ce qu’on appel un data race. Ce risque de data race est à prendre en compte. Même si dans ce cas, tout va bien, ajouter un ou plusieurs producteurs en parallèle pourrait créer des boucles infinies.

La dernière version ci-dessous n’utilise même plus d’opérations atomiques et fonctionne parfaitement. Cette version ne marche que parce que les instructions mov ont le même comportement entre eux que des variables atomiques avec les ordonnancements ACQUIRE-RELEASE sur un processeur Intel. De plus, le contexte n’a que deux threads.

void *producer_thread(void *counter)
{
    int c = 0;
    while (c != 5)
        *(int *)counter = ++c;
}

void *consumer_thread(void *counter)
{
    int c = 0;
    while (c != 5)
        c = *(int *)counter;
}

En pratique, que l’on utilise RELAXED ou ACQUIRE-RELEASE ne change rien. Cela dit, utiliser l’ordonnancement par défaut, SeqCst, reste la meilleure des pratiques. Ne vous risquez pas trop à changer cette règle pour des bouts de chandelle de performance.

Cette version ne permet pas du tout d’avoir de multiples producteurs. On pourrait la modifier légèrement en utilisant la fonction atomique compare_and_swap dans la boucle du producteur. Cette fonction permet de vérifier si la valeur de c est bien celle qui se trouve dans le compteur au moment de l’échange. Et si ce n’est pas le cas, on récupère sa valeur actuelle, et on essaie à nouveau si besoin. compare_and_swap est l’élément qui manquait aussi à la deuxième version. Cependant, si l’utilisation de fetch_add est wait-free, l’équivalent sans les data race avec compare_and_swap est lock-free. La figure ci-dessous pourra vous donner un aperçu concis des niveaux qu’un algorithme multithreadé peut avoir.

atomic_int i;

// obstruction-free
lock(MUTEX);
i++;
unlock(MUTEX);

// lock-free
int c = load(&i);
while (!cas(&i, c, c + 1))
    c = load(&i));

// wait-free
atomic_fetch_add(&i, 1);

Cette figure présente plusieurs classes d’algorithmes. Précisons que ces exemples n’ont de sens que dans des systèmes concurrents, où ils peuvent interférer simultanément avec d’autres composants ayant des effets sur des éléments communs. Les noms ou les caractéristiques associées à ces classes sont organisés selon l’ordre suivant: un algorithme wait-free est également lock-free, et un algorithme lock-free est également obstruction-free. Avant de détailler ces termes afin d’en comprendre leur signification, il est utile de souligner un point important. En effet, le fait de nommer une routine wait-free, lock-free ou obstruction-free indique le comportement garanti par celle-ci. Cependant, chaque catégorie présente des faiblesses absentes dans les catégories supérieures. Par exemple, un algorithme obstruction-free peut avoir des inconvénients alors qu’un algorithme wait-free n’en aura pas. En outre, on entend ici qu’un tel algorithme pourra interferer avec au moins un homologue de lui-même sur des threads parallèles.

À présent que le contexte d’utilisation de ces termes est claire, nous pouvons les définir sans ambiguïtés. Commençons par la classe d’algorithme obstruction-free, cette classe, donc, décrit une routine qui garantit que : si elle est seule à s’éxecuter sur son système durant son intervalle d’action, alors elle pourra faire avancer son état sans être interrompue. Cependant, si d’autres routines s’exécutent en parallèle, une routine de cette classe peut être bloquée soit par l’utilisation d’un verrou, soit par une stratégie de veille particulière. La durée de ce blocage, bien qu’habituellement brève, est indéterminée. Finalement, le plus grand défaut de ce type de routine est son incapacité à faire avancer son propre état lors d’une interférence.

La classe supérieure lock-free est moins contraignante. Elle est bien plus préférable dans la majeure partie des cas, bien qu’elle ne se prête pas à tous les scénarios. Elle garantit pour une routine que : si elle s’éxecute en parallèle d’une copie d’elle-même ou d’autres parties de l’algorithme, alors parmi les différentes exécutions en cours sur le système (elle comprise) une pourra terminer lors d’un certain nombre de ses étapes. Elle tentera toujours de faire avancer son propre état, quitte à recommencer du début. Contrairement à un algorithme obstruction-free, elle est potentiellement capable d’agir sur elle-même. C’est-à-dire qu’elle peut, dans une situation d’attente, s’arrêter, s’annuler, continuer ou recommencer, sans intervention extérieure.

Les algorithmes de la classe “wait-free” ne se préoccupent pas des autres threads. Les conflits d’accès simultanés sont gérés à un niveau plus bas par le processeur. Par exemple, grâce à une instruction atomique “read-and-write” qui protège une variable pendant la lecture, la mise à jour et l’écriture telle que fetch_add. De même, les instructions swap ou store modifient une variable sans se soucier de conditions particulières. Contrairement à une classe d’algorithmes “lock-free”, qui doit attendre pour réaliser des effets de vérifier si des accès concurents ont eu lieu, et le cas échéant recommencer, une routine “wait-free” se termine sans tenir compte des autres threads concurrents. En d’autres termes, si elle est exécutée en parallèle avec une copie d’elle-même ou d’autres parties de l’algorithme qui partage la même structure de données, elle se terminera avec succès.

Revenons aux ordonnancements. Spécifier un ordre dans lequel les threads vont accéder à une variable et les contraintes sur un seul thread est possible dans quasiment tout les langages permettant la parallélisation des exécutions. En Go, il n’est possible d’utiliser que l’ordonnancement SeqCst. En Rust, les types atomiques sont identiques au C/C++, bien qu’entre ces langages, certains choisissent de déprecier des méthodes et d’autre non. L’idée cependant est là. Avec l’atomicité, on peut par exemple simuler ce que ferait un mutex protegeant une variable. Voici l’exemple le plus classique que vous pourrez trouver à propos des opérations de lectures et écritures atomiques.

fn thread_a(atomic_bool: Arc<AtomicBool>, val: Arc<AtomicU32>) {
    val.store(42, Ordering::Relaxed);
    atomic_bool.store(true, Ordering::Release);
}

fn thread_b(atomic_bool: Arc<AtomicBool>, val: Arc<AtomicU32>) {
    let mut b = atomic_bool.load(Ordering::Acquire);
    while !b {
        b = atomic_bool.load(Ordering::Acquire);
    }
    let v = val.load(Ordering::Relaxed);
    assert!(b);
    assert_eq!(v, 42);
}

Synchronisation, spinlock

La figure ci-dessus est un exemple de synchronisation. De la même manière qu’un garde (mutex verrouillé) relaché dans un thread A puis acquis dans un thread B, ce qui a été stocké par le thread A est visible par le thread B. Dans la mesure où la modification de atomic_bool est garantie d’être faite après celle de val dans A, et à l’inverse, la lecture de atomic_bool est garantie d’être faite avant celle de val dans B.

Une écriture avec un ordre atomique RELEASE implique qu’aucune écriture ou lecture dans le même thread ne peut être réorganiser par le processeur après le stoquage, que l’opération soit atomique ou non-atomique. Autrement dit, ce qui est écrit ou lu avant sera vraiment écrit ou lu avant. De plus, toute écriture dans une variable devient visible par tous les autres threads voulant lire avec un ordre atomique ACQUIRE. Pour résumer simplement, val est comme protégée par un mutex. Cette façon d’attendre activement l’accès à une ressource s’appelle un spinlock. Très utile dans certains cas, et bien trop gourmand en temps de CPU dans d’autres.

Sans l’utilisation de lecture et écriture atomique, un programme multithreadé de la sorte se risquerait à un comportement indéfini pour quelques processeurs. Et d’ailleurs le compilateur de Rust ne permettrait pas d’écrire le spinlock dans la figure précédente sans l’utilisation du mot-clef unsafe.

Chapitre 6 - L’état dans lequel je suis

Une machine à états conserve toujours au moins son état actuel. Que cet état soit représenté par une variable, une pile, ou simplement par la position de son l’exécution sur la stack.

Pour Reagir (ma bibliothèque) comme pour React, les états sont des variables qu’on récupère à un moment de l’exécution. Dans l’implémentation de Reagir, l’état ne peut pas se trouver sur la pile. Si c’était le cas, on ne pourrait jamais dépiler les exécutions et le programme grossirait en mémoire continuellement. Les états de la bibliothèque Reagir sont donc quelque part sur le tas, ou globaux. Par défaut, on les considère constants ou statiques.

À l’écriture d’un programme, ce n’est pas toujours pratique d’avoir des états constants et immutables. Dans la plupart des exemples trouvé avec React, l’état est modifié au fur et à mesure. Personnellement, j’aime aussi considérer l’état comme une base avec laquelle je profile l’exécution, puis j’en tire l’état suivant si besoin. Contrairement au Rust, C me donne la liberté de créer des variables statiques mutables sans protections, ce qui rend d’ailleurs ce vieux langage non memory safe. En contre partie, ça me permet de ne pas à avoir à allouer de mémoire dynamiquement, et surtout, d’avoir un code simple.

void *make_init_state()
{
    static char val[300] = {'\0'};
    static struct State st = {
        val,
        0,
        zero,
        first_print,
        0,
    };
    return &st;
}

int state_machine()
{
    struct Reaction *re = use_state(make_init_state);
    struct State *st = re->state; // Récupération de l'état
    // ...
}

Un des choix arbitraires pris ici, est l’argument qu’on donne à la fonction use_state. Avec React, on donne directement une référence vers l’état initial, puis on utilise la référence du scope pour le reste de l’exécution. Ce n’est pas très pratique pour un modèle de mémoire sans garbage collector. Le choix de passer une fonction d’initialisation, malgré les contraintes du langage, reste arbitraire. J’imagine sans mal qu’il y ai de nombreuses implémentations alternatives. Certaines me viennent à l’esprit en écrivant ces lignes. Bien que celle-ci ne constitue pas un défaut majeur.

Vous avez peut-être remarqué une autre différence avec React qu’implique cette implémentation. En utilisant le framework javascript, appeler la méthode dispatch (qui permet de mettre à jour l’état) avec le même objet ne re-demande pas l’exécution du composant, même si cet objet a été modifié. Dans le cas ci-dessus, si on gardait la même logique le pointeur pour l’état initial ne pourrait pas être celui des états suivants. Donc ma bibliothèque est forcée d’accepter tout appel à dispatch sans vérifier la consistence ou l’égalité des états.

Je recommande tout de même de ne pas réutiliser l’état précédent dans la fonction de dispatch sans maîtriser ce que vous faites. Le mieux serait de pouvoir utiliser une variable statique par état. La raison pour laquelle il n’est pas conseillé de garder l’état précédent, est qu’il peut être modifié par d’autres parties de l’application avant que la fonction de dispatch n’ait été exécutée ou pendant son transit dans la file d’évènements. Dans ce cas, des data races peuvent entraîner des erreurs difficiles à déboguer.

Quelques chapitres au-dessus, on a vu comment des fonctions de réduction sont enfilées. J’ai précisé ensuite que ces fonctions sont exécutées séquentiellement et leur impacte.

struct Reagir *re = new_reagir(pthread_self());                 // L1
while (state_machine())                                         // L2
{
    re->i = 0;                                                  // L3
    struct Entry e = receive_state(re);                         // L4
    void *new_state = e.rea->reducer(e.rea->pub.state, e.arg);  // L5
    opt.on_state_change(&e.rea->pub.state, &new_state);         // L6
}

Dans l’implémentation de la boucle d’exécution, vous remarquerez qu’il n’y a aucun nettoyage des états précédents. Dans un langage qui n’est pas garbage collecté, c’est un peu problématique. À la place, la bibliothèque appelle une fonction paramétrable, qui permet pour nous de résoudre plusieurs problèmes, dont deux que je souhaite vous exposer.

Premier problème : que se passe-t-il si je souhaite utiliser des états alloués sur ma heap ? Si c’est le cas, il faut trouver le juste moment où on possède encore l’adresse de l’état précédent afin de libérer cet espace mémoire. Une des possibilités qui n’embête pas trop l’utilisateur de la bibliothèque est celle-ci: on_state_change s’occupera de nettoyer. C’est simple et efficace, à la création de la machine à états, on donne en paramètre une fonction.

void on_change_with_free(void **dst, void **src)
{
    free(*dst);
    *dst = *src;
}

void main(void)
{
    struct Opt opt = {on_change_with_free};
    create(state_machine, &opt);
}

La proposition précédente fonctionne parfaitement dans un contexte synchrone. Si, à tout moment de l’exécution, plusieurs threads pouvaient utiliser ces états créés, dans ce cas, ce bout de code est très très critique. Cependant, il existe des situations où les exécutions seront toujours concurrentes, jamais parallèles, et où ce code fonctionne en l’état. Mais cela n’est pas très générique, ce qui nous amène au second problème.

Second problème : imaginons que pendant la réception d’une nouvelle information la machine à états passe de l’état “A” à “B”. L’exécution vient de passer la ligne L5 (voir la figure de la boucle) et est en train d’entrer dans la fonction de réduction. Si un autre thread modifie “A” à ce moment-là, la fonction de réduction et cet autre thread auront un data race. Au mieux, l’état ne passera pas à B, mais la fonction de réduction ne peut pas avoir de comportement défini.

Pour se protéger, la solution la moins évidente à réaliser, est de faire en sorte que le programme soit au choix résilient ou qu’il y ait un consensus entre les threads. L’utilisation de structures non-bloquantes, encore, permet d’éviter des data races. La fonction de réduction pourrait tenter de remplacer l’ancien état avec un compare_and_swap élaboré, et essayer de nouveau tant que l’opération échoue. Dans ce cas, il faut aussi se protéger contre des libérations de mémoire inattendues. L’accès à une structure, aussi atomique soit-elle, ne protège pas contre l’apparition d’un pointeur nul comme référence.

Une manière plus simple de se protéger est l’utilisation de verrous. En combinant une fonction de réduction qui enclenche un verrou et la fonction de nettoyage pour le relacher, on peut réussir à protéger l’état contre des comportements indéfinis. Le verrou peut être contenu dans la machine à état. Dans toutes les circonstances, il n’y a toujours qu’un état courant, donc l’utilisation d’un verrou global est largement suffisante.

void *locker(void *_, void *new_state)
{
    lock(&state_mutex);
    return new_state;
}

void my_on_state_change(void **dst, void **src)
{
    free(*dst); // dans le cas où j'utilise la heap.
    *dst = *src;
    unlock(&state_mutex);
}

struct Reagir* state_machine()
{
    struct Reagir *re = use_reducer(
        locker,
        initializer
    );
    return re;
}

Chapitre 7 - Une file plus rapide

Admettons que la situation nous impose d’optimiser la lecture et l’écriture de la file. Effectivement, la structure mpsc implique un goulot d’étranglement. Admettons qu’utiliser un simple verrou sur la file de la machine à états ne suffise pas car utiliser des mutexes coûte au CPU un temps trop précieux pour nous.

Une file est une structure de données qui en théorie n’a pas de taille précise et qui implémente au moins deux fonctions: pop et push (défiler et enfiler) et dont les éléments qui entrent et sortent respectent l’ordre FIFO. Avant de commencer à présenter différentes façons d’optimiser cette structure, regardons ce que font ces deux routines lorsqu’elles sont synchrones.

Push, par exemple va:

Créer un nouveau noeud.
Trouver la fin de la file.
Relier la fin de la file avec le nouveau noeud d’une quelconque manière.
Modifier le pointeur de fin de file avec le nouveau noeud.

Pop:

Trouver la tête de la file.
Trouver l’élément suivant.
Échanger le pointeur de en tête de file avec l’élément suivant.
Supprimer l’ancien noeud.

Les pointeurs de tête et de fin sont initialisés avec un noeud vide qu’on appellera des dummies, ils serviront essentiellement à combler le début et la fin de la file et peuvent être, ou doivent être (selon l’implémentation), égaux et occuper la même zone mémoire. Plus important, la plupart de ces opérations sont invalides dans un contexte de partage de données entre plusieurs threads parallèles.

Avant de continuer ce chapitre, il semble nécessaire de savoir reconnaitre si une structure de données, ou plus généralement un algorithme qui produira des effets, est thread-safe ou non. Dans un système concurrent, composé de plusieurs processus et incluant du parallélisme, j’appellerai “thread-safe” un algorithme avec une sémantique synchrone qui gardera cette même sémantique dans tout les scénarios possibles d’appels asynchrones. Parmi les effets indésirables d’un tel algorithme, on peut identifier les désynchronisations, les pertes de données, les fuites de mémoire et tout type de comportements imprévisibles, à condition bien sûr que ces effets ne soient pas souhaités dans la sémantique originale.

Toutefois, s’il est plus ou moins facile de montrer qu’un algorithme ne remplit pas les conditions pour être thread-safe il est difficile de prouver le contraire sans le matériel adapté. Heureusement, il existe quelques langages spécifiques qui permettent de vérifier la conformité d’un algorithme par rapport à ses spécifications. Cependant, excluant le fait que je ne les maîtrise pas, il serait surérogatoire de les présenter ici.

La figure ci-dessus montre un des nombreux scénarios de désynchronisation qui pourraient arriver. En fait, en utilisant cette structure non protégée, ça ne se passera quasiment jamais bien. Si on reste dans des exécutions concurrentes, dans des green threads, pourquoi pas. Mais en incluant du parallélisme, il y a un fort risque de perte de données et de comportement indéfini. Dans ce cas, la solution la plus évidente est d’ajouter un mutex autour de la file partagée. Des solutions plus performantes entrent alors en scène.

L’étape suivante d’une structure de données thread-safe, après le grand mutex, c’est le status non-bloquant ou lock-free. Quand on parle d’algorithmes lock-free, on l’a vu, on veut dire que l’appel d’une routine comme Push garantira que des appels parallèles à Push et Pop pourront se terminer à une ou plusieurs étapes l’exécution. Autrement dit, on arrive à s’organiser entre threads de façon à se partager la structure de données sans se marcher sur les pieds. Précisons tout de même qu’on utilise l’expression se terminer (sous-entendu avec succès) sans la suite logique et avoir fait effet, car ce sont deux concepts distincts qu’on différencie entre parallélisation et linéarisabilité que j’évoquerai plus tard. Je distingue par la suite les termes lock-free et non bloquant, car il est possible d’obtenir dans plusieurs cas des accès parallèles de lecture et écriture à une même structure avec l’utilisation de mutexes.

Pour l’implémentation d’une file adaptée à divers systèmes de producteurs et consommateurs, on peut utiliser une version synchrone de l’algorithme. Elle ne sera pas lock-free mais non-bloquante. Elle ressemble à ce qu’on a vu précédemment dans send_state et receive_state. Sauf qu’on différenciera le mutex de tête de file et celui de fin de file. Un producteur et un consommateur ne se bloqueront jamais l’un l’autre. Cependant, on utilise deux verrous, ce qui signifie qu’on ne peut pas appeler cette structure lock-free. Ici, on décrit un algorithme qui garantit qu’au moins un thread peut continuer à s’exécuter pendant que d’autres threads sont bloqués. Un consommateur peut s’exécuter même si un producteur bloque la file. Par contre, plusieurs producteurs n’auront pas d’accès simultanés. Cette stratégie s’appelle “livelock-free”, utilise des mutexes et peut supporter des accès concurrents dans un context mpmc, mais elle reste limitée en terme de parallélisation.

void enqueue(queue_t *queue) {
    node_t *node = (node_t *) malloc(sizeof(node_t));   // E1
    pthread_mutex_lock(&queue->tail_lock);              // E2
    queue->tail->next = node;                           // E3
    queue->tail = node;                                 // E4
    pthread_mutex_unlock(&q->tail_lock);                // E5
}

void dequeue(queue_t *queue) {
    pthread_mutex_lock(&queue->head_lock);              // D1
    node_t *node = queue->head;                         // D2
    node_t *new_head = node->next;                      // D3
    if (new_head == NULL)                               // D4
        return pthread_mutex_unlock(&q->head_lock);     // D5
    queue->head = new_head;                             // D6
    pthread_mutex_unlock(&queue->head_lock);            // D7
    free(node);                                         // D8
}

File "livelock-free" avec deux mutexes

Étant donné que mon implémentation ne possède qu’un seul consommateur, le verrou head_lock ne sera pas necessaire. Les lignes D1, et D7 sont optionnelles.

À noter, si on retire les verrouillages et déverrouillages dans la figure ci-dessus, on obtient strictement l’algorithme synchrone de file. Les étapes 2, 3 et 4 d’ajout dans la file sont condensés en E3 et E4. Puis pour le défilement, les lignes D2, D3 et D6 s’occupent des étapes 2 et 3 de l’algorithme. J’ajouterai en commentaire que les lignes E3 et D3 sont des opérations qu’on considère comme atomiques ici. C’est-à-dire qu’elles ne peuvent pas être réalisées strictement en même temps. C’est dans cette direction : reproduire strictement une file synchrone, qu’on devra aller pour trouver un nouvel algorithme libéré des mutexes.

Il faut donc passer le niveau de l’algorithme de obstruction-free à lock-free. En premier lieu identifions les parties critiques des algorithmes push et pop. Pour enfiler une valeur, a priori, créer un noeud n’est pas critique. Trouver la fin de file devient plus difficile. Pour reprendre l’exemple précédent de choses qui pourraient mal se passer, la fin de file est susceptible de changer juste avant de passer à la phase 3 ou 4 de l’algorithme. La récupération de la fin de file, phase 2, n’est pas critique si l’écriture est conditionnée par le non-changement de la variable, grâce à un Compare And Swap/Exchange. Dans l’exemple lock-free int c = load(&i); cas(&i, c, 2);, la partie critique se trouve uniquement dans le compare and swap, si la valeur de i change entre l’opération de lecture et celle d’écriture, il est normal de vouloir annuler la modification. Les phases d’écritures, phase 3 et 4, sont des changements qu’il vaudrait mieux faire sous condition que la fin de file ainsi que son pointeur next n’aient pas changé. Plus exactement, si plusieurs threads essaient de modifier la fin de file en commençant par modifier son pointeur next, utilisez comme simple condition : le pointeur next est vide, je le modifie si effectivement il est vide suffis pour résoudre les data races.

let tail = self.tail.load();                            // P1
let next = (*tail).next.load();                         // P2
if next.is_null() {                                     // P3
    if (*tail).next.compare_exchange(next, node) {      // P4
        self.tail.compare_exchange(tail, node);         // P5
        return;                                         // P6
    }
} else {
    self.tail.compare_exchange(tail, next);             // P7
}

Extrait de la fonction Push,
implémentation en Rust de la file de Mickael & Scott

Cet extrait de la méthode enqueue de mon implémentation en Rust de la file d’attente non-bloquante, simplifiée pour l’occasion, réalise strictement les mêmes actions que l’implémentation livelock-free. On trouve les lignes E3 et E5 très ressemblantes à P4 et P5, outre le fait que la condition pour assigner next et tail est que next n’ai pas changé entre P1 et P4. Tester le retour de P5 n’est pas nécessaire pour les deux raisons suivantes. Premièrement deux threads ne peuvent pas valider la condition P4 simultanément. Deuxièmement, si un thread A valide la condition P4, un second thread B ayant récupéré une copie de next l’instant d’après, ne validera ni P4 ni P3. Le thread B tombera dans P7 pour essayer de mettre à jour la fin de file, exactement comme en P5.

La ligne P7 peut paraître superflue à première vue, elle est le pendant de la ligne P5 qui sera de toute manière executée extrèmement rapidement. Cette ligne, optionnelle en un sens, nous assure cette vitesse de changement de la fin de file ainsi que l’indépendance des threads. Il se pourrait qu’après avoir validé P4, le thread A ayant terminé d’ajouter un noeud, soit “endormi” et laisse temporairement la file dans un état inconsistent. Ce court laps de temps pourrait faire boucler le thread B sur P1, P2 et P3 un certain nombre de fois, ce qui ralentirait le programme. Alors P7 trouve toute son utilité, si A dort, B termine le travail, recommence, et réussi.

Une deuxième implémentation, celle qu’on peut trouver dans les bibliothèques standards modernes, ne se préoccupe pas d’aider les autres threads. La file que je présente n’est pas particulièrement optimisée pour un mpsc. Elle est bien plus générique, elle cherche la performance dans des situations très variées. Le fait de mettre à jour la file en anticipant l’action d’un thread parallèle est une mécanique pessimiste, répétée à la ligne Q7 dans la figure ci-dessous, mais qui dans certains cas peut se révéler indispensable.

let head = self.head.load();                            // Q1
let tail = self.tail.load();                            // Q2
let next = (*head).next.load();                         // Q3
if std::ptr::eq(head, tail) {                           // Q4
    if next.is_null() {                                 // Q5
        return None;                                    // Q6
    }
    self.tail.compare_exchange(tail, next);             // Q7
} else {
    let ret = (*next).value;                            // Q8
    if self.head.compare_exchange(head, next).is_ok() { // Q9
        drop(head);                                     // Q10
        return Some(ret);                               // Q11
    }
}

Extrait de la fonction Pop,
implémentation en Rust de la file de Mickael & Scott

Un algorithme comme celui-ci qui aide les threads à terminer leurs opérations d’écriture, aide forcement la lecture à avancer. Un algorithme écrit en faisant attention à ces détails garantit qu’un thread pourra toujours faire avancer son propre état de façon indépendante et ne restera jamais bloqué par d’autres threads. On dit de ces algorithmes qu’ils sont “linéarisables”.

Veuillez excuser l’emploi du terme technique “linéarisable”, je me propose de vous en offrir une définition concise au sein d’une parenthèse dédiée. Pour commencer, toute routine d’un algorithme a un début et une fin (si la sémantique le demande). Si le début est simple à observer chronologiquement, la fin est souvent moins déterminée. La routine Pop ci-dessus, peut potentiellement finir à Q11, pour cela, elle devra préalablement valider la ligne Q9. En réalité, on peut affirmer que cette routine termine ses effets avec succès lorsque le compare and swap s’exécute correctement, la suite reste du simple utilitaire pratique. Au vu déjà de cet aspect temporel des appels et des retours, nous pouvons créer un historique tel que : “j’appelle push(A)” puis “A est dans la liste”. Combiné avec la routine Pop nous pourrions observer cette suite d’événements :

push(A)

A est dans la liste

pop()

pop retourne A

Vous remarquerez que chaque appel d’une fonction est suivi par son résultat, ce qui nous rassure d’un point de vue logique. Pop ne retourne pas de valeur avant son appel, de même, la réponse “A est bien dans la liste” précède strictement le retour de Pop, ceci nous confirme que l’espace-temps dans lequel nous testons notre algorithme est bien linéaire. Autrement dit, nous pouvons raisonner à propos de son exactitude. Un deuxième scénario réaliste pourrait être : Pop ne retourne pas d’information en un laps de temps raisonnable. Comment dans ce cas juger de du déterminisme ainsi que de la linéarité de l’historique sémantique ? Pop finira-t-il un jour ? En fin de compte, un algorithme linéarisable doit respecter certaines contraintes temporelles. Il faudrait, entre autres, qu’un appel à une de ces routines donne l’impression de se terminer instantanément après son appel. Or, “donner l’impréssion de” implique une vision subjective et complexe à déterminer pour la plupart des algorithmes. Ceci nous amènerai à des réflexions trop eloignées du périmètre de l’informatique. Une seconde définition équivalente, plus simple à prouver, est la suivante : entre le début de la routine et sa fin, il doit exister une ou plusieurs étapes où la routine a fait effet. Pour Pop, par exemple Q9 peut être cette ligne à condition qu’une de ces itérations lui permette de faire réussir l’échange. Q9 est ici le point de linéarisation de la routine. Vous l’aurez compris, ces contraintes sont primordiales pour pouvoir raisonner correctement à propos d’un algorithme, et éviter des incohérences dans de nombreux contextes. Concluons cette parenthèse en dépit du fait qu’il subsiste encore un abondant corpus de réflexions à opérer sur ce thème.

Reprenons l’implémentation du mpsc. Comme avec l’algorithme livelock-free présenté précédemment, il n’est pas nécessaire d’utiliser de variable atomique pour le pointeur vers la tête de file. Si le cas d’usage nous garantit qu’un unique thread pourra accéder à cette fonction, pas nécessairement le même thread à chaque appel, la ligne Q9 peut être remplacée sans hésiter par une écriture tout ce qu’il y a de plus banale. Dans le cas générique, ce mécanisme protège les consommateurs de plusieurs scénarios de duplication de données et de data races. Il protège entre autres des doubles libérations de mémoire, on peut libérer la mémoire de l’ancien noeud sans crainte dans cet algorithme car l’échange en Q9 ne peut se faire que par un seul thread. Après l’échange de head et next, la head précédente est inaccessible à tout autres threads. Avec certitude, on ne déréférencera jamais un pointeur nul et on ne cherchera pas non plus à libérer sa mémoire deux fois.

Les deux extraits de code précédent sont tirés d’une version d’implémentation d’une Michael & Scott Queue. L’algorithme en question corrige normalement le problème appelé ABA. Cette partie n’est pas présentée ici, notez cependant que dans un algorithme linéarisable, la plupart, pour ne pas dire tous, résolvent l’ABA en utilisant un compteur pour vérifier la consistance entre les noeuds. Chaque noeud aura un identifiant unique en plus d’une adresse et d’un contenu, évitant les confusions.

L’implémentation de la bibliothèque standard de Rust a évolué pendant que j’écrivais ces lignes. Aujourd’hui l’implémentation de mpsc / mpmc ressemblerait plus à une Mickael & Scott Queue comme si dessus avec quelques améliorations pour la partie unbounded et est resté sur une proposition de Dmitry Vyukov’s pour la partie bounded. N’ayant pas d’autres informations pour le moment, je reserve plus de détails dans des chapitres ultérieurs.

Si vous développez en Rust, l’implémentation dans la bibliothèque standard respecte les critères d’une file lock-free non intrusive de multiples producteurs et unique consommateur. Dans le pseudocode suivant, si un producteur p1 exécute R1 et R2, puis un producteur p2 exécute R1, R2 et R3, puis p1 termine la routine avec R3, en considérent les paragraphes et exemples précédents, pensez vous que cet algorithme est linéarisable ? Pourquoi ne peut-il pas y avoir d’ABA avec cette méthode ?

fn create():
    self.tail = self.head = dummy_ptr;

fn push():
    let node = Node::new();             // R1
    let prev = self.next.swap(node);    // R2
    prev->next.store(node);             // R3

fn pop():
    let tail = *self.tail.get();        // S1
    let next = tail->next.load();       // S2
    if !next.is_null():                 // S3
        *self.tail.get() = next;        // S4
        drop(tail);                     // S5
        return Success                  // S6
    if self.head.load() == tail:        // S7
        return Empty                    // S8
    return WaitingAnInput               // S9

Pour conclure ce chapitre, je voudrais attirer l’attention sur les lignes S7, S8 et S9 de la figure précédente. L’implémentation de ce test est tout à fait optionnelle, si le thread consommateur n’a pas encore accès à une information, bien qu’un producteur soit en train d’en ajouter une, la réponse Empty reste acceptable. D’autant plus que dans un thread A qui sera différent du thread du consommateur, l’exécution de R1 peut potentiellement commencer lorsque S7 est validé, alors l’inconsistance de la file ne sera pas détectée. Nous pouvons penser que l’usage d’une file par rapport à une autre a toujours une raison valable, qu’un algorithme ne peut pas varier sous peine d’un danger imminent de comportement indéfini. Pour le moment, il a été démontré le contraire. Dans certains cas, on peut retirer des verrous ou des accès atomiques et tout ira bien. Certains préféreront un algorithme linéarisable, mais tout est une question de contexte, d’opinion, de dosage, d’évaluation de risque, c’est pourquoi une implémentation qui est plus rapide dans 99% des cas et extrêmement coûteux dans le dernier a sa place dans une bibliothèque standard. C’est pourquoi on peut aussi espérer détecter une inconsistance (S7-S9), car dans ce cas, on sait comment réagir au mieux et améliorer, du fait, une vitesse moyenne d’exécution.

Chapitre 8 - Machine à états industrielle

Il peut arriver qu’une machine à états soit nécessaire dans votre programme car pour communiquer correctement avec des composants embarqués. Il se peut également que les événements reçus de ces composants soient invalides, arrivent à des moments imprévus, se répètent plusieurs fois, ou ne soient pas dans l’ordre attendu.

En utilisant la bibliothèque Reagir, définissons une machine à états un peu plus réaliste. Cette fois-ci, la lecture de l’entrée utilisateur est parallèle à l’exécution, donc on peut recevoir des événements à tout moment. Nous ne pouvons pas garantir que les composants du système nous enverrons des signaux lisibles ou cohérents. L’automate ressemble à ceci :

Le code doit être clair et précis. Il est important de noter que dans le milieu industriel, les machines à états évoluent souvent plus rapidement que le reste du programme, il est donc essentiel de maintenir un code facile à modifier. Par rapport à l’exemple précédent, la fonction state_machine ne varie presque pas. La structure de l’état ne devrait contenir que les fonctions d’étapes qui produisent les effets de bord, ainsi que les éléments nécessaires à l’application, comme le contexte. Les fonctions, dans l’exemple suivant, toujours appelées de dynamiquement, définissent également pour l’état courant les événements attendus.

State_t state_A = {fn_state_A};
// [...]
State_t state_E = {fn_state_E};

void fn_state_A(State_t *_) {
    onEvent("gotoB", &state_B);
    onEvent("gotoC", &state_C);
}

void fn_state_B(State_t *_) {
    onEvent("gotoD", &state_D);
}

void fn_state_C(State_t *_) {
    onEvent("gotoD", &state_D);
}

void fn_state_D(State_t *_) {
    onEvent("restart", &state_A);
    onEvent("stop", &state_E);
}

Lorsque le programme entre dans l’état A, il execute la fonction associée fn_state_A. Laquelle, à part les effets de bord qu’elle implique, peut définir quelque part que la machine s’attend à présent à un des évenements gotoB et gotoC et aucun autre. Le signal d’un de ces évenements entrainera respectivement le passage à l’état B ou C. Il est important de remarquer les avantages de décrire sa machine à états de cette manière : elle est extrèmement fléxible et lisible. Avec cette technique de base, il est possible d’écrire des programmes d’une étonnante compléxité.

En ce qui concerne la communication avec d’autres composants, il est important de noter que chaque état peut recevoir un ou plusieurs événements, dû à du bruit ou à un mauvais traitement du signal dans une partie plus bas niveau. Dans notre exemple, nous recevons du texte, mais cela pourrait être n’importe quel signal externe ou interne. Admettons que nous soyons en train de communiquer avec des composants qui fonctionnent en temps réel, et qu’un message tel que gotoB puisse être reçu plusieurs fois avant que la partie matérielle responsable ne se mette à jour. Pour gérer ces cas, il est judicieux de centraliser les changements d’état en utilisant une fonction de réduction.

Une fonction de réduction donne la possibilité de définir les mises à jour de l’état en fonction de l’état actuel et d’un nouvel évènement. Elle est appelée en amont de l’exécution d’un état et peut décider si valider ou non une transition. L’état suivant est définit par la valeur de retour de la fonction de réduction. Si cette valeur est nulle, la bibliothèque ignorera l’évènement. Cette fonction permet surtout de centraliser les transitions, vous pouvez rendre votre code plus lisible et maintenable en séparant clairement les différentes actions qui peuvent modifier l’état de votre application.

void *find_next_state(void *old_state, unsigned char *event)
{
    static char previous_event[30] = {'\0'};
    if (strcmp(previous_event, (char *)event) == 0)         // P1
        return NULL;
    void *state = hashmap[hash(event)];
    if (state != NULL)                                      // P2
        memcpy(previous_event, event, 30);
    return state;
}

void *reducer(void *old_state, void *event)
{
    void *ret = find_next_state(old_state, (unsigned char *) event);
    free(event);
    return ret;
}

Dans la figure précédente, la ligne P1 protège contre des signaux dupliqués. On ne peut recevoir un signal qu’une seule fois, sa répétition est interdite. Notez qu’en pratique, vous pourriez souhaiter ajouter quelques exceptions à cette règle. Par exemple, il est possible que vous vouliez recevoir un signal next plusieurs fois. Pensez alors à ajouter des fonctions de vérification. Ce problème est très similaire à un autre dont il faut tenir compte avec de la programmation atomique, ce qui relie enfin concrètement nos deux thématiques. Regardez la figure Rust ci-dessous, ce morceau de code modifie la valeur du paramètre et signal en modifiant un flag qu’elle a été modifiée, comme pour le spinlock vu précédemment. En C ou C++, on n’aurait même pas besoin de préciser que ces paramètres sont atomiques, ni qu’elles sont cachées derrière un compteur de référence. Malgré tout, la particularitée de Rust à être memory safe n’exempte pas ce code d’un possible data race. Lorsqu’on ne précise pas l’ordre, ou qu’on donne un ordre Relaxed, à l’écriture de variable, on ne peut pas confirmer avec certitude que val sera toujours modifié avant modified_flag. C’est cela que l’on nomme un spurious wake up.

Lorsqu’on ajoute à la place de P1 une exception, on doit toujours y ajouter si nécessaire une protection. En général, une variable tierce, un timestamp ou un identifiant qui nous permettra de vérifier si l’évènement est unique.

fn modify_val(modified_flag: Arc<AtomicBool>, val: Arc<AtomicU32>) {
    val.store(42, Relaxed);
    modified_flag.store(true, Relaxed);
}

fn read_val(modified_flag: Arc<AtomicBool>, val: Arc<AtomicU32>) {
    while modified_flad.load(Relaxed) == false {}
    assert_eq!(val.load(Relaxed), 42); // Peut fail
}

Gardons à l’esprit que ce code est exécuté de façon synchrone, ça signifie que l’état actuel a déjà été appliqué. Premièrement, on ne peut pas être simultanément dans une fonction comme fn_state_A et dans la fonction de réduction. Deuxièmement, la fonction de réduction est appelée avant que l’état fasse ses effets. Conclusion, quand on entre dans la fonction de réduction, la machine à états est abonnée aux seuls évènements attendus dans son contexte actuel. La ligne P2 nous permet d’ignorer ces évènements inatendus. Si nous sommes à l’état B, le signal gotoC sera ignoré. Ça peut être un comportement erroné, dans certains cas, on peut souhaiter que l’état devienne vraiment C dans la mesure du possible. Si besoin, j’ajouterai un état transitoire qui tentera d’annuler les effets de bord de l’état précédent.

Représenter son programme grâce à un diagramme d’états et de transition facilite le développement d’applications complexe. On se fait un cadeau en décrivant à haut niveau le fonctionnement de son programme. On peut vérifier l’exactitude, les besoins, transmettre une connaissance rapidement dans une équipe et améliorer la communication entre les composants.

Chapitre 9 - Le problème du dernier état

Revenons sur la file d’évenement un instant et comment elle est implémentée. Lorsque dans la boucle de la machine à états le consommateur attend un nouvel évènement à traiter, il est préférable de permettre au CPU d’utiliser le coeur inactif durant l’attente. Évidemment, ça dépend des cas, encore une fois.

On souhaite utiliser un file non-bloquante et, dans la mesure du possible, ne pas invoquer de verrou. Une implémentation similaire à celle de Réagir, qui utilise des variables conditionnelles, pourrait ressembler à la figure ci-dessous. La boucle de réception tente dans un premier temps de tirer un élément de la file, en cas de réussite (R5) il traite l’entrée, en cas d’échec, il attend une nouvelle entrée et un signal (S2). L’attente en R4 symbolise donc l’attente d’un signal dans le cas où la file serait vide et push est notre variable conditionnelle.

send(e):
    queue.push(e);                  // S1
    signal(&push)                   // S2

receiver_loop():
    let e = queue.pop();            // R1
    if e == Null:                   // R2
        let guard = lock(&mutex);   // R3
        wait(&push, &mutex);        // R4
    else:
        received(e);                // R5

On remarque dans un premier temps qu’on utilise un verrou autour de la variable conditionnelle. Purement pour respecter les bonnes pratiques, celui-ci est optionnel. Au cas où le fonctionnement des cond_var le permettait, on s’en passerait. Mais cette implémentation a un plus gros défaut. Si le consommateur vient d’échouer à lire une entrée, au moment où il entre dans R3, un producteur peut entrer en action, terminer S1 et S2, avant que R4 ne soit invoqué par le consommateur, le laissant alors dans un état de veille avec une entrée (ou plus) dans la file. En fait, le problème est d’informer au thread du consommateur de ne pas se mettre en veille entre R2 et R4, ce qui est impossible sans d’autres mécanismes de synchronisation.

La première technique, si je choisis de continuer avec des variables conditionnelles et des verrous, utilise le concepte de sémaphore. Or, si je persiste, je finis dans tous les cas dans une file synchrone où, au mieux, quelques threads pourront être parallélisés avec difficulté. La deuxième méthode, la plus moderne, utilise des futex. Dans ces chapitres, je n’ai pas présenté le fonctionnement des variables conditionnelles, ni même des mutexes. Je ne vais pas non plus entrer dans les détails des futex, mais les exemples qui suivront permettront sûrement d’éclaircir cet aspect de l’informatique pour ceux qui n’ont jamais fait l’expérience de ce mécanisme de synchronisation.

Prenons n’importe quelle file lock-free qu’on peut trouver, que ça soit celle de la bibliothèque standard Rust ou bien une plus générique et linéarisable. Nous savons que le retour de la routine pop peut être nul, même si un producteur vient d’être appelé. Dans la file mpsc de Rust, on peut avec un peu de chance identifier cet état d’inconsistence, il semble que dans ce cas précis, boucler sur la routine pop jusqu’à recevoir de la donnée soit une bonne chose à faire. Dans l’autre cas, autant plus probable, il faut savoir gérer le status de la structure mpsc en ne sachant rien des activités des threads parallèles.

Utiliser des futexes dans cette situation est approprié. En quelques mots, ce mécanisme permet de créer un verrou si une variable atomique remplit une condition. Exactement comme pour le compare and swap , où l’objectif serait d’enclencher l’attente d’un signal. La figure ci-dessous ressemble plus ou moins à ce qu’on pourrait réaliser avec des sémaphores de façon plus moderne. De plus, l’utilisation de swap qui retourne l’état précédent et de fetch_sub qui passera selon les cas du status Notified à Running et de Running à Waiting, fait que cette partie de l’implémentation est wait-free. Cette méthode est aussi connue sous le nom de “thread parker”, le consommateur attend jusqu’à ce qu’il soit notifié, à condition de ne pas déjà être notifié.

Notez également deux points. Premièrement, la boucle B5, celle-ci protège d’un possible spurious wake up, qu’on a déjà décrit, de la part du système, détécté par le test B7. Deuxièmement, ce n’est pas évident dans le pseudocode qui suit, appeler un futex aujourd’hui passe par un appel système, et donc s’avère différent pour chaque architecture.

let Notified = 2, Running = 1, Waiting = 0;
let status = Running;

send(e):
    queue.push(e);                              // A1
    if status.swap(Notified) == Waiting:        // A2
        futex_wake(&status);                    // A3

receiver_loop():
    let e = queue.pop();                        // B1
    if e == Null:                               // B2
        if status.fetch_sub(1) == Notified:     // B3
            return;                             // B4
        loop:                                   // B5
            futex_wait(&status, Waiting)        // B6
            if status.cas(Notified, Running):   // B7
                break;                          // B8
    else:
        received(e);                            // B9

Premier récapitulatif

Malheureusement, je ne suis pas en mesure de formuler une conclusion définitive à propos des machines à états ni de la programmation multithreadé, ce domaine étant en constante évolution (une telle conclusion est probablement irréalisable). Toutefois, je peux avancer quelques observations basées sur mes dernières lectures et conversations.

Au cours de mes investigations, j’ai remarqué des similitudes entre les développements récents et les réflexions exposées par Pierre Boule dans son oeuvre “La planète des singes”. Les travaux publiés entre 1990 et 2010 semblent avoir eu une profonde influence sur la dernière décénie. Une explication plausible est que nous soyons réellement inspirés par les fondateurs de l’informatique, ce qui peut expliquer en partie notre tendance à imiter les développements antérieurs.

Pour ma défense, un développeur expérimenté peut parfois comprendre le fonctionnement d’outils qu’il utilise depuis longtemps, comme un bûcheron qui saisit enfin le fonctionnement de la hache qu’il manie. De plus, il peut être utile de vulgariser certaines connaissances pour les rendre accessibles à un public plus large. Cependant, nous sommes en droit de supposer que la connaissance peut se perdre avant d’être redécouverte de génération en génération. Dans ce cas, nous ferions mieux de lire les premiers travaux pour comprendre les erreurs du passé ainsi que les “nouvelles” techniques de programmation.

En résumé, je vous suggère d’aller plus en détail sur certains points que nous avons abordés. Pour comprendre les problèmes de linéarisations, vous pouvez lire les raisons du changement du mpsc de la bibliothèque standard Rust. Pour les machines à états, vous pouvez explorer leur utilisation dans la reproductibilité, le calcul à la volée et les algorithmes distribués. Vous pouvez également lire l’implémentation de la bibliothèque Reagir et comprendre pourquoi il serait vain de tester chaque entrée dans la routine dispatch. Vous pouvez imaginer de nouvelles implémentations en C, de nouvelles représentations et essayer d’autogénérer une machine à état à partir d’un format BNF. Enfin, vous pouvez prendre de l’avance sur mon prochain article en proposant des implémentations dans des langages plus modernes et les comparer avec les méthodes existantes ou en développement.

The data compression (French)

2022-09-29T00:00:00+00:00

Ma quête vers la compression

[2022-09-29] #FSE #Algorithmie #Vie #Compression

Preface - Life post

Si vous désirez sauter cette introduction où je raconte ma vie, ce que je comprends très bien, rendez-vous directement à la section Les algorithmes de compression - début du technique !

Je me souviens avoir passé un entretien, un jour, ou j’ai dit que j’aimais bien l’algorithmie. Tout s’est bien passé, mais à la fin de l’entrevue on m’a répondu:

“C’est bizarre, tu dis que tu aimes l’algo, mais tu fais ça de cette manière ? Tout le monde sait que ça peut être résolu en O de N sur deux !”

J’avais codé cette partie sans trop me questionner. Après tout, j’allais vite, je n’ai pas pensé que justement, j’allais devoir optimiser ce bout là. Ça veut dire que je n’aime pas l’algo ? Ou bien tout simplement que je suis éclaté ? Je me posais ces questions, en plus dans une période de ma vie où je doutais un peu de ma carrière. C’était carrément un coup au moral.

Comme tout informaticien ayant fait des études de programmation, j’ai implémenté les classiques: des tris, des plus courts chemins, un allocateur, un alpha-beta pruning… et j’en passe.

Mais même en connaissant mes classiques, je pourrais mettre un peu plus de cinq minutes pour ressortir un A* parfait, sans ressource. Je ne m’exerce pas tous les jours, et le monde de l’informatique est trop grand pour tout connaître, non ? Avec du recul, je sais aujourd’hui que cette partie en entretien n’a pas été décisive. J’étais suffisamment junior pour que ça se voit, même en baratinant.

Un bon ami me dit souvent, “D’abord, implémente naïvement, ensuite réfléchis”. Et je trouve ça plutôt juste. Lorsqu’on zone là où ça parle d’algo, on tombe souvent sur quelque chose sans le vouloir. Si on est curieux, on apprend, on se rend compte de nos erreurs, on s’améliore et nos codes deviennent meilleurs. Mais le plus important est de s’amuser et de construire quelque chose.

Introduction

18 Janvier 2022. Je découvrais la série “Silicon Valley”, que je vous conseille d’ailleurs. Sans vous en dire plus, je suis instantanément allé regarder ce qui se faisait en matière de compression de données.

J’ai découvert un univers, là où moi j’en étais resté au LZW. Ce qui est genial, c’est qu’il n’y a PAS de bonne solution. Chacun a son rôle à jouer. Et si certaines méthodes ont des performances nettement plus sympas, ça ne signifie pas qu’elles sont les plus adaptées pour toutes problématiques.

Ce n’est pas tout ! Les perforances dépendent aussi des capacités hardwares ! L’amélioration de nos CPUs nous permet d’exécuter des multiplications de plus en plus vite. Les solutions de chiffrement arithmétique ont de plus en plus leur mot à dire.

“Finite State Entropy”, basé sur les recherches de Jarek Duda il y a quelques années, a vraiment titillé ma curiosité. Je n’étais pas au bout de mes peines. Car, si trouver des infos sur des algos comme celui de Huffman, ou encore Lempel-Ziv-Welch, est simple; trouver une explication abordable de FSE est très très complexe. Réservé à l’élite des gens qui écoutaient vraiment en cours de master d’info.

Zstd - L’enrôlement

J’ai commencé par passer beaucoup de temps sur le répo de zstd de Facebook. Il se trouve que FSE est libre de droits, et que zstd est open source. Et il possède parmi d’autres une implementation à laquelle Yann Collet a participé.

Comprendre par le code a souvent fonctionné chez moi. Et même si ça faisait quelques années où je n’avais pas fait du C. J’en ai quand même tiré certains éléments importants qui seront utilisés plus tard.

À propos du C:

Étudier l’informatique grâce à ce langage est exceptionnel. Mais le C a ses défauts, et le manque de lisibilité en est un. Le code du FSE est super, il est optimal pour beaucoup de points de vu. La norme actuelle est plutôt d’utiliser de la monomorphisation dans une bibliothèque, ce que le C ne permet pas facilement. En bref, une implémentation dans un autre langage ne pourrait qu’amener du positif.

Outre le langage, sans connaître les enjeux de FSE, on fait une drôle de tête devant des fonctions comme celle de normalisation. Pleines de choix techniques et d’optimisations à partir de preuves mathématiques. Sans doute pour des performances exceptionnelles, mais trop difficile à prendre en main.

Finalement, si je voulais comprendre FSE, ce n’était une bonne idée. Mais j’ai appris des choses, sur du langage C et de la culture G d’informaticien. C’est un travail qui peut être décourageant, sembler ne servir à rien, mais qui n’ait jamais une perte de temps.

Les algorithmes de compression - début du technique

Il y a deux grandes familles d’algorithmes de compression. On les connaît bien, ce sont les “sans perte” et “avec perte”. Ici, on s’interesse aux “sans perte”, pour vous citer quelques noms: LZ4, LZW, FSE, ZIP, etc.

Une bonne partie des algos utilisent des tables de compression, et d’autres non. Pour moi, les deux grandes familles sont: TABLE ou ARITHMETIQUE.

Chapitre 1, les tables de compressions - ouverture d’une parenthèse

Utiliser une “table de compression” signifie que pour un symbole, on associe une valeur.

Il y a plusieurs façons de construire ce genre de table.

En résumé, un symbole de taille 16, qui sort le plus souvent, sera remplacé par un autre symbole de taille 1. Le reste sera substitué par des symboles plus gros. L’objectif est que, même avec une répartition équitable des symboles, on gagne déjà de la place. Ça dépendra de la taille de l’alphabet aussi bien sûr.

En résumé, on associe des symboles qui, seront des lettres, à des séquences de 0 et de 1 qui seront des bits. Généralement, une lettre tient sur 8 bits avant la compression.

Si dans notre table on décide que A sera remplacé par ‘0001’, et B par ‘1’. Si B est moins fréquent que A, on n’aura pas une superbe compression. La répartition des symboles est très importante pour une bonne performance.

L’utilisation de la même méthode de compression, avec des alphabets constitués de différents symboles, aura un résultat différent tandis que la source restera identique. Par exemple pour “ABAAACABAA”, une construction d’alphabet pourrait être “A”, “B”, “C”. Ou alors “AB”, “AA”, “AC”. Le choix impactera les performances.

Zip, par exemple utilise une méthode du type Encodage de Huffman, avec une table de compression. Compresser 2 fichiers zip, peut à nouveau avoir une plus petite taille. Car les alphabets peuvent être différents. On peut aussi obtenir des résultats différents en compressant le contenu de 2 fichiers zip simultanément, ou en compressant les zips eux-même.

Ces tables sont très pratiques pour la décompression. Pas d’opérations gourmandes en CPU, on remplace des bits par un symbole. Recherche rapide, écriture rapide. Par contre la construction de la table est assez lente.

Avec une table, on peut facilement encoder et décoder “simultanément” dans le style fifo. C’est super pour de la communication réseau. Suffisamment efficace pour des petits alphabets. En plus les algorithmes sont sur Wikipédia. Comme je vous le disais, trouver des informations sur ces différentes méthodes: c’est facile !

Chapitre 2, les compressions arithmétiques, je donne un exemple

Avec la compression (code) arithmétique, on utilise des maths. Sans surprise ? Depuis quelques années, nos CPU deviennent de plus en plus performants. Exécuter des opérations telles que des multiplications deviennent de plus en plus rapides. On voit évoluer, pour les mêmes exécutions, l'efficacité des méthodes utilisant du calcul.

Si la l’utilisation d’une table ressemblait à $symbole \implies bits$, le codage arithmétique ressemble plus à $(état, symbole) \implies état$. En bref, on construit une machine à état.

Prenons une séquence de charactères. ABADABAC.

Dans notre exemple, on a 4xA, 2xB, 1xC, 1xD, 8 caractères au total. Donc les probabilites $P(A) = \frac{1}{2}$, $P(B) = \frac{1}{4}$, $P(C) = P(D) = \frac{1}{8}$.

Prenons un segment de taille 1. On place $a$ d’un coté et $b$ de l’autre, tel que $a = 0$ et $b = 1$. On y ajoute des repères correspondant aux probabilités des symboles. On attribut un symbole a tout ce qui se trouve entre ces repères. Le segment à gauche du repère A représente le symbole A, le à gauche du repère B et à droite A représente le symbole B, etc.

Voila a quoi ca ressemble:

Maintenant, cherchons à encoder le premier symbole de la séquence “ABADABAC”. Pour notre algorithme de compression, on doit remettre à l’échelle les valeurs de a et de b.

a devient la valeur basse de $P(A)$, et b la valeur haute de $P(A)$. Puis, entre a et b, on redispose les repères. Avant, on était à une echelle 1 $(b - a = 1)$, maintenant on est à une échelle de 0,5. Alors notre segment ressemble à ça:

Voilà, on répéte la même chose jusqu’à la fin. Pour le faire efficacement, on a besoin de deux choses:

Une fonction cumulative, permet de savoir où le sous-segment d’un symbole commence.

On veut diviser le segment. Avec $P(A, B, C, D) = (0.5, 0.25, 0.125, 0.125)$. Calculer la CDF nous donne $c(A, B, C, D) = (0, 0.5, 0.75, 0.875)$, les valeurs basses des sous-segments.
Un cumul de la distribution ou la fréquence et de la fonction cumulative pour savoir où le symbole finit.

$d(A, B, C, D) = (c(A) + P(A), …, c(D) + P(D)) = (0.5, 0.75, 0.875, 1)$ ce qui nous donne les valeurs hautes des sous-segments.

Remettre à l’échelle veux dire $a := a + (b - a) * c(x)$, $x$ est le caractère courrant à encoder $\in {A, B, C, D}$. Notez qu’on utilise $c(x)$ car on cherche la valeur basse. Et suivant le même principe, devient $b := a + (b - a) * d(x)$`.

a = 0, b = 1
pour chaque c dans "ABADABAC"
    w = b - a
    b = a + w * d[c]
    a = a + w * c[c]

Je bricole un petit bout de code à partir de ça et je trouve l’intervalle $[a, b)$ sans me casser la tête: $[0.3070068359375, 0.30706787109375)$. Et voilà, cet intervalle c’est notre état final. À lui seul il représente toute notre séquence encodé.

Ce qu’il faut à cette étape, c’est imaginer qu’on zoom vers la section qui représente notre symbole. Puis on remet sur cette nouvelle échelle des sections pour tous nos symboles. Un zoom égal un état, et l’état final sont les derniers $a$ et $b$.

Maintenant qu’on a l’intervalle, on peut produire une séquence binaire correspondante. Comment qu’on peut faire pour représenter un chiffre à virgule en dessous de 0 ?

En fait c’est assez simple. Si dans le monde décimal $0.1 = \frac{1}{10}$ et $0.11 = \frac{1}{10^1} + \frac{1}{10^2}$. En binaire ca pourrait etre $.1_{b} = \frac{1}{2}$ , $.11_{b} = \frac{1}{2^1} + \frac{1}{2^2}$

…ou encore $.101_{b} = \frac{1}{2} + \frac{0}{2^2} + \frac{1}{2^3}$

-- Phase 1
tant que a > 1/2 ou b < 1/2
    si b < 1/2
        produire 0
        a := 2a
        b := 2b
    sinon si a > 1/2
        produire 1
        a := 2(a - 1/2)
        b := 2(b - 1/2)

-- Phase 2
s = 0
tant que a > 1/4 et b < 3/4
    s := s + 1
    a := 2(a - 1/4)
    b := 2(b - 1/4)
s := s + 1

-- Phase 3
si a <= 1/4
    produire 0
    produire s fois 1
sinon
    produire 1
    produire s fois 0

Pas de panique, je vous explique ce qui se passe. Souvenez-vous de ce segment, on avait avec $a$ et $b$. Découpons ce segment en 2, à gauche on dit que c’est 0, à droite 1. On choisit la partie où se trouve notre intervalle. Entre 0 et 0.5, donc sur la partie de 0. Puis on double a et b. Eh oui on double ! Car l’intervalle diminue de moitié et l’échelle grandie !

On reproduit cette étape, plusieurs fois, jusqu’à ce que l’intervalle chevauche la partie gauche ET la partie droite. C’était la phase 1. À ce stade, il ne faut pas diviser le segment par deux, mais par quatre. Un schéma vaut mieux qu’un millier d’explications.

Puis observez attentivement. Vous remarquez que a commence par chevaucher ‘01’, puis ‘011’. Ce n’est pas pour rien. La tendance de l’intervalle penche plus vers la gauche, et donc naturellement, plus l’echelle grandie, plus a se rapproche de la limite gauche. Plus rapidement que b vers 1.

Un autre intervalle aura prefere tendre vers la partie droite. Les bits produit par cette phase ressemblent soit a ‘01111…’ soit a ‘1000…’ Et que le nombre de 0 ou de 1 correspond quasiment au nombre d’iterations dans la phase 2.

En résumé, la phase 3 construit les chaines, 0111… ou 1000… en fonction de si on tendait vers $a == 0$, ou $b == 1$.

Bon, il se trouve qu’avec notre répartition étrange on finit toujours avec $a = 0.5$ et $b = 0.75$ a la fin de notre première etape, et donc on produit ‘10’ en fin d’algo.

Et j’obtiens la séquence $01001110100110_b=0.3070068359375$ appartenant à l’intervalle qu’on avait trouvé.

Décoder un encodage arithmétique

Pour décoder, on reprend le premier pseudocode et on rajoute un test pour savoir quel symbole émettre.

let mut a = 0f64;
let mut b = 1f64;

// J'ai explique un peu plus haut comment faire, je reviendrais en
// detail dessus dans un autre post.
let z = bin_to_float(out);
loop {
    for n in 0..p.len() {
        let w = b - a;
        let b0 = a + w * d[n];
        let a0 = a + w * c[n];
        if a0 <= z && z < b0 {
            print!("{}", index_symbol[n]);
            a = a0;
            b = b0;
            // personellement j'ai mis C comme EOF
            if index_symbol[n] == 'C' {
                return;
            }
        }
    }
}

Fin de la parenthèse

On peut dire de nombreuses choses en plus sur ce système d’encodage. Déjà, comment gère-t-on l’imprécision du CPU ? On ne peut pas avoir une précision infinie, et une séquence du taille raisonnable dépasserait les limite imposée par la technologie. Ce n’est pas tellement une mauvaise idée d’encoder une source morceau par morceau a priori, mais ça demande réflexion.

Vous remarquerez que la complexitée algorithmique pour encoder est faible, `O(n)`. C'est un point positif, car ça ne varie pas en fonction de l'ordre de mon histogramme. Pendant qu'un Huffman s'execute en `O(nlog n)` avec un histogramme non trié.

“Même dans un Âge mythique, il doit y avoir des énigmes, comme il y en a toujours”

- Tolkien

Avez-vous essayé de compresser cette séquence, avec l’algorithme de Huffman ? Vous ne remarquez pas quelque chose ? Qu’est-ce que vous en déduisiez ?

J’aimerais vraiment en apprendre plus sur le sujet. Notamment autour des comparaisons avec Huffman ! Ainsi qu’implémenter de nouveau LZW, Huffman et un codage arithmétique scalable. Je souhaitais mettre à jour mes connaissances en compressions, et c’est chose faite. J’espère que cette parenthèse vous aura aussi plu.

Chapitre 3 - ANS, c’est quoi c’est quoi ?

FSE est une implementation qui utilise un système numérique asynchrone ! Vous n’aviez pas encore compris ?

De la meme facon que le codage arithmetique, cette methode est plutot de type $(symbole, etat) \implies (etat)$.

Le mieux c’est de commencer par un exemple. Pour FSE, on a besoin d’un histogram des symboles dans la source qu’on cherche a compresser. Par exemple, dans ABADABACA notre histogram sera [4, 2, 1, 1] correspondant respectivement au symbols [A, B, C, D]. L’ordre n’importe pas notre logique, on aurrait tres bien pu construire notre histogram [2, 1, 4, 1] correspondant a [B, C, A, D].

Je commence par calculer la somme cumulative telle que $cdf_i = cdf_{i - 1} + hist_i$ et $cdf_0 = 0$. Je reviendrai dessus plus tard, mais le maximum de ma somme doit absoluement être une puissance de 2, heureusement dans notre cas on a rien a faire car $\sum hist_i = 2^3$.

Imaginez que vous deviez construire un tableau dans lequel vous listeriez des états qui iraient de 0 jusqu’à l’infinie. Pour chacun de ces états, vous y associez un symbole. Vous savez que A aura 2 fois plus d’états que B, qui en aura deux fois plus que C ou D.

La normalisation - étape majeure de l’ANS

Construisons le même segment que tout a l’heure. Chaque partie correspond au pourcentage de chance de tomber sur un symbole A, B, C ou d. La première étape sera de s’assurer d’une chose à propos de cette distribution: Il faut que la somme de nos fréquences tienne sur une puissance de 2, la plus basse possible de préférence.

Si je reprends la chaine ABADABAC, les fréquences étaient de 4, 2, 1 et 1. Ce qui nous donne 8 ou $2^3$. C’est un peu trop simple, le calcul est déjà fait. Imaginons qu’on ait une chaine avec des fréquences telles que $freq(A, B, C, D) = (42, 23, 10, 11)$. Pour avoir une jolie répartition, il faut appliquer une normalisation.

Personnellement, j’en ai implémenté une très simple. Cette implem est loin d’être l’Unique ! Je vous laisse la liberté d’en proposer de nouvelles. Voire, d’essayer de comprendre celle de Facebook, hein, on ne sait pas hein, elle est peut-être un peu élaborée. Si l’occasion se présente, envoyez-moi vos progrès, j’y trouverai un grand intérêt.

pub fn simple_normalization(
    histogram: &mut [usize],
    cdf: &mut [usize],
    table_log: usize
) {
    let mut previous = 0;
    let max = *cdf.last().unwrap();
    let target_range = 1 << table_log; // 2 ^ table_log
    let actual_range = max;

    cdf.iter_mut().enumerate().skip(1).for_each(|(i, c)| {
        *c = (target_range * (*c)) / actual_range;
        if *c <= previous {
            panic!("table log too low");
        }
        histogram[i - 1] = *c - previous;
        previous = *c;
    });
}

J’utilise pour la première fois le concept de table_log. Cette variable, à part le fait qu’on dise qu’on doit s’aligner sur $2^{tableLog}$, a un réel impact sur la compression. Elle joue le rôle de potentiomètre concernant la vitesse d’exécution et la qualité de compression. Une table_log élevée tendra à augmenter la précision de la normalisation. Il y aura moins de 1 dans l’histogramme. Cependant, augmenter cette variable va aussi nuire à l’algorithme. Jusqu’à finir par donner une sortie plus grande que l’entrée. Baisser cette valeur a aussi un bon impact sur la vitesse d’exécution. Ça permet d’arriver moins vite à des états élevés qui prennent plus de temps de CPU pour être traités, et d’éviter des calculs superflus, on verra ça plus tard. En revanche, utiliser une valeur trop basse peut nuire à notre normalisation en la rendant impossible à réaliser, il faut trouver le juste équilibre.

Je calcule la fonction cumulative de mon histogramme. Mon histogramme, c’est simplement une liste de fréquences. J’applique la CDF, tel que $cdf_i = cdf_{i - 1} + freq_i$ et $cdf_0 = 0$. En suivant mon exemple, je trouve $max = 90$. J’aimerais transposer chaque valeur depuis l’échelle $[0, 90]$, sur l’intervalle $[0, 2^3]$.
J’applique un mapping. Vu que l’histogramme est la dérivée de ma fonction cumulative, je peux retrouver la valeur de mon histogramme à la position $i - 1$ en soustrayant previous de c. Avec ce code je devrais pouvoir retrouver $freq_{norm}(A, B, C, D) = (4, 2, 1, 1)$ avec une table_log de 3.

Le fait de devoir s’aligner sur une puissance de 2 selon moi devrait être optionnel. Ça nous permet d’accélérer l’algorithme, oui, car les multiplications peuvent facilement être remplacées par des shifts $\times{8} \iff \ll{3}$. Par contre, c’est un overhead à la compréhension de ce que fait l’algo, donc ça nuit un peu à notre expérience.

J’ai préféré ne pas retirer le concept. Étant donné que c’est quand même une partie importante. En contre-partie, je vous aiderai au moment où je considérerai qu’un petit coup de pouce est nécessaire.

Les états de l’ANS - comment ça marche alors ?!?

Reprenons après la normalisation. On a nos fréquences, on peut construire un segment de taille $\sum_{i}{freq_i}$. Maintenant, je prosose de répéter ce segment à l’infini, comme ci-dessous, et de nous poser une petite question.

Pour commencer, je tire nombre $x$ entre 0 et 3, je tombe sur A. Entre 4 et 5, B; 6, C; 7, D. Si je tire un nombre entre 8 et 15, je devrais avoir une repartition similaire à celle entre 0 et 7. Vu que la première répartition se répète infiniement, je peux comprendre sur laquelle je suis en divisant mon nombre aléatoire par la somme des frequences $floor(x/8)$ qu’on note $\lfloor x/8 \rfloor$.

Déjà je sais si je suis sur genre X’, X’’, etc. Maintenant pour retrouver exactement sur quel symbole je suis, c’est plus compliqué. Il faut que je trouve le symbole pour lequel le cdf est le plus grand et $cdf(symbol) \leq x$. Cette recherche se fait généralement en O(n log(n)) cependant, avec un alphabet d’une taille raisonnable, la méthode des alias est envisageable pour une recherche en O(1).

Ce nombre x c’est notre état. Le principe de l’ANS nous propose un modèle qui nous permettra de trouver à partir de x l’état précédent, et en fonction du nouveau symbole, l’état suivant. Pour bien comprendre comment ça marche, il faudrait d’abord représenter une table d’état.

Dans un tableau, notez pour chaque x de 0 à l’infini, un symbole et son index. Vous pensez bien qu’on ne va pas réellement allouer une infinité d’états. Ce ne serait pas top en compression et je suis sûr que ce n’est pas tout à fait possible non plus avec nos techniques. Mais imaginez quand même:

Encoder avec ANS - version facile

Disons que je suis à l’état 1, mon symbole actuel c’est A. Je cherche à encoder le symbole B, je dois trouver le prochain état correspondant. Je récupère la fréquence de B, que je divise par mon état actuel pour trouver le segment sur lequel je vais aller. Eh oui, car par segment, d’après ma répartition, j’ai $freq(B)$ symbole B.

Pour l’instant, je connais le segment, je connais aussi la taille du segment, 8. Je peux savoir grâce à ces deux informations que mon prochain état sera entre $n \times 8$ et $n\times(8+1)$. Maintenant quelle valeur exactement ça sera ?

Avec $cdf(B)$ je sais que mon premier symbole B sera à $n\times{8} + 4$. Mais je dois connaitre lequel des 2 B correspond à A en tant qu’état précédent ! C’est ça la magie ! Ma première division $n=\lfloor état/freq(B) \rfloor$ me donne le segment suivant sur lequel je peux trouver un B correspondant à plusieurs états, dont mon état actuel ! Pour le retrouver, il suffit d’ajouter l’état modulo la fréquence.

Pas facile à suivre, voici l’équation finale:

$NouvelEtat(Symbol, Etat)=\lfloor \frac{Etat}{freq(Symbol)} \rfloor \times totalFreqs + cdf(Symbol) + Etat \% freq(Symbol)$

Ici le fait d’être aligné sur une puissance de 2 nous permet de remplacer $\times{totalFreqs}$ par un shift. Le total est égal à $2^{tableLog}$ d’où $n \times{totalFreqs} \iff n \ll{tableLog}$

pub fn not_scalable_encode(
    frequencies: &mut [usize],
    // symbol_index me permet de retrouver l'index où je stocke
    // la fréquence et la cdf pour un symbole. Utiliser des
    // vecteurs, c'est pratique mais ça a aussi cet inconvénient.
    symbol_index: &HashMap<u16, usize>,
    table_log: usize,
    src: &[u16],
) -> usize {
    let mut cs = build_cumulative_symbol_frequency(frequencies);
    simple_normalization(frequencies, &mut cs, table_log);
    // Je commence arbitrairement à 1 pour mon exemple, mais le choix
    // de l'état initial peut être important.
    let mut state = 1;
    src.iter().for_each(|symbol| {
        let index = *symbol_index.get(symbol).unwrap();
        let fs = *frequencies.get(index).unwrap();
        // (floor(state / frequency) << table_log) + (state % frequency) + cumul
        state = compress(state, table_log, fs, *cs.get(index).unwrap());
    });
    state
}

Voici un peu de code qui nous montrent qu’encoder reste vraiment très simple. Je me doute que vous comprenez pourquoi ce n’est pas possible d’utiliser sérieusement ce code en production. Mais au cas où je vous donne un indice. state ne pourrait-il pas devenir un peu grand à force ?

Decoder - encore la version facile

Je pense que maintenant il faut commencer par un exemple visuel. Imaginons qu’avec le code précédent, j’ai compréssé la séquence ABA avec mon alphabet. Mon code me donnais l’état 9.

L’idée c’est que grâce à mon état, je retrouve l’état précédent avec plus ou moins les mêmes calcules que pour encoder. Je retrouve mon symbole actuel, pour pouvoir connaitre la fréquence et la somme cumulative à partir desquelles j’avais trouvé mon état à l’époque. Vous voyez la formule suivante fait exactement la même chose que pour encoder mais dans le sens inverse:

$Précédent(Etat)=freq(Symbol)\times \lfloor \frac{Etat}{totalFreqs} \rfloor + Etat \% total_freq - cdf(Symbol)$

Je vous laisse essayer, normalement vous devriez faire le même cheminement que moi. Si vous en faites un autre, demandez-vous si vous utilisez le bon symbole pour chercher la fréquence et la somme cumulative. Si vous n’y arrivez toujours pas, demandez-vous si vous savez bien calculer ?

À propos de de l’état initial

Dans mon exemple d’encodage, je vous disais que bien choisir l’état initial peut être important. Pour montrer pourquoi, mettons nous dans la situation où A est le premier symbole que je veux encoder, puis choisissons 0 comme état initial.

Pour rappel, l’équation qui me sert à trouver mon état suivant est:

$e´(s, e)=\lfloor \frac{e}{freq(s)} \rfloor \times t + cdf(s) + s \% freq(s)$

Si vous ne comprenez rien, je vous invite à remonter de deux chapitres. En attendant, voyons ce qu’$e´(A, 0)$ vaut… 0 ? Ok… $e´ = e$… Et c’est pareil pour tous mes autres symboles si je prends leurs états respectifs sur le premier segment. Eh oui.

Une tech’ pour choisir l’état initial serait de le piquer sur le second segment. De cette manière vous admettez que finir sur un état dans l’intervalle du premier segment est un signal de fin de decompression.Les mêmes solutions que celles de l’encodage arithmétique fonctionnent aussi. Par exemple, si on commence à l’état d’un EOF on va forcément avoir un état différent pour le symbole suivant. Une taille aussi devrait fonctionner.

On peut aussi faire les malins. On affirme que notre chaine commencera par A suivi d’un symbole différent. Ce n’est pas très élégant, mais efficace. À vous de voir la méthode que vous préférez. J’avoue, j’ai un peu fait ça.

Chapitre 4 - Dernière ligne droite, rendre tout ça compliqué

Vous avez dû remarquer qu’avec cette méthode, l’état final risque d’être très très grand. Il risque même très fortement d’être trop grand pour votre ordinateur. C’est pourquoi vous devriez limiter la taille de votre état à un intervalle supportable. Pourquoi pas dans l’intervalle $[2^{16}, 2^{32}]$ ? Bien sûr vous pouvez choisir cet intervalle en fonction de votre hardware.

Finalement, c’est simple. Vous prenez votre état, vous verifiez s’il n’est pas superieur à la frequence, multiplié par 2 puissance X - table_log. Dans ce cas, je shift l’état et j’écris dans un stream ce que je viens de shifter pour le relire plus tard.

let d = 32 - table_log;
let msk = (1 << 16) - 1; // 2^16 - 1

if state >= (fs << d) {
    // On recupere les 16 premiers bits
    // de l'etat actuelle et on la stoque dans un
    // stream. On shift l'etat de 16 pour guarder
    // seulement les 16 bits plus grands.
    let bits = state & msk;
    let nb_bits = u64::BITS - bits.leading_zeros();
    estream.unchecked_write(bits, nb_bits.try_into().unwrap());
    nb_bits_table.push(nb_bits);
    state >>= 16;
};

// .. encoder avec le nouvel état

On peut se demander pourquoi ce test state >= (fs << d) nous permet de s’assurer de ne pas dépasser 32 bits. Pourquoi pas simplement shifter après l’encodage ? Et bien parce qu’on est capable de savoir si on va dépasser ou non en fonction de la fréquence.

Déjà, on remarque que pour toutes fréquences dans l’histogramme, on ne dépassera jamais 2^32. C’est dû à la normalisation qu’on a appliquée précédemment. De plus, dans certains cas, encoder un symbole avec une fréquence élevée nous fera passer cette étape, alors que d’autres fréquences demanderont un shift.

$e´(s, e)=\lfloor \frac{e}{freq(s)} \rfloor \times t + cdf(s) + s \% freq(s)$

Si on prend notre exemple de fréquences avec $f_A = 4$ et $f_C = 1$, on se rend compte que $e´(A, e) \times{4} \approx e´(C, e)$ avec t une puissance de 2. De plus on se rend compte que $f_A = f_C \times{4}$. Pour être tout à fait honnête, je doute encore de mon raisonnement. Mais si mon état est inférieur à ma fréquence shiftée de 32 - table_log, il n’y a aucune raison que mon prochain état dépasse les 32 bits.

Pour décoder, c’est exactement l’inverse. J’ajoute les bits depuis mon stream, s’il y en a, pour reconstruire mon état tel qu’il devrait être.

if state < 2usize.pow(16) {
    // Si on a un état < 16, on essaye de lire le stream.
    // Dans le cas où on avait shifté, le stream contient
    // forcément des bits. Si on ne trouve pas de bits,
    // ça veut dire qu'on arrive à la fin de la decompression,
    // là où l'état a naturellement une petite taille.
    if let Some(nb_bits) = bits.pop() {
        state = (state << 16) + dstream.read(nb_bits as u8).unwrap() as usize;
    }
}

Conclusion ?

C’est un peu prématuré comme fin. Non ? Moi j’ai envie d’en savoir plus en tout cas.

Comme d’habitude, en fouillant un peu dans mon codebucket sur github vous trouverez un peu de code. Lorsque le code sera mature j’en ferai une bibliothèque bien sûr. N’hésitez pas à me poser une question sur ce répo ou en MP par mail. Je serai content de vous aider, ou du moins _essayer.

Pour l’instant, je ne peux que conclure que la compression de données, c’est compliqué. Par exemple, cet article fait une taille environ de 238000 bits. Avec un huffman et un alphabet de symboles de 8 bits, j’arrive à compresser vers 145000 bits. Tandis qu’avec FSE, sur le même alphabet, je suis à 173000.

Il y a tellement de variables à prendre en compte. Trouver la bonne répartition des symboles n’est pas évident, déjà, puis avec FSE on peut varier la précision et la taille de l’état. Ça peut tout changer ! Lorsque je compresse cet article avec un FSE et un alphabet de symboles de 16 bits, j’arrive quand même à compresser vers 138000 bits.

Enfin bref, je vous tiens au courant ! Prochaines étapes, regarder la normalisation, LZW, Huffman vs FSE et compressions arithmétiques scalables !

À bientôt !

Sister’s wedding

2022-07-18T00:00:00+00:00

Sister’s wedding

[2022-07-18] #Rust #GeneticAlgorithm #WASM

Article is being checked ;) the demo works only on firefox for now.

Live snippet

Full result at the end of the article ;)

My sister is getting married!

We’re talking about serious things!!

Speaking with my sister, we talked about some people at the wedding who can’t be together at the table. Then, we felt about the issue, how to propperly position people? For example, I want to be with my girlfriend and my daughter, but Barney wants to be with his crush, who doesn’t want to speak with her ex-best friend! Multiply that kind of story by 100, and you finish with a wedding burnout.

One of the firsts little easy algorithm I learned is the genetic one. And May be it can help my sister to do his table plan… I’ll do a special article with a code snippet.

Code

A genetic algorithm is just a smart method to bruteforce a problem such as the famous “Traveling salesman”. You’ll never be sure that the result is the best. Nevertheless, you’ll have a better result than an approximation, and in a reasonable time.

I’m not going to explain step by step the principle of the genetic method. If you’re interested, you can look at these videos of The coding train channel.

I propose to show, how with perhaps 200 lines of rust I can write a web library with a genetic algorithm, specific for a table’s plan.

Types

When I start a genetic algorithm, I like to start with the definition of DNA. An option for our case is to use a vector of tables and store the names of the participants.

type Dna = Vec<Vec<String>>;

A way to judge a DNA, is to create penalties and bonuses. Penalties are applied when two participants who are not “compatible” are in the same table. I give bonuses similarly, when good friends are together.

Penalty key: two names separated with a coma in alphabetical order. Penalty value: value of the penalty. (0 to 255)

pub type Penalties = HashMap<String, u8>;
pub type Bonus = HashMap<String, u8>;

Number of people in the population. I Don’t need much, 100 is more than enough. If we want a better result, we prefer to increase the number of generations.

static N: usize = 100;

Evaluation

There is no genetic algorithm without evaluations! The function will compute a value from a DNA, then we will order the bests rated candidates and merge them together.

The evaluation can be very naive! If two people with a bonus are at the same table, we add the bonus’s value. If two people with a penalty are at the same table, we subtract the penalty’s value (all of that in the range of an unsigned 32 bits integer)

pub fn evaluation(dna: &Dna, penalties: &Penalties, bonus: &Bonus) -> u32 {
    let mut ret = 0i64;
    for table in dna {
        let couples =
            HashSet::<String>::from_iter(table.iter().combinations(2).map(|c| couple(c[0], c[1])));
        for couple in couples.iter() {
            ret += 1;
            if let Some(v) = bonus.get(couple) {
                ret = ret.saturating_add(*v as i64);
            } else if let Some(v) = penalties.get(couple) {
                ret = ret.saturating_sub(*v as i64)
            }
        }
    }
    match ret.try_into() {
        Ok(ret) => ret,
        _ => 0,
    }
}

Merging (reproduction)

Once you have a population (the list of DNAs), and you have evaluated each person. You can order them and “merge” the half of the bests between them.

To merge two DNAs, you call that function. It will shuffle some places and create a new random one.

What do I try to do? First, if a and b are equals, I just return a and avoid useless execution of codes. Then I take the table length, in theory, there shouldn’t be a problem here to take the first element of a.

Then I flatten the names. I have to list of names ordered by there position in the wedding. At the position 0, we have the name of the person at table 1 place 1. At position 1, we have the name for table 1, position 2, etc.

I can shuffle manually the places, taking randomly the piece of DNA from the parent a, or from the parent b. As it would work in the real life I guess.

Note that I also add a possibility to create a random DNA from nowhere. That’s a natural mutation that will add a natural branch of evolution if it’s very good, or just die at the next generation. Sad, but life can be terrible.

To keep coherency, if you choose the one from the parent a, I need to say that b should replace the chosen name by the other.

In other words, for each element in the DNA, I choose to use the second element or restore the first element.

Note: there is probably a lot of cloning that I can avoid! If you want to share an idea you can post a comment ;)

pub fn merge(a: &Dna, b: &Dna) -> Dna {
    if a == b {
        return a.clone();
    }
    let table_length = a[0].len();
    let mut a: Vec<String> = a.iter().flatten().cloned().collect();
    if rand::random::<u8>() > 254 {
        return random(a, table_length);
    }
    let b: Vec<String> = b.iter().flatten().cloned().collect();

    let mut rng = rand::thread_rng();
    let mut pos =
        HashMap::<String, usize>::from_iter(a.iter().enumerate().map(|(i, v)| (v.clone(), i)));
    let mem = a.clone();

    for i in 0..a.len() {
        let n = match rng.gen() {
            true => b[i].clone(), // replace
            _ => mem[i].clone(),  // restore
        };
        let pn = *pos.get(&n).unwrap();
        let o = a[i].clone();
        a[i] = n.clone();
        a[pn] = o.clone();
        pos.insert(n, i);
        pos.insert(o, pn);
    }
    a.chunks(table_length).map(|t| t.to_vec()).collect()
}

That method is similar to merge two hashmaps and taking randomly the value. It’s very long to get goods mutations that way. Sadly, a full shuffle of the DNAs is a better solution right now. The main difference between “bruteforce” and “genetic” is the effort we make to choose and merge the best results, a form of eugenics. Sometimes the data structures help us, not today.

Start and run the simulation!

Obviously, when we will get a list of participant, I want to create a population for my experience. So I’ll call that random method that will create a new DNA from a list of names and a table length.

Ill call that function N times, I don’t need so much, 100 would be great

pub fn random(mut people: Vec<String>, table_length: usize) -> Dna {
    people.shuffle(&mut rand::thread_rng());
    people.chunks(table_length).map(|t| t.to_vec()).collect()
}

Now, we got everything, I can start the genetic algorithm. I take in input a population, some penalties, some bonus, the number of participants in a table. And a log function for reporting progress in a callback.

The times input significate the number of generations of the genetic evolution.

I also want to return the latest bests DNA in my population. As well, I can call run or rerun, where run will create a random population, and rerun will use a population in input (and that is convenient that the input is the previous bests returned by run).

fn intern_run(
    times: usize,
    mut population: Vec<Dna>,
    penalties: Penalties,
    bonus: Bonus,
    log: fn(Vec<Vec<String>>, usize),
) -> Vec<Dna> {
    let mut rng = rand::thread_rng();
    let mut ret: Vec<Dna> = vec![];
    for i in 0..times {
        let bests: Vec<&Dna> = population
            .iter()
            .sorted_by_cached_key(|dna| Reverse(evaluation(dna, &penalties, &bonus)))
            .take(N / 2)
            .collect();
        log(
            bests[0].clone(),
            evaluation(bests[0], &penalties, &bonus) as usize,
        );
        if i == times - 1 {
            ret = bests.iter().cloned().cloned().collect();
        }
        population = (0..N)
            .map(|_| {
                merge(
                    bests[rng.gen_range(0..N / 2)],
                    bests[rng.gen_range(0..N / 2)],
                )
            })
            .collect();
    }
    ret
}

Then some bindings with wasm-bindgen and I do the glue! Easy like that! You can use the package, since there is no multithreading, and no thread locks, it compile like a charm. The JSON serialization could be modified I think, creating more glue manually, but not now!!

#[wasm_bindgen]
pub fn run(
    times: usize,
    people: String,
    penalties: String,
    bonus: String,
    table_length: usize,
) -> String {
    let _: HashMap<String, u8> = match serde_json::from_str(&penalties) {
        Ok(p) => p,
        Err(e) => {
            elog(&e.to_string());
            panic!()
        }
    };
    serde_json::to_string(&algo::run(
        times,
        serde_json::from_str(&people).unwrap(),
        serde_json::from_str(&penalties).unwrap(),
        serde_json::from_str(&bonus).unwrap(),
        table_length,
        |dna, e| {
            #[allow(unused_unsafe)]
            unsafe {
                log_best(serde_json::to_string(&dna).unwrap(), e)
            }
        },
    ))
    .unwrap()
}

Thank you for reading! I’ll share soon the full code of the project. Bellow you can look at the full result of the computed table plan. The time you read that, a lot of generations have lived and now, you have one of the best possible proposal!

You can create you’re own list of participants by resetting the example, and adding the names (press enter to add a name), and adding bonus / penalty (name1 [space] name2, [number value]). Note that it probably work better if you prefer to use more bonus than penalties.

Good day!

Coding an hashmap from scratch… in webassembly

2022-06-10T00:00:00+00:00

Coding a hashmap from scratch… in webassembly

[2022-05-18] #WASM #DataStructure

At first, it’s strange and useless. I’m aware of that, the goal is not to replace the data structures generated by C, AssemblyScript, grain or whatever an higher level language that build to wasm. It’s something you should do if you want to really understand what’s happening when you want at some point do interoperability.

First, some words about webassembly

Webassembly starts to get famous in the planet informatic. Nevertheless, all use-cases where you consider to build a wasm require some kind of embedder. In other words, you need to define an environment to execute your code using another language. E.g. nodejs, Rust or at least a browser that support wasm!

Here is a list of awesome wasm runtimes

Once your done, you need to define how you manage the discussion between the embedder (runtime) and the wasm instance.

(module
  (func $add (param $lhs i32) (param $rhs i32) (result i32)
    local.get $lhs
    local.get $rhs
    i32.add)
  (export "add" (func $add))
)

WebAssembly.instantiateStreaming(fetch('add.wasm'))
.then(obj => {
    console.log(obj.instance.exports.add(1, 2));  // "3"
});

Here, we learn how to pass a simple i32. And then? What about a string? A user-defined structure? The web seems to silent the fact that there is no convention about it…

There is some good stuff that can help you if you work with Rust that build to wasm and if you use the wasm in Rust.🐍 wasm-bingen is a good example of a project that tend to unify everybody. But it’s not very flexible for now.

In conclusion, if you want some exotic stuff with wasm, you have to learn by yourself how the data is represented in memory. And if you don’t want to drown, I strongly recommend to you to learn and write in webassembly directly. (That’s very fun!)

Have a look at another of my post about string concatenation here. I speak about reading and writing in an instance’s memory.

The insert method

The map I build in memory has a classic memory representation. First I choose to create a map of 256 elements. And each of these element is a 32-bits address pointing to a list of elements, initialized to 0.

|-----    256    -----|
v                     v
+--+--+--+--+-.-+--+--+
| 0| 0| 0| 0| . | 0| 0|
+--+--+--+--+-.-+--+--+

The first thing I need to do is to check if there is something in the map for my key, so basically I search the address of an item and if the address is the impossible value 0, it means that there is no key in my map, so in the head of the list pointed by node I push a new item.

 (func $insert (param $map i32) (param $key i32) (param $val i32)
        (local $addr i32)
        (local $item i32)
	local.get $map
	local.get $key
	call $internal/get_item_addr
	local.tee $addr
	i32.eqz
	(if
  	  (then
	    local.get $map
	    local.get $key
	    call $internal/get_key_addr    // Addr in the map
	    local.tee $addr

	    local.get $key
	    local.get $val
	    local.get $addr                // Addr contains the current head pointer
	    i32.load                       // Load the pointer
	    call $internal/new_item        // Creates an item pointing to the previous
	                                   //             head and returns his address
	    i32.store                      // Replace the old address by the new in the map
	  )
	  (else                            // Simply replace the old value at the offset 32
	                                   // with the new value.
	    local.get $addr
	    i32.const 32
	    i32.add
	    local.get $val
	    i32.store
	  )
	)
 )
)

Get an item

The function $internal/get_key_addr used in the previous don’t just looks at the address pointed by the key hash on my map. But it looks through an array-list if my key is stored. It’s maybe something you didn’t get before but a map is’nt simply Θ(1) in any cases. It could be if the map had an infinite size. Unfortunately, it’s impossible.

I let you look at my favorite scientific website for more information about hash table, wikipedia.

Get the address of the head (in my map)
Search in the array-list the key
Return the address where the value is stored, or 0

(func $internal/find (param $addr i32) (param $key i32) (result i32)
	local.get $addr
	i32.eqz
	(if (then                // early return if address is 0
	   i32.const 0
	   return
	))
	local.get $addr
	i32.load                 // load key, require kv addr on
	                         //  the stack
	local.get $key
	i32.eq
	(if (result i32)
	  (then local.get $addr) // found! break the recursion and return
	                         //  the address

	  (else                  // go to next addr and repeat
	    local.get $addr
	    i32.const 64
	    i32.add
	    i32.load
	    local.get $key
	    call $internal/find
	  )
	)
 )

Where I cheat

I cheat a little bit, because I only accept i32 as keys and values. My hashing function is a simple hash by division. And I don’t think about the free of all of this. I’ll implement that stuff later! 😂

Anyway, that was very fun, I you want to look at the full code and how I use it in a JS environment, have a look at the sources here.

String concatenation in webassembly

2022-05-31T00:00:00+00:00

String concatenation in webassembly

[2022-05-31] #JS #wasm #interoperability

Dealing with memory in webassembly can be difficult to understand. But, actually, it is not so hard.

The thing to understand is that wasm modules leave in separated instances inside a VM. The VM is the executor, manage behind the scene the validation of the module, the execution. It manages the stack machines, the global variables and the heap.

Instances are fully described in the wasm code. In webassembly text, you can know how is initialized the instance’s memory when you see that kind of lines:

  (memory (export "memory") 1)
  (data (i32.const 0) "hi")

Here, I declare a memory of one page and a data “hi” in ascii at position 0.

The binary describes the memory management. So there is nothing like garbage collection. Furthermore, because in a navigator, the environment manage mainly the memory of your JS code. So you cannot safely let the memories being shared like as in a classical dynamically linked library between compiled codes.

It’s actually possible to share the memory between multiple modules. Exactly like the linking of a Rust and a C library. With the difference in a classical dynamic link you don’t have to specify it explicitelly.

Emscripten can produce wasm that are dynamically linked together. You can so compile a C code into a webassembly binary and deal with shared memories between two wasm.

In the future, it would be neat to be able to share the memory with C/C++/Rust code compiled into classical binaries and an instance of webassembly created by an embedder like wasmtime or wasmer.

Note: WebAssembly is not a VM, even if we define some features and configurations related to the VM inside it. It means that we don’t have nativelly a garbage collector. However, according to the binary structure, the embedder can define one like the JS/Python VM does. For example, you can for each value walk through their dependencies, and delete any unreachables objects. Or simply, you can store for each value a pin flag, then, on trigger the garbage collector, remove any structures without this flag. 👏

Writing a string

The calls of a wasm function from the embedder can only transfer primitive value as i32 or i64, if we want to share a string, we need to write inside the instance memories.

To do that, we first need to share with the embedder the memory. We need to import or export it.

Ex: export a memory of one page.

  (memory (export "memory") 1)

In the JS side, I write from the position 8 x 20 the charcodes of hello\0 string in the exported memory :)

    const { concat, memory } = wasmModule.instance.exports;
    // define a C-style string
    let hello = "hello\0";
    // get the memory of the module
    let buf = memory.buffer;
    let mem_arr = new Uint8Array(buf);
    for (let i = 0; i < hello.length; ++i) {
	mem_arr[20 + i] = hello.charCodeAt(i);
    }

Be careful! There is nothing that prevent you to write over a value already in the shared memory. You could try to grow the memory of one page, so you’re sure the memory chunk where you’re about to write is free to use. You can also let the module tell you where you can write if there is an allocator inside.

Like that too simple but enough allocator, for example:

 (func $wrong_malloc (param $0 i32) (result i32)
        (local $ret i32)
        global.get $heap_head
	local.tee $ret
	local.get $0
	i32.add
	global.set $heap_head
	local.get $ret
 )

Modify the string

I write the string in the memory, then the charcodes are accessible in the wasm.

Now I would like to expose a wasm function that append the word world to anything I write in my variable. If I write the string at the position 8 x 20, I could call concat(20) (because it’s align to the 20th byte in memory). That will read and find the end of the string, and then continue to write ` world`.

Example: Store in the s param the next index after the last char initialy, s == 20 (given input arg).

  (loop $to_the_end
    local.get $s
    i32.load8_u
    i32.const 0
    i32.gt_u

    (if (result i32)
      (then
        local.get $s
        i32.const 1
        i32.add
        local.tee $s
      )
      (else
        i32.const 0
      )
    )
    i32.gt_u
    br_if $to_the_end
  )

We already defined a string in the memory at the position 0 containing the sequence \ world with this (data (i32.const 0) " world"). So we can load it and copy each values of the string to the last character.

  (loop $dump
    local.get $s
    local.get $pos
    i32.load8_u
    i32.store8

    i32.const 1
    local.get $s
    i32.add
    local.set $s
    i32.const 1
    local.get $pos
    i32.add
    local.tee $pos
    i32.load8_u
    i32.const 0

    i32.gt_u
    br_if $dump
  )
)

And then in the JS side you can just get back the address of the new string and read enough of memory 😉

    let v = new Uint8Array(memory.buffer, 20, 50);
    console.log(new TextDecoder('utf8').decode(v));
    // hello world

You can define better how the string is represented, you can use another standard, send the address and the size of the string. As well you don’t have to do the first loop. You can choose if your string will be in utf16 instead of the simple ascii.

You can also invent your own encoding process! But I recommend to use some known standard 😂

The full code is on my bucket here!

Templates, Concepts and traits

2022-05-18T00:00:00+00:00

Templates, Concepts and traits

[2022-05-18] #C++ #Rust #Traits

The common point about these three words is that they all are programming ideas and almost not related to any language feature. Those are the kinds of ideas that are the soul of modern programming.

If templates and concepts are a similar in the sens that it allow the user to do some meta programming, traits are an idiomatic system to (and I quote _Bjarn Stroustrup_ ) carry information used by another object to determine policy or implementation details.

About templates

In C++, templates are very common in the standard library. Even if it tends to be replaced with concepts, you have probably already seen one in your programmer’s life.

It’s all about genericness, if you’re building a library, you probably want that the user could use it with any kind of input. If your library is doing an abstract sequence of operations with the input, there is no reasons to limit the client to a specific Class.

Note that in some cases you precisely want to be specific. For example, when you build a lib with physic’s function, you certainly want to introduce the specification of types like Hz, km. You can so, remotely, introduce some rules of calculations and assignations. That’s one example, but I’m sure there are many other situations in which generic programming tools should not be used.

Unsurprisingly, templates take the form of < T > in many languages. I’ll not go into details of the pattern because I’m sure you can google it if you don’t know what is it.

About concepts

Hmf… 😬 In practice, concepts are very C++ oriented. But it introduces the idea of Constraints that you cannot have with just templates! Basically, it moves the resolution of the template very early in the compilation and gives a flavor to the user to figure out why the type doesn’t work with the library.

In other words:

with templates, you describe the constraints of the library in the documentation (the latest thing you read)
with concepts, you let the compiler saying the constraints in a nice format 🙅

And the traits

Here is the bridge between Rust and C++ for the meta programming part. In Rust, traits are used to describe both Constraints and implementation details, where in C++, you need to do a mix of all the ideas of that article.

Now, a basic example of an almost word for word translation. You can decline it with any algorithm, nevertheless, I’m going to show how to do the famous ToString traits constraints.

// Declared in the standard library at std::string;
// Let user carry on the implementation for their own structures as `A`
// pub trait ToString {
// 	fn to_string(&self) -> String;
// }

/// Structure defined in the user program
struct A {
  // parameters
};

/// Implementation of the trait `ToString` for local structure `A`
impl ToString for A {
  fn to_string(&self) -> String {
    // implementation
  }
}

In rust, most of traits are already declared in the standard library because it’s very idiomatic to work with. Note that as for a C++ parallel, the implementation for A isn’t inside A. It can, for some reason, being implemented in another file that we would import if we need A to implement the trait!

The library would constrain the used type to implement ToString like that:

pub fn foo(obj: impl ToString) {
  println!("{}", obj.to_string());
}

So what is the C++ equivalent to the paradigm? First you need to declare yourself the trait. Because C++ is not oriented like that and sometime (I don’t understand why) people discourage to do it that way. If you have got an idea please comment the post!

// declare trait in lib.h

template<typename T>
struct trait_to_string {
  // By default, we don't implement that trait for T
  static const bool impl_flag = false;
  static std::string to_string(const T& self);
};

OK, so we are here with a trait_to_string that replace the standard in Rust. And the structure trait_to_string<A> that implement the trait.

You’ve noticed that we already use templates here in C++, and not in Rust. It’s because, behind the hood in Rust we are doing the same thing (but in earlier in the compilation).

Now, we need to constrain the client to use our library with only data that implement our trait ToString-like. We will use… Concepts!!

// still in lib.h

template<typename T>
concept ImplToString = requires(T a) {
  // required to be true
  requires trait_to_string<T>::impl_flag;
};

/**
* Export function log that is very simple...
*/
template <typename T>
requires ImplToString<T>
std::string log(T a)
{
  return trait_to_string<T>::to_string(a);
}

And we expose a basic function log that don’t even do anything so it’s a bit miss-named. Whatever, you’re not forced to use the concepts here, you can do the same thing with a simple <Template> and documentation! In addition, you shouldn’t use Concepts only to do that kind of stuff. It will take a full dedicated article about that subject.

Then, once you’re done with your library, you can use it that way:

struct A {
  A(std::string a): str(a) {};
  std::string str;
};

template<>
struct trait_to_string<A> {
  static const bool impl = false;
  static std::string to_string(const A& self) {
    return self.str;
  }
};

int main() {
  A a("hello world");
  std::cout << log(a);
}

I’m agree, the flag isn’t really beautiful, it allow us to put a Concept constraint and we’ll probably get a better way to define that. To be honest, there is probably already a solution that I don’t know. :-D

However, look at the definition of the trait… Isn’t it Rusty?!

I leave you here for the moment! I’ll be back in next articles to be more precise about Concepts. I promise to look attentively at that flag too.

Conclusion

Rust compiler do a lot of things for us to make the pattern efficient and easy to use. In addition, there is a little thing that we learn the last 20 years about hat pattern called the Orphan rule, and it’s probably the reason why I didn’t heard much about traits in C++.

I really want to test the limits in C++ of the pattern! I’ll be back!

Data propagation with unstructured P2P

2022-05-10T00:00:00+00:00

Data propagation with unstructured P2P

[2022-05-18] #p5Js #p2p

Consider a P2P network with, for any instant T, each node are connected to perhaps 25% of the nodes (to reducing the global bandwidth).

Also consider that the network is open. A new node can spawn in the network, and connect itself to 25% of the nodes (ex: in a geographic zone). Any nodes at T can create a new data to be propagated through network.

Note: That kind of network can be any P2P model or any nodes configuration. We can imagine a multitude of cell-phone sending notifications to each others with bluetooth connections. Or a client based online video game that use a kind of consensus, with a weak leader and weak node connections. Or a blockchain network with poor connectivity between nodes.

How to propagate the information through the network?

Straightforward

The simplest tactic is sending the data that we received to every neighbors once. And send the data that we produce to every neighbor once.

The “algorithm” is very basic but works well with no surprise. But looking at the workflow of an information. We understand that a node will receive the information from a kind of random amount of distant nodes. And more the network grow up, more he will receive a lot of useless batches of data.

In the worst case the data is really taking a lot of place in our bandwidth 😨

Solutions of accumulated evidences

The solution cut the transfers of the data in two part, the first discussion between the nodes contains only a hash of the data. And then, the distant node choose by itself if getting the full buffer or not.

Sending the full body with the information is taking time and bandwidth because of the size of that one. In fact, the straightforward tactic of propagation is good enough for small data, but not for a large buffer.

So nodes are receiving hash/ids of the data and increment locally the number of times a node say “Hi! I get that data, by the way”.

// On receive a hash key, increment a counter in the `this.known`
// structure ('known' because we heard about that data)
insertOpKey(key) {
    // return if we already have the full data locally
    if (this.owned.findIndex(e => e == key) > - 1) return;

    const index = this.known.findIndex(e => e[0] === key);
    index === -1
        ? this.known.push([key, 0]) // create a counter
        : this.known[index][1]++; // increment the counter
    this.known.sort((a, b) => a[1] > b[1])
},

So, the last sort is very useful for the second and last part of the algorithm! It gave me that strategical order.

The table this.known looks like that:

youngest data (or fake) <<<<<<
>>>>>> oldest data with a lot of replication (probably not a fake)

Actually, more we heard about a data, more it will be easy to find it. But we could also ask to the latest senders of the ids directly when we want to get the data!

peek() {
    if (this.known.length === 0) return;

    const i = this.known.pop();
    // the following two lines must be replaced with a logic
    // that "find" the data in your real network. Here I just
    // simulate that :-)

    // if (this.owned.contains(i[0])) return;
    this.setStatus(i[0]);
    this.owned.push(i[0]);
},

Thank’s!

Thank you for reading! If you appreciate that little P2P introduction. You can find the full code of the preview on my blog repository in the following paths:

.
├── assets
│   ├── js
│   │   ├── constants.js # some constants for the mocked network configuration
│   │   ├── graphical.js # Drawing tools
│   │   ├── node.js      # Nodes behaviors
│   │   └── sketch.js    # p5js configuration and main loop

Bootstrap a database in real time 1/4

2022-05-02T00:00:00+00:00

Bootstrap a database in realtime

The following articles are about a generic study of how we could bootstrap a key-value database. I will not talk about SQLite and even less mongodb.

Instead, that article can be helpful (I hope so), if you’re working on a P2P project where you manage a kind of data-replication/streaming between several nodes.

Data structures

The database can be seen as a data structure. The classical storage of data is a kind o hashmap or a relational key-value structure. Hashmap are optimized to be fast and very safe to use. But doesn’t respect the mandatory requirement of a real-time streaming: Ordering.

Hashmap

The function below will print the keys in the correct order. Because the insertion will make a binary tree search before insertion, and doesn’t hash the keys before insertion. A hashmap would have generated a random Hasher in the execution, that can be considered as “sorted” because the iterator would give the same key order, while we don’t stop the program.

let mut map = HashMap::new();
map.insert("a", "hello");
map.insert("b", "hello");
map.insert("c", "hello");
map.insert("d", "hello");
for _ in 0..10 {
    for (key, _value) in map.clone() {
        print!("{key},"); // will print 10 times the keys in the same order
    }
    println!();
}

That said, when we generate and store the keys ourselves, and keep it in another data store the problem of ordering with the classical HashMap is solved. It is solved because the order of the hashmap is now deterministic and the same for each instances.

First, we need to bypass the Hasher implementation, and take the key as the real hash. For a lot of efficiency reasons, the hashes have to respect some specificities:

Having the same type.
Being Sized. (size known at compile time)

Now if you store the entries in a database, or, if you’re in a P2P behavior, in another node that keep the data consistency. Every running instance of our program will have the same key ordering.

Pro: That situation is benefit, keys are “prehashed” and keeps order consistency. The classical maps operations are as fast as possible.

Cons: You should be careful with the hashing function, a little miss is very difficult to find, and can have disastrous impacts on a bootstrap algorithm.

BTreeMap

In comparison to an HashMap, a BTreeMap:

creates a kind of binary tree
has cheap reallocation
is ordered by key

fn main() {
    let mut map = std::collections::BTreeMap::new();
    map.insert("a", "hello");
    map.insert("b", "hello");
    map.insert("c", "hello");
    map.insert("d", "hello");
    for (key, _value) in map {
        println!("{key}");
    }
}

A BTreeMap will always give the same order, mainly because there is no Hasher. Basically, a BTreeMap is a good compromise between an HashMap and a Binary tree. It takes advantage of memory pages to be fast, but get and insert are always a search in a tree.

Pro: We don’t have to maintain a hash function.

Cons: This is a tree.

solutions →

Bootstrap a database in real time 2/4

2022-05-02T00:00:00+00:00

Webhooks solution

Some words about webhooks

In a P2P network, making webhooks is a classical solution to keep clients informed from what is happening on our node. This is written and explained in many books like Designing Web APIs, and often the best solution in a real time context like live bootstrapping.

Solution

Returning to our initial problem, whatever solution you choose, ordering is the main deal. Once you have a deterministic order, you can stream in every contexts.

A casual example of a bootstrap streaming of two instances. Imagine you have two programs that keep a kind of cache consistency security. If one instance crash, you always have the second one that store in his instance a cash of the data.

Start with a server that give the following endpoints:

size: return the size of the database
bootstrap: register to the remote node that we need to bootstrap. take my entry point, a starting index, and an end index
insert: Take an Update(key, value) or a Delete(key) entry

Before reading that, you should be aware of hyper and his simple server syntax. I decide that solution because it’s fast to implements and easy to read.

(&Method::POST, "/bootstrap") => {
    // ask to be registered as a bootstraper,
    // - addr: entry point (ex http://127.0.0.1:3031/insert)
    // - begin: index of the first entry in the database we want
    // - end: index of the last entry in the database we want
    let (addr, begin, end) =
        deserialize::<(String, usize, usize)>(&to_bytes(req.into_body()).await);
    // add a subscriber into the db and start the bootstrap loop if not
    // already done.
    spawn_bootstapper_sender(addr, begin, end, db.clone()).await;
    Ok(Response::new(Body::default()))
}
(&Method::GET, "/size") => Ok(Response::new(Body::from(format!("{}", db.len().await)))),

The bootstrap route is the start of a bootstrapping strategy, it will activate the webhook for our node and start to stream in real time the database.

The loop that will send a stream is limited with a Period, a constant used in the code to limit the bandwidth and also the usage of the database, shared between multiple threads, for our example. The loop will be launched just once and will run since the end of the program life.

/// Add a subscriber to my db that will stream it in real time and start the
/// _"bootstrap thread"_ if not already done
pub async fn spawn_bootstapper_sender(addr: String, begin: usize, end: usize, db: SharedDB) {
    db.add_subscriber(Subscriber::new(addr, begin, end)).await;

    static SPAWN_ONCE: std::sync::Once = std::sync::Once::new();
    SPAWN_ONCE.call_once(|| {
        tokio::spawn(async move {
            loop {
                let f = async {
                    db.send_chunks().await;
                    tokio::time::sleep(BOOTSTRAP_SEND_PERIOD).await;
                };
                tokio::select! {
                    _ = f => continue,
                    // cancel and return if ctrl-c
                    _ = tokio::signal::ctrl_c() => return
                };
            }
        });
    });
}

An attentive reader would have noticed that we could also stop the thread when all subscribers would be “stale”. When nothing happen for a given arbitrary amount of time, we could stop the thread and restart after a next spawn_bootstapper_sender call. We will look how to do that in another article.

The database implement send_chunks function. In that function, we simply want to iterate through the subscribers and send a chunk for each one, in the range they asked for. The chunk size is defined dynamically as the minimum between what we still have to send to the remote node and the MAX_CHUNK_SIZE limit.

    pub async fn send_chunks(&self) {
        let guard = &mut *self.0.lock().await;
        for subscriber in guard.subscribers.iter_mut() {
            if subscriber.index == subscriber.end {
                continue;
            }
            let chunk_size = min(MAX_CHUNK_SIZE, subscriber.end - subscriber.index);
            let modifs = take_chunk(&guard.data, subscriber.index, chunk_size);
            forward_all(&subscriber.addr, &modifs).await;
            subscriber.index += chunk_size;
        }
    }

If you visit the repository, you can also find some ways to improve the implementation.

remove the oldest subscribers, maybe an auto remove if stale. Staling chapter
limit the number of subscriptions
put all forward_all in an UnorderedFutures list to profit of concurrency.

That could be a great improvement if someone wanted to implement that ;-)

To finish presenting the solution, I have to introduce you to the “/insert” route. As I said before, the insertion take an Delete or an Update. The insertions are managed as an update, so all the CRUD (excepted for the Read) are managed.

(&Method::POST, "/insert") => {
    // update or remove an element from my database
    let modifs = deserialize::<Vec<EntryModif>>(&to_bytes(req.into_body()).await);
    for modif in modifs.iter() {
        match modif {
            EntryModif::Delete(key) => db.remove(key).await,
            EntryModif::Update((key, value)) => db.update(key, value).await,
        };
    }
    Ok(Response::new(Body::default()))
}

The remove and the update are basically the same, just, one call a remove on our database and another call an insert. Each one will look at our subscribers that are streaming the db in the particular chunk of the map. That is why we’re very interested about memory ordering deterministic. We can say if we already sent the value, thanks to the index, and resend it if we want the remote streamer to be up-to-date.

// inform the bootstrapers of an update
let pos = guard.data.iter().position(|(k, _)| *k == *key).unwrap();
for subscriber in guard.subscribers.iter() {
    let end = match subscriber.eof {
        true => guard.data.len(),
        false => subscriber.end,
    };
    if pos >= subscriber.begin && end >= pos && pos <= subscriber.index {
        forward_all(
            &subscriber.addr,
            &vec![EntryModif::Update((key.clone(), value.to_string()))],
        )
        .await;
    }
}

The end value can be linked to the end of the database, when subscribing to the DB, if the end is the same as data.len(), we will always use the full length to keep consistency at the right part of the memory that can overflow the index of end for the last chunks.

Finally, the subscription part! There are two possible implementation. One is to bootstrap from one node only (the current example). The other split the bootstrap between multiple database that theoretically are synchronized copies.

pub async fn _subscribe_to_one(to_addr: String, my_addr: String) {
    let client = Client::new();
    let size = size_request(&client, &to_addr).await;
    // 0: begin, size: end
    subscribe_request(&client, &to_addr, &my_addr, 0, size).await;
}
pub async fn _subscribe_multiple(to_addr: &[String], my_addr: String) {
    assert!(!to_addr.is_empty());
    let client = Client::new();
    let size = size_request(&client, &to_addr[0]).await;
    let c = size / to_addr.len();
    let mut i = 0;
    for t in to_addr {
        subscribe_request(&client, t, &my_addr, i, i + c).await;
        i += c;
    }
    if i < size {
        subscribe_request(&client, &to_addr[0], &my_addr, i, size).await;
    }
}

The multiple subscription simply share his request between multiple nodes offering the bootstrap route. Instead, the “mono-subscription” ask only to one node. Both are working, but both need a possible “retry” management in case the remote nodes crashed.

Staling

In the previous part, we saw how a subscriber link to the DB, but we didn’t define when a DB can dismiss one of these.

One strategy, adapted to a blockchain, would be to give a heartbeat timeout to the subscriber. Each new information sent by our local node to a DB keep alive the subscriber. Since his heartbeat is alright, we continue to send him new information, and then we can remove him from the subscriber’s list.

But here, we have to insert a heartbeat strategy that can take some heavy lines of code.

Another strategy, is to stop to inform a subscriber when he start to be informed by another node!

In other words, when the bootstrap is about to finish, the subscriber can connect itself to the main network, or the main feeder. He can absolutely be informed from multiple sources.

If the “/insert” can return a True or False value, respectively, he accept the new insertion, or he’s already aware of the modification. The node that help the bootstrap know that the subscriber has joined the network, and can be notified as Stale when the index reach the end.

Bootstrap phase:

Stale phase:

In conclusion, both methods are possible depending on the topology and the nature of the database you’re sharing. The heartbeat, even if it seems difficult to maintain, is more flexible and avoid desynchronization problems in some cases. The stale detection, is more precise but can lead to hard consistency bugs and has to be tested strongly before being in production.

The two strategies are welcome in the github repository, as well we could judge wich one is more maintanable.

Tests

You can look to the full code in this github repository. Some test cases are described in the README. Basically, we initialize one or two DB with randoms data. Then with the help of a python script like just below, we run in parallel, some bootstrapping nodes. After a while, we stop the python script and we check if values are the same for each instance of linked DB.

# Ex: python insert.py & cargo run -- 3001 3000
# random insertion in the database for perhaps 5 seconds
for _ in range(0, 100):
    key = random.randint(0,100)
    value = random.randint(0,999)
    requests.post('http://127.0.0.1:3000/insert', json=[{'Update': [f'{key}', f'{value}']}])
    time.sleep(0.02)

← data structures polling →

maybe uninit

Fiche mémo: parsing, if pattern

Fiche mémo: parsing, if pattern

Fiche mémo: parsing, if pattern

State machine and async queue (French)

State machine and async queue (French)

Machines à états (première partie)

Multithreading, atomicité et files non-bloquantes

Introduction

Chapitre 1 - Les machines à états

Chapitre 2 - Utiliser une machine à état

Chapitre 3 - La file d’états

Chapitre 4 - Rappel atomique

Chapitre 5 - Atomique

Chapitre 6 - L’état dans lequel je suis

Chapitre 7 - Une file plus rapide

Chapitre 8 - Machine à états industrielle

Chapitre 9 - Le problème du dernier état

Premier récapitulatif

The data compression (French)

Ma quête vers la compression

Preface - Life post

Introduction

Zstd - L’enrôlement

Les algorithmes de compression - début du technique

Chapitre 1, les tables de compressions - ouverture d’une parenthèse

Chapitre 2, les compressions arithmétiques, je donne un exemple

Décoder un encodage arithmétique

Fin de la parenthèse

Chapitre 3 - ANS, c’est quoi c’est quoi ?

La normalisation - étape majeure de l’ANS

Les états de l’ANS - comment ça marche alors ?!?

Encoder avec ANS - version facile

Decoder - encore la version facile

À propos de de l’état initial

Chapitre 4 - Dernière ligne droite, rendre tout ça compliqué

Conclusion ?

Sister’s wedding

Sister’s wedding

Live snippet

My sister is getting married!

Code

Types

Evaluation

Merging (reproduction)

Start and run the simulation!

Coding an hashmap from scratch… in webassembly

Coding a hashmap from scratch… in webassembly

First, some words about webassembly

The insert method

Get an item

Where I cheat

String concatenation in webassembly

String concatenation in webassembly

Writing a string

Modify the string

Templates, Concepts and traits

Templates, Concepts and traits

About templates

About concepts

And the traits

Conclusion

Data propagation with unstructured P2P

Data propagation with unstructured P2P

Straightforward

Solutions of accumulated evidences

Thank’s!

Bootstrap a database in real time 1/4

Bootstrap a database in realtime

Advertisement

Data structures

Hashmap

BTreeMap

Bootstrap a database in real time 2/4

Webhooks solution

Some words about webhooks

Solution

Staling

Tests