Spaces:

UlrickBL
/

paper_reading

Sleeping

App Files Files Community

UlrickBL commited on Jul 27, 2025

Commit

80147ac

verified ·

1 Parent(s): c07b013

Update JournalDB 1cfe54e949178196af93d90c73636f9d.csv

Browse files

Files changed (1) hide show

JournalDB 1cfe54e949178196af93d90c73636f9d.csv +18 -18

JournalDB 1cfe54e949178196af93d90c73636f9d.csv CHANGED Viewed

@@ -241,23 +241,6 @@ Llama 4 blog,"Distillation du plus gros, mix moe dense metap pour des hyper para
 "Simple bench ",qcm sur de la logique,FINISHED,
 Deepseek généraliste reward modeling,"on apprend au grm à générer des principes puis il score avec ça, c'est en self sur du reward et du sampling pour les principes. Faire avec des principes filtres ça marche très bien. Le papier explique aussi les différents types de rewards",FINISHED,
 Synthétique data generation and multistep reasoning for tool Use,"Google, swirl step wise renforcement learning. On généré avec yn llm sous un format spécifique une actions et un env réponse par step qui appelle et reçoit la réponse d'un outils. A la fin on a la réponse. On filtre avec judge sur le process et outcome filtering. Puis on s'en sert pour train. A l'inference, on prompt et on répond à chaque appel de tools c1 augment de 10 à 20% sur les benchmarks un Gemma 27b",FINISHED,
-Doc ppo et rl,TO READ,TO READ,
-Gspo qwen,"grpo et ppo utilisent le clip pour ne pas trop s'éloigner du old (c'est le proximal) mais en fait le reward est au niveau de la phrase et grpo au niveau du token donc un haut risque de variance sur le long contexte. Gspo traire le clip et le ratio au niveau de la sequence et normalisé ça, ce qui corrige le problème. Ça clip bcp plus mais amélioré la stabilité et les résultatsSft        token level loss donc backpropag et gradient au niveau du token puis averageGrpo et gspo        c'est plutôt au niveau de la squence mais comme on a des rollouts et un advantage, on sait quel rollout impact mieux et vers qui on doit aller niveau séquence",FINISHED,
-Nvidia scaling up rl,TO READ,TO READ,
-Hiérarchical reasoning model,TO READ,TO READ,
-Dynamic chunking,"similarité avec bytes to idea, l'idée est d'avoir un autoencoder h net qui chunk dynamiquement les bytes à partir d'une limite d'entropie et similarité puis fourni ça à un main network (genre un llm) les chunks sont ensuite décodés en bytes",FINISHED,
-Chain of thought is not explainability,TO READ,TO READ,
-From bytes to ideas,"u net sur les bytes pour se priver de tokenizer, stade de recherche. Un peu comme le meta no token.",FINISHED,
-Absence benche,niah mais version omission. On propose un document et une version avec une partie supprimé et demande de retrouver ce qui a été omis. Pour l'instant les perfs sont mauvaise alors que les contextes sont petits. Un peu un benchmark sur la comparaison,FINISHED,
-Muon,"Niveau matrice de full param et gradient, pas element Wise.
-Momentum, pas de vélocité donc premier ordre et pas seconde ordre.
-Par contre ça utilise le full paramètres dans l'inverse donc le preconditioning est beaucoup plus riche sur les dimensions
-Newton shultz approxime le -1/2 (inverse squared) qui est le classique precond en optim (sauf que c'est normalement celui du hessien mais coûte en calcul)
-C'est que pour du 2D en terme de param donc la couche dembedding reste avec du adam	",FINISHED,
-Kimi k2 paper,"moe 1T 32B active, beaucoup de token muonclip at scale (Adaptative clip sur k et q). Training mega stable. Pipeline de génération synthétique de data agentique comme acebench avec des milliers de tools en env. Un llm as a judge extrait les donnees de haute qualite pour le train. Général rl system avec Self judge pour les non vérifiable rewards.La première couche est un denseL'algo est un grpo pur rl sans advantage *avec la moyenne juste et la kl est dans la somme ? Ou juste le ratio. Pénalité si réponse trop longue et loss ptx qui vérifie que le model overfit pas sur le reward. Température decay pendant le Training. D'exploration à exécution",FINISHED,
-Nemo Retriever colembed,"nvidia eagles fine tune en 2 stage sur text puis image en late interaction. Découpage de l'image en petit et thumbnails. Finetune pour passer de causal à bidirectionnel. Dans la infonce la loss est avec 2 négatives qui sont le top2 sans ceux au dessus de 0.95 de score. Attention au tiling, max token et embedding dim. Ablations sur le stockage, lembedding, le reranker et bi encoder.",FINISHED,
-Voxtral,whisper v3 encoder sur des chunks de 30sec en bidirectionnel qui sont concat sans attention commune. Mlp layer pour downsample de 4 fois ce qui fait 12.5kHz donc 32k pour 40 minutes. Plug à ministral ou mistral small. Pretraining sur transcription et audio puis text complétion pour aligner les modes. Avec des tokens de contrôle. Puis sft sur des tâches audio et texte,FINISHED,
-Websailor,"construction de data synthetic et training de model Deepresearch. Deepresearch marche que en propriétaire, les open source marchent que pour des simples recherches ou des trucs où le chemin de résolution est simple. Il manque le level 3 qui est d'avoir une généralisation quand les taches n'ont pas de solution claire et définie. Ils ont pris des graph de parcours de pages sur des entités complexes pour en extraire des tâches complexes (jusqu'à 40 calls nécessaires pour o3) et utilise des LRM pour extraire des étapes concises de thinking pour faire un dataset. Phase de rejection sammpling sft puis rl. ReAct et rejection sampling et DUPO : comme ils veulent faire comme dapo et filtrer les exemples avec full ou 0 reward mais que le rollout coûte cher, ils dupliquent certains reward pour combler le batch",FINISHED,
 Ndcg,quand on sinquiete du rang et ordre de tous les relevant.,FINISHED,
 Mrr,quand on s'inquiète seulement du rang du premier relevant,FINISHED,
 Jina v4,"j vdr benchmark avec pas que des questions et du text. Train sur du retrieval mais aussi sémantique text similarité pour screenshots. Train sur dense et late interaction et text et multimodal. Lora pour Retriever, code et symétrique. Analyse des embeddings unifiés en multimodal. Qwen 2.5 vl based",FINISHED,
@@ -287,4 +270,21 @@ Papier embedding bm25,"comparaison d'embedding et BM25, les embedding BEIR appre
 Tied embedidng,"en fait la matrice dembedding qui est un lookup et la matrice de logit ou dé embedding qui est une couche dense sont de même dimensions mais on peut partager cette matrice en transposant car la couche dense est donc juste un dot product pour trouver le token le plus proche en distance (puis softmax). Ça permet de réduire le nombre de paramètres, de faire de la régularisation (car l'input est lié à loutput )",FINISHED,
 Phi 4 multimodal,"tied embedding, rope sur 75% des heads pour long contexte, lora pour les 2 modalités sur les couches linéaires",FINISHED,
 Mixture of Block attention,MEO mais sur l'attention,FINISHED,
-Retool,chain of thought avec code interpréter dans la chaîne appris en rl avec un peu de sft pour les token code et interpréter et du outcome reward. Ppo avec interpréter caché. Kv cache optimise pour pas refaire tout le calcul.,FINISHED,

 "Simple bench ",qcm sur de la logique,FINISHED,
 Deepseek généraliste reward modeling,"on apprend au grm à générer des principes puis il score avec ça, c'est en self sur du reward et du sampling pour les principes. Faire avec des principes filtres ça marche très bien. Le papier explique aussi les différents types de rewards",FINISHED,
 Synthétique data generation and multistep reasoning for tool Use,"Google, swirl step wise renforcement learning. On généré avec yn llm sous un format spécifique une actions et un env réponse par step qui appelle et reçoit la réponse d'un outils. A la fin on a la réponse. On filtre avec judge sur le process et outcome filtering. Puis on s'en sert pour train. A l'inference, on prompt et on répond à chaque appel de tools c1 augment de 10 à 20% sur les benchmarks un Gemma 27b",FINISHED,
 Ndcg,quand on sinquiete du rang et ordre de tous les relevant.,FINISHED,
 Mrr,quand on s'inquiète seulement du rang du premier relevant,FINISHED,
 Jina v4,"j vdr benchmark avec pas que des questions et du text. Train sur du retrieval mais aussi sémantique text similarité pour screenshots. Train sur dense et late interaction et text et multimodal. Lora pour Retriever, code et symétrique. Analyse des embeddings unifiés en multimodal. Qwen 2.5 vl based",FINISHED,
 Tied embedidng,"en fait la matrice dembedding qui est un lookup et la matrice de logit ou dé embedding qui est une couche dense sont de même dimensions mais on peut partager cette matrice en transposant car la couche dense est donc juste un dot product pour trouver le token le plus proche en distance (puis softmax). Ça permet de réduire le nombre de paramètres, de faire de la régularisation (car l'input est lié à loutput )",FINISHED,
 Phi 4 multimodal,"tied embedding, rope sur 75% des heads pour long contexte, lora pour les 2 modalités sur les couches linéaires",FINISHED,
 Mixture of Block attention,MEO mais sur l'attention,FINISHED,
+Retool,chain of thought avec code interpréter dans la chaîne appris en rl avec un peu de sft pour les token code et interpréter et du outcome reward. Ppo avec interpréter caché. Kv cache optimise pour pas refaire tout le calcul.,FINISHED,
+Dynamic chunking,"similarité avec bytes to idea, l'idée est d'avoir un autoencoder h net qui chunk dynamiquement les bytes à partir d'une limite d'entropie et similarité puis fourni ça à un main network (genre un llm) les chunks sont ensuite décodés en bytes",FINISHED,
+Chain of thought is not explainability,TO READ,TO READ,
+From bytes to ideas,"u net sur les bytes pour se priver de tokenizer, stade de recherche. Un peu comme le meta no token.",FINISHED,
+Absence benche,niah mais version omission. On propose un document et une version avec une partie supprimé et demande de retrouver ce qui a été omis. Pour l'instant les perfs sont mauvaise alors que les contextes sont petits. Un peu un benchmark sur la comparaison,FINISHED,
+Muon,"Niveau matrice de full param et gradient, pas element Wise.
+Momentum, pas de vélocité donc premier ordre et pas seconde ordre.
+Par contre ça utilise le full paramètres dans l'inverse donc le preconditioning est beaucoup plus riche sur les dimensions
+Newton shultz approxime le -1/2 (inverse squared) qui est le classique precond en optim (sauf que c'est normalement celui du hessien mais coûte en calcul)
+C'est que pour du 2D en terme de param donc la couche dembedding reste avec du adam	",FINISHED,
+Kimi k2 paper,"moe 1T 32B active, beaucoup de token muonclip at scale (Adaptative clip sur k et q). Training mega stable. Pipeline de génération synthétique de data agentique comme acebench avec des milliers de tools en env. Un llm as a judge extrait les donnees de haute qualite pour le train. Général rl system avec Self judge pour les non vérifiable rewards.La première couche est un denseL'algo est un grpo pur rl sans advantage *avec la moyenne juste et la kl est dans la somme ? Ou juste le ratio. Pénalité si réponse trop longue et loss ptx qui vérifie que le model overfit pas sur le reward. Température decay pendant le Training. D'exploration à exécution",FINISHED,
+Nemo Retriever colembed,"nvidia eagles fine tune en 2 stage sur text puis image en late interaction. Découpage de l'image en petit et thumbnails. Finetune pour passer de causal à bidirectionnel. Dans la infonce la loss est avec 2 négatives qui sont le top2 sans ceux au dessus de 0.95 de score. Attention au tiling, max token et embedding dim. Ablations sur le stockage, lembedding, le reranker et bi encoder.",FINISHED,
+Voxtral,whisper v3 encoder sur des chunks de 30sec en bidirectionnel qui sont concat sans attention commune. Mlp layer pour downsample de 4 fois ce qui fait 12.5kHz donc 32k pour 40 minutes. Plug à ministral ou mistral small. Pretraining sur transcription et audio puis text complétion pour aligner les modes. Avec des tokens de contrôle. Puis sft sur des tâches audio et texte,FINISHED,
+Websailor,"construction de data synthetic et training de model Deepresearch. Deepresearch marche que en propriétaire, les open source marchent que pour des simples recherches ou des trucs où le chemin de résolution est simple. Il manque le level 3 qui est d'avoir une généralisation quand les taches n'ont pas de solution claire et définie. Ils ont pris des graph de parcours de pages sur des entités complexes pour en extraire des tâches complexes (jusqu'à 40 calls nécessaires pour o3) et utilise des LRM pour extraire des étapes concises de thinking pour faire un dataset. Phase de rejection sammpling sft puis rl. ReAct et rejection sampling et DUPO : comme ils veulent faire comme dapo et filtrer les exemples avec full ou 0 reward mais que le rollout coûte cher, ils dupliquent certains reward pour combler le batch",FINISHED,
+Doc ppo et rl,TO READ,TO READ,
+Gspo qwen,"grpo et ppo utilisent le clip pour ne pas trop s'éloigner du old (c'est le proximal) mais en fait le reward est au niveau de la phrase et grpo au niveau du token donc un haut risque de variance sur le long contexte. Gspo traire le clip et le ratio au niveau de la sequence et normalisé ça, ce qui corrige le problème. Ça clip bcp plus mais amélioré la stabilité et les résultatsSft        token level loss donc backpropag et gradient au niveau du token puis averageGrpo et gspo        c'est plutôt au niveau de la squence mais comme on a des rollouts et un advantage, on sait quel rollout impact mieux et vers qui on doit aller niveau séquence",FINISHED,
+Nvidia scaling up rl,TO READ,TO READ,
+Hiérarchical reasoning model,TO READ,TO READ,