tinyllama.cpp/utils_8h_source.html

#pragma once


#include <vector>

#include <string>

#include <cstdint>


#include "quantization.h"

#include "model_constants.h"


// SIMD optimized functions

float simd_dot_product(const float* a, const float* b, int n);

void simd_scaled_add(float* dst, const float* src, float scale, int n);


// BFloat16 conversion functions

uint16_t float32_to_bfloat16(float val);

float bfloat16_to_float32(uint16_t bf16);

std::vector<float> bfloat16_vector_to_float32(const std::vector<uint16_t>& bf16_vec);


// Vector utility functions

std::vector<uint16_t> uint8_vector_to_uint16_vector(const std::vector<uint8_t>& bytes, size_t numel);

int argmax(const std::vector<float>& v);


// Matrix-vector multiplication functions (CPU)

void matvec_q6k_f32_vector_cpu(const std::vector<block_q6_K>& mat_q6k,

                               const std::vector<float>& vec_f32,

                               std::vector<float>& out_f32, int rows,

                               int cols, bool log_first_block = false);


void matvec_q4k_f32_vector_cpu(const std::vector<block_q4_K>& mat_q4k,

                               const std::vector<float>& vec_f32,

                               std::vector<float>& out_f32, int rows,

                               int cols, bool log_first_block = false);


void matvec_q8_0_f32_vector_cpu(const std::vector<block_q8_0>& mat_q8_0,

                                const std::vector<float>& vec_f32,

                                std::vector<float>& out_f32, int rows,

                                int cols, bool log_first_block = false);


void matvec_q8k_f32_vector_cpu(const std::vector<block_q8_K>& mat_q8k,

                               const std::vector<float>& vec_f32,

                               std::vector<float>& out_f32, int rows,

                               int cols, bool log_first_block = false);


void matvec_f32_f32_vector_cpu(const std::vector<float>& mat_f32,

                               const std::vector<float>& vec_f32,

                               std::vector<float>& out_f32, int rows,

                               int cols);


// Batch matrix multiplication functions (CPU)

void matmul_q4k_f32_batch_cpu(const std::vector<block_q4_K>& mat_q4k,

                               const std::vector<float>& batch_input_activations,

                               std::vector<float>& batch_output_activations,

                               int num_tokens, int output_dim, int input_dim);


void matmul_q6k_f32_batch_cpu(const std::vector<block_q6_K>& mat_q6k,

                               const std::vector<float>& batch_input_activations,

                               std::vector<float>& batch_output_activations,

                               int num_tokens, int output_dim, int input_dim);


void matmul_q8_0_f32_batch_cpu(const std::vector<block_q8_0>& mat_q8_0,

                                const std::vector<float>& batch_input_activations,

                                std::vector<float>& batch_output_activations,

                                int num_tokens, int output_dim, int input_dim);


void matmul_q8k_f32_batch_cpu(const std::vector<block_q8_K>& mat_q8k,

                               const std::vector<float>& batch_input_activations,

                               std::vector<float>& batch_output_activations,

                               int num_tokens, int output_dim, int input_dim);


// Neural network operations (CPU) - these are implemented as static functions in model.cpp


// RoPE (Rotary Position Embedding) functions

void apply_rope_vector(std::vector<float>& x, int num_heads, int head_dim,

                       int current_token_pos,

                       const std::vector<std::pair<float, float>>& all_freqs_cis,

                       int max_pos_embeddings, bool use_adjacent_pairing);


void apply_rope_batch_cpu(std::vector<float>& q_batch, std::vector<float>& k_batch,

                          int num_tokens, int num_q_heads, int num_kv_heads,

                          int head_dim, int start_pos_in_sequence,

                          const std::vector<std::pair<float, float>>& all_freqs_cis,

                          int max_pos_embeddings, bool use_adjacent_pairing);


// Neural network operations

void rmsnorm_batch_cpu(const std::vector<float>& x_batch,

                       const std::vector<float>& weight,

                       std::vector<float>& out_batch,

                       int num_tokens, int hidden_size,

                       float eps = numeric::DEFAULT_EPS);


void rmsnorm_vector_cpu(const std::vector<float>& x,

                        const std::vector<float>& weight,

                        std::vector<float>& out,

                        float eps = numeric::DEFAULT_EPS);


void softmax_vector_cpu(const std::vector<float>& x, std::vector<float>& out);

void silu_cpu(const std::vector<float>& x, std::vector<float>& out);


// Batch matrix multiplication

void matmul_f32_f32_batch_cpu(const std::vector<float>& mat_weights,

                               const std::vector<float>& batch_input_activations,

                               std::vector<float>& batch_output_activations,

                               int num_tokens, int output_dim, int input_dim);


// BFloat16 matrix-vector operations

void matvec_bf16_f32_vector_cpu(const std::vector<uint16_t>& mat_bf16,

                                const std::vector<float>& vec_f32,

                                std::vector<float>& out_f32, int rows, int cols);


// Attention computation functions

void weighted_sum_probs_v(const std::vector<float>& probs,

                          const std::vector<float>& V,

                          std::vector<float>& out, int seq_len, int head_dim);


void calculate_attention_scores(const std::vector<float>& Q,

                                const std::vector<float>& K,

                                std::vector<float>& scores, int seq_len,

                                int head_dim, float scale);


// Logging and debugging functions

void log_vector_summary(const std::string& name, const std::vector<float>& v, int head_count);

void log_vector_summary_with_tail(const std::string& name, const std::vector<float>& v,

                                   int head_count, int tail_count);

void log_vector_summary_detailed(const std::string& name, const std::vector<float>& v,

                                  int current_pos, int current_layer, int N = 5);

void log_vec_stats(const std::string& name, const std::vector<float>& v);

void log_raw_float_pointer(const std::string& name, const float* ptr, size_t count = 5);


// File I/O utility functions

bool write_vector_to_file(const std::string& filename, const std::vector<float>& vec);

std::vector<std::vector<float>> load_rmsnorm_bin(const std::string& filename,

                                                  int num_tokens, int hidden_size);


// Helper conversion functions

std::vector<float> bf16vec_to_float_vec(const std::vector<uint16_t>& v_bf16);


// Quantization utility

void dequantize_q8_k(const std::vector<block_q8_K>& q8k_vec,

                     std::vector<float>& out_f32, int n, bool log_this_block);

model_constants.h
Constants used throughout the TinyLlama model implementation.

numeric::DEFAULT_EPS
constexpr float DEFAULT_EPS
Definition model_constants.h:69

quantization.h
Weight quantization structures and functions for model compression.

apply_rope_vector
void apply_rope_vector(std::vector< float > &x, int num_heads, int head_dim, int current_token_pos, const std::vector< std::pair< float, float > > &all_freqs_cis, int max_pos_embeddings, bool use_adjacent_pairing)
Definition utils.cpp:428

bfloat16_to_float32
float bfloat16_to_float32(uint16_t bf16)
Definition utils.cpp:144

log_vector_summary
void log_vector_summary(const std::string &name, const std::vector< float > &v, int head_count)
Definition utils.cpp:207

matvec_q4k_f32_vector_cpu
void matvec_q4k_f32_vector_cpu(const std::vector< block_q4_K > &mat_q4k, const std::vector< float > &vec_f32, std::vector< float > &out_f32, int rows, int cols, bool log_first_block=false)
Definition utils.cpp:816

uint8_vector_to_uint16_vector
std::vector< uint16_t > uint8_vector_to_uint16_vector(const std::vector< uint8_t > &bytes, size_t numel)
Definition utils.cpp:176

bfloat16_vector_to_float32
std::vector< float > bfloat16_vector_to_float32(const std::vector< uint16_t > &bf16_vec)
Definition utils.cpp:165

log_vector_summary_with_tail
void log_vector_summary_with_tail(const std::string &name, const std::vector< float > &v, int head_count, int tail_count)
Definition utils.cpp:234

rmsnorm_batch_cpu
void rmsnorm_batch_cpu(const std::vector< float > &x_batch, const std::vector< float > &weight, std::vector< float > &out_batch, int num_tokens, int hidden_size, float eps=numeric::DEFAULT_EPS)
Definition utils.cpp:613

matvec_bf16_f32_vector_cpu
void matvec_bf16_f32_vector_cpu(const std::vector< uint16_t > &mat_bf16, const std::vector< float > &vec_f32, std::vector< float > &out_f32, int rows, int cols)
Definition utils.cpp:1025

matvec_f32_f32_vector_cpu
void matvec_f32_f32_vector_cpu(const std::vector< float > &mat_f32, const std::vector< float > &vec_f32, std::vector< float > &out_f32, int rows, int cols)
Definition utils.cpp:349

simd_scaled_add
void simd_scaled_add(float *dst, const float *src, float scale, int n)
Definition utils.cpp:92

matmul_q4k_f32_batch_cpu
void matmul_q4k_f32_batch_cpu(const std::vector< block_q4_K > &mat_q4k, const std::vector< float > &batch_input_activations, std::vector< float > &batch_output_activations, int num_tokens, int output_dim, int input_dim)
Definition utils.cpp:988

matvec_q8k_f32_vector_cpu
void matvec_q8k_f32_vector_cpu(const std::vector< block_q8_K > &mat_q8k, const std::vector< float > &vec_f32, std::vector< float > &out_f32, int rows, int cols, bool log_first_block=false)
Definition utils.cpp:399

bf16vec_to_float_vec
std::vector< float > bf16vec_to_float_vec(const std::vector< uint16_t > &v_bf16)
Definition utils.cpp:198

matvec_q8_0_f32_vector_cpu
void matvec_q8_0_f32_vector_cpu(const std::vector< block_q8_0 > &mat_q8_0, const std::vector< float > &vec_f32, std::vector< float > &out_f32, int rows, int cols, bool log_first_block=false)
Definition utils.cpp:293

matvec_q6k_f32_vector_cpu
void matvec_q6k_f32_vector_cpu(const std::vector< block_q6_K > &mat_q6k, const std::vector< float > &vec_f32, std::vector< float > &out_f32, int rows, int cols, bool log_first_block=false)
Definition utils.cpp:763

write_vector_to_file
bool write_vector_to_file(const std::string &filename, const std::vector< float > &vec)
Definition utils.cpp:1134

rmsnorm_vector_cpu
void rmsnorm_vector_cpu(const std::vector< float > &x, const std::vector< float > &weight, std::vector< float > &out, float eps=numeric::DEFAULT_EPS)
Definition utils.cpp:648

log_raw_float_pointer
void log_raw_float_pointer(const std::string &name, const float *ptr, size_t count=5)
Definition utils.cpp:1175

softmax_vector_cpu
void softmax_vector_cpu(const std::vector< float > &x, std::vector< float > &out)
Definition utils.cpp:675

argmax
int argmax(const std::vector< float > &v)
Definition utils.cpp:185

simd_dot_product
float simd_dot_product(const float *a, const float *b, int n)
Definition utils.cpp:35

matmul_q8_0_f32_batch_cpu
void matmul_q8_0_f32_batch_cpu(const std::vector< block_q8_0 > &mat_q8_0, const std::vector< float > &batch_input_activations, std::vector< float > &batch_output_activations, int num_tokens, int output_dim, int input_dim)
Definition utils.cpp:869

apply_rope_batch_cpu
void apply_rope_batch_cpu(std::vector< float > &q_batch, std::vector< float > &k_batch, int num_tokens, int num_q_heads, int num_kv_heads, int head_dim, int start_pos_in_sequence, const std::vector< std::pair< float, float > > &all_freqs_cis, int max_pos_embeddings, bool use_adjacent_pairing)
Definition utils.cpp:491

calculate_attention_scores
void calculate_attention_scores(const std::vector< float > &Q, const std::vector< float > &K, std::vector< float > &scores, int seq_len, int head_dim, float scale)
Definition utils.cpp:1091

load_rmsnorm_bin
std::vector< std::vector< float > > load_rmsnorm_bin(const std::string &filename, int num_tokens, int hidden_size)
Definition utils.cpp:1157

log_vector_summary_detailed
void log_vector_summary_detailed(const std::string &name, const std::vector< float > &v, int current_pos, int current_layer, int N=5)
Definition utils.cpp:1190

dequantize_q8_k
void dequantize_q8_k(const std::vector< block_q8_K > &q8k_vec, std::vector< float > &out_f32, int n, bool log_this_block)
Definition quantization.cpp:1009

weighted_sum_probs_v
void weighted_sum_probs_v(const std::vector< float > &probs, const std::vector< float > &V, std::vector< float > &out, int seq_len, int head_dim)
Definition utils.cpp:1060

matmul_f32_f32_batch_cpu
void matmul_f32_f32_batch_cpu(const std::vector< float > &mat_weights, const std::vector< float > &batch_input_activations, std::vector< float > &batch_output_activations, int num_tokens, int output_dim, int input_dim)
Definition utils.cpp:709

silu_cpu
void silu_cpu(const std::vector< float > &x, std::vector< float > &out)
Definition utils.cpp:700

matmul_q8k_f32_batch_cpu
void matmul_q8k_f32_batch_cpu(const std::vector< block_q8_K > &mat_q8k, const std::vector< float > &batch_input_activations, std::vector< float > &batch_output_activations, int num_tokens, int output_dim, int input_dim)
Definition utils.cpp:907

matmul_q6k_f32_batch_cpu
void matmul_q6k_f32_batch_cpu(const std::vector< block_q6_K > &mat_q6k, const std::vector< float > &batch_input_activations, std::vector< float > &batch_output_activations, int num_tokens, int output_dim, int input_dim)
Definition utils.cpp:950

log_vec_stats
void log_vec_stats(const std::string &name, const std::vector< float > &v)
Definition utils.cpp:1119

float32_to_bfloat16
uint16_t float32_to_bfloat16(float val)
Definition utils.cpp:136