tinyllama.cpp/quantization_8h_source.html

#pragma once


#include <cstddef>

#include <cstdint>

#include <limits>

#include <vector>


#include "ggml_types.h"

#include "gguf_parser.h"  // Include for GGML_QK_K


// Define RESTRICT macro based on compiler

#ifdef _MSC_VER

#define RESTRICT

#else

#define RESTRICT __restrict__

#endif


// Forward declarations

struct block_q2_K;

struct block_q3_K;

struct block_q4_K;

struct block_q6_K;


float fp16_to_fp32(uint16_t h, bool is_gguf_scale_field = false);


uint16_t fp32_to_fp16(float f);


#pragma pack(push, 1)


struct block_q4_K {

    uint16_t d;

    uint16_t dmin;

    uint8_t scales[12];

    uint8_t qs[GGML_QK_K / 2];

};


static_assert(sizeof(block_q4_K) == 2 + 2 + 12 + 128, "Size mismatch for standard block_q4_K");


struct block_q6_K {

    uint8_t ql[GGML_QK_K / 2];

    uint8_t qh[GGML_QK_K / 4];

    int8_t scales[GGML_QK_K / 16];

    uint16_t d;

};


static_assert(sizeof(block_q6_K) == 128 + 64 + 16 + 2, "Size mismatch for block_q6_K");


struct block_q2_K {

    uint16_t d;

    uint16_t dmin;

    uint8_t scales[GGML_QK_K / 16];

    uint8_t qs[GGML_QK_K / 4];

};


static_assert(sizeof(block_q2_K) == 2 + 2 + 16 + 64, "Size mismatch for block_q2_K");


struct block_q3_K {

    uint8_t hmask[GGML_QK_K / 8];

    uint8_t qs[GGML_QK_K / 4];

    uint8_t scales[12];

    uint16_t d;

    uint16_t dmin;

};


static_assert(sizeof(block_q3_K) == 32 + 64 + 12 + 2 + 2, "Size mismatch for block_q3_K");


struct block_q8_K {

    uint16_t d;

    int8_t qs[GGML_QK_K];

    int16_t bsums[GGML_QK_K / 16];

};


struct block_q8_0 {

    uint16_t d;

    int8_t qs[GGML_QK8_0];

};


static_assert(sizeof(block_q8_0) == sizeof(uint16_t) + GGML_QK8_0, "Size mismatch for block_q8_0");


#pragma pack(pop)


const char* ggml_type_name(GGMLType type);


size_t ggml_type_size(GGMLType type);


size_t ggml_type_block_size(GGMLType type);


void dequantize_q2_k(const void* q_data, float* f_data,

                     int num_weights_in_block,

                     bool log_details_for_this_block = false);


void dequantize_q4_k_m(const block_q4_K* qblock, float* RESTRICT output_f32,

                       int num_elements, bool log_this_block = false);


void dequantize_q6_k(const block_q6_K* qblock, float* RESTRICT output_f32,

                     int num_elements, bool log_this_block = false);


void dequantize_vector_q6k_to_f32(const std::vector<block_q6_K>& q_weights,

                                  std::vector<float>& f32_weights,

                                  size_t total_num_elements,

                                  int log_first_n_blocks = 0);


void dequantize_q3_k(const void* q_data, float* f_data,

                     int num_weights_in_block);


void handle_i8_tensor(const void* i8_data, float* f_data, size_t num_elements);


void quantize_q4_k_m(const float* f_data, void* q_data, int num_elements);


void quantize_q6_k(const float* f_data, void* q_data, int num_elements);


std::vector<block_q8_K> quantize_fp32_to_q8_K(const std::vector<float>& f_data);


float vec_dot_q6_k_q8_k_cpu(int n, const std::vector<block_q6_K>& x,

                            const std::vector<block_q8_K>& y,

                            bool log_this_call);


void matvec_q6k_q8k_cpu(const std::vector<block_q6_K>& mat_q6k,

                        const std::vector<block_q8_K>& vec_q8k,

                        std::vector<float>& out_f32, int rows, int cols,

                        bool log_calls);


float vec_dot_q4_k_q8_k_cpu(int n, const std::vector<block_q4_K>& x_vec,

                            const std::vector<block_q8_K>& y_vec,

                            bool log_this_call);


void matvec_q4k_q8k_cpu(const std::vector<block_q4_K>& mat_q4k,

                        const std::vector<block_q8_K>& vec_q8k,

                        std::vector<float>& out_f32, int rows, int cols,

                        bool log_calls);


void dequantize_q8_0_block(const block_q8_0* qblock, float* output);


void dequantize_vector_q4k_to_f32(const std::vector<block_q4_K>& q_weights,

                                  std::vector<float>& f32_weights,

                                  size_t total_num_elements,

                                  int log_first_n_blocks = 0);


void dequantize_vector_q8_0_to_f32(const std::vector<block_q8_0>& q_weights,

                                   std::vector<float>& f32_weights,

                                   size_t total_num_elements,

                                   int log_first_n_blocks = 0);

ggml_types.h
Type definitions for GGML (Georgi Gerganov Machine Learning) library.

GGMLType
GGMLType
Enumeration of GGML tensor data types.
Definition ggml_types.h:21

gguf_parser.h
Parser for GGUF (GPT-Generated Unified Format) files.

GGML_QK8_0
constexpr size_t GGML_QK8_0
Definition gguf_parser.h:43

GGML_QK_K
constexpr size_t GGML_QK_K
Block size constants for different quantization formats.
Definition gguf_parser.h:42

fp32_to_fp16
uint16_t fp32_to_fp16(float f)
Converts a 32-bit float to 16-bit floating point.
Definition quantization.cpp:92

ggml_type_block_size
size_t ggml_type_block_size(GGMLType type)
Gets the block size for a GGML type.
Definition quantization.cpp:688

ggml_type_size
size_t ggml_type_size(GGMLType type)
Gets the size in bytes of a GGML type.
Definition quantization.cpp:646

dequantize_vector_q8_0_to_f32
void dequantize_vector_q8_0_to_f32(const std::vector< block_q8_0 > &q_weights, std::vector< float > &f32_weights, size_t total_num_elements, int log_first_n_blocks=0)
Dequantizes a vector of Q8_0 blocks to a vector of float32.
Definition quantization.cpp:1165

matvec_q6k_q8k_cpu
void matvec_q6k_q8k_cpu(const std::vector< block_q6_K > &mat_q6k, const std::vector< block_q8_K > &vec_q8k, std::vector< float > &out_f32, int rows, int cols, bool log_calls)
Computes matrix-vector product between Q6_K matrix and Q8_K vector on CPU.
Definition quantization.cpp:897

ggml_type_name
const char * ggml_type_name(GGMLType type)
Gets the string name of a GGML type.
Definition quantization.cpp:601

matvec_q4k_q8k_cpu
void matvec_q4k_q8k_cpu(const std::vector< block_q4_K > &mat_q4k, const std::vector< block_q8_K > &vec_q8k, std::vector< float > &out_f32, int rows, int cols, bool log_calls)
Computes matrix-vector product between Q4_K matrix and Q8_K vector on CPU.
Definition quantization.cpp:982

dequantize_q2_k
void dequantize_q2_k(const void *q_data, float *f_data, int num_weights_in_block, bool log_details_for_this_block=false)
Dequantizes a Q2_K quantized block to float32.

handle_i8_tensor
void handle_i8_tensor(const void *i8_data, float *f_data, size_t num_elements)
Handles conversion of int8 tensor data to float32.
Definition quantization.cpp:268

dequantize_q4_k_m
void dequantize_q4_k_m(const block_q4_K *qblock, float *RESTRICT output_f32, int num_elements, bool log_this_block=false)
Dequantizes a Q4_K quantized block to float32.

vec_dot_q6_k_q8_k_cpu
float vec_dot_q6_k_q8_k_cpu(int n, const std::vector< block_q6_K > &x, const std::vector< block_q8_K > &y, bool log_this_call)
Computes dot product between Q6_K and Q8_K vectors on CPU.
Definition quantization.cpp:772

quantize_q4_k_m
void quantize_q4_k_m(const float *f_data, void *q_data, int num_elements)
Quantizes float32 data to Q4_K format.
Definition quantization.cpp:276

quantize_q6_k
void quantize_q6_k(const float *f_data, void *q_data, int num_elements)
Quantizes float32 data to Q6_K format.
Definition quantization.cpp:549

quantize_fp32_to_q8_K
std::vector< block_q8_K > quantize_fp32_to_q8_K(const std::vector< float > &f_data)
Quantizes float32 data to Q8_K format.
Definition quantization.cpp:719

vec_dot_q4_k_q8_k_cpu
float vec_dot_q4_k_q8_k_cpu(int n, const std::vector< block_q4_K > &x_vec, const std::vector< block_q8_K > &y_vec, bool log_this_call)
Computes dot product between Q4_K and Q8_K vectors on CPU.
Definition quantization.cpp:922

fp16_to_fp32
float fp16_to_fp32(uint16_t h, bool is_gguf_scale_field=false)
Converts a 16-bit floating point number to 32-bit float.
Definition quantization.cpp:47

RESTRICT
#define RESTRICT
Definition quantization.h:15

dequantize_q8_0_block
void dequantize_q8_0_block(const block_q8_0 *qblock, float *output)
Dequantizes a Q8_0 block to float32.
Definition quantization.cpp:1047

dequantize_vector_q4k_to_f32
void dequantize_vector_q4k_to_f32(const std::vector< block_q4_K > &q_weights, std::vector< float > &f32_weights, size_t total_num_elements, int log_first_n_blocks=0)
Dequantizes a vector of Q4_K blocks to a vector of float32.
Definition quantization.cpp:1109

dequantize_q6_k
void dequantize_q6_k(const block_q6_K *qblock, float *RESTRICT output_f32, int num_elements, bool log_this_block=false)
Dequantizes a Q6_K quantized block to float32.

dequantize_q3_k
void dequantize_q3_k(const void *q_data, float *f_data, int num_weights_in_block)
Dequantizes a Q3_K quantized block to float32.
Definition quantization.cpp:476

dequantize_vector_q6k_to_f32
void dequantize_vector_q6k_to_f32(const std::vector< block_q6_K > &q_weights, std::vector< float > &f32_weights, size_t total_num_elements, int log_first_n_blocks=0)
Dequantizes a vector of Q6_K blocks to a vector of float32.
Definition quantization.cpp:1054

block_q2_K
2-bit K-quantized block structure
Definition quantization.h:85

block_q2_K::dmin
uint16_t dmin
Definition quantization.h:87

block_q2_K::d
uint16_t d
Definition quantization.h:86

block_q2_K::qs
uint8_t qs[GGML_QK_K/4]
Definition quantization.h:89

block_q2_K::scales
uint8_t scales[GGML_QK_K/16]
Definition quantization.h:88

block_q3_K
3-bit K-quantized block structure
Definition quantization.h:99

block_q3_K::scales
uint8_t scales[12]
Definition quantization.h:102

block_q3_K::dmin
uint16_t dmin
Definition quantization.h:104

block_q3_K::hmask
uint8_t hmask[GGML_QK_K/8]
Definition quantization.h:100

block_q3_K::d
uint16_t d
Definition quantization.h:103

block_q3_K::qs
uint8_t qs[GGML_QK_K/4]
Definition quantization.h:101

block_q4_K
4-bit K-quantized block structure
Definition quantization.h:57

block_q4_K::d
uint16_t d
Definition quantization.h:58

block_q4_K::scales
uint8_t scales[12]
Definition quantization.h:60

block_q4_K::qs
uint8_t qs[GGML_QK_K/2]
Definition quantization.h:61

block_q4_K::dmin
uint16_t dmin
Definition quantization.h:59

block_q6_K
6-bit K-quantized block structure
Definition quantization.h:71

block_q6_K::scales
int8_t scales[GGML_QK_K/16]
Definition quantization.h:74

block_q6_K::d
uint16_t d
Definition quantization.h:75

block_q6_K::ql
uint8_t ql[GGML_QK_K/2]
Definition quantization.h:72

block_q6_K::qh
uint8_t qh[GGML_QK_K/4]
Definition quantization.h:73

block_q8_0
Simple 8-bit quantized block structure.
Definition quantization.h:120

block_q8_0::d
uint16_t d
Definition quantization.h:121

block_q8_0::qs
int8_t qs[GGML_QK8_0]
Definition quantization.h:122

block_q8_K
8-bit K-quantized block structure with block sums
Definition quantization.h:111

block_q8_K::bsums
int16_t bsums[GGML_QK_K/16]
Definition quantization.h:114

block_q8_K::qs
int8_t qs[GGML_QK_K]
Definition quantization.h:113

block_q8_K::d
uint16_t d
Definition quantization.h:112