tinyllama.cpp/cpu__batch__processor_8h_source.html

#pragma once


#include "model.h"

#include "kv_cache.h"

#include <vector>


class CPUBatchProcessor {

public:

    explicit CPUBatchProcessor(TinyLlamaModel* model);


    std::vector<float> forward_cpu_batch(

        const std::vector<float>& batch_input_activations,

        int num_tokens_in_batch,

        int num_cpu_layers_to_process,

        int start_pos_in_sequence,

        KVCache* kv_cache,

        const std::vector<int>& prompt_lengths);


private:

    TinyLlamaModel* model_;

};


CPUBatchProcessor
Definition cpu_batch_processor.h:7

CPUBatchProcessor::forward_cpu_batch
std::vector< float > forward_cpu_batch(const std::vector< float > &batch_input_activations, int num_tokens_in_batch, int num_cpu_layers_to_process, int start_pos_in_sequence, KVCache *kv_cache, const std::vector< int > &prompt_lengths)
Definition cpu_batch_processor.cpp:11

CPUBatchProcessor::model_
TinyLlamaModel * model_
Definition cpu_batch_processor.h:20

TinyLlamaModel
Main transformer model class for TinyLlama.
Definition model.h:285

kv_cache.h

model.h

KVCache
Complete Key-Value cache for all transformer layers.
Definition model.h:151