tinyllama.cpp/api_8h_source.html

#ifndef TINYLLAMA_API_H

#define TINYLLAMA_API_H


#include <memory>

#include <stdexcept>

#include <string>

#include <vector>

#include <random>

#include <sstream>


#include "model.h"

#include "tokenizer.h"


struct KVCache;


namespace tinyllama {


class TinyLlamaSession {

 public:

  TinyLlamaSession(const std::string& model_path,

                   const std::string& tokenizer_path, int threads = 1,

                   int num_gpu_layers_from_cli = 0, bool cli_use_mmap = true,

                   bool use_kv_quant = false, bool use_batch_generation = false,

                   int max_batch_size = 1);


  ~TinyLlamaSession();


  std::string generate(const std::string& prompt, int steps = 128,

                      float temperature = 0.1f,

                      int top_k = 40,

                      float top_p = 0.9f,

                      const std::string& system_prompt = "",

                      bool apply_q_a_format = false);


  std::vector<std::string> generate_batch(const std::vector<std::string>& prompts,

                                         int steps = 128,

                                         float temperature = 0.1f,

                                         int top_k = 40,

                                         float top_p = 0.9f,

                                         const std::string& system_prompt = "",

                                         bool apply_q_a_format = false);


  const Tokenizer* get_tokenizer() const { return tokenizer_.get(); }

  const ModelConfig& get_config() const { return config_; }

  KVCache& get_kv_cache() { return kv_cache_; }


 private:

  TinyLlamaSession(const TinyLlamaSession&) = delete;

  TinyLlamaSession& operator=(const TinyLlamaSession&) = delete;


  // Parallel batch processing methods

  bool batch_prefill_parallel(const std::vector<std::vector<int>>& all_tokens,

                              const std::vector<int>& prompt_lengths,

                              std::vector<std::vector<float>>& batch_final_logits);


  bool batch_generation_parallel(const std::vector<int>& current_tokens,

                                 const std::vector<int>& token_positions,

                                 const std::vector<int>& original_sequence_indices,

                                 std::vector<std::vector<float>>& batch_logits);


  std::unique_ptr<TinyLlamaModel> model_;

  std::unique_ptr<Tokenizer> tokenizer_;

  ModelConfig config_;

  KVCache kv_cache_;

  int eos_token_id_;

  std::mt19937 rng_{std::random_device{}()};  // RNG for sampling

  int threads_;

  bool use_batch_generation_; // Enable batch generation

  std::stringstream generated_stream_; // Added for streaming output

  std::string generated_text_for_api_return_; // Added to accumulate full response


  // Batch processing support

  int max_batch_size_ = 1;  // Maximum number of sequences for batch processing

};


}  // namespace tinyllama


#endif

Tokenizer
A lightweight tokenizer implementation for text processing.
Definition tokenizer.h:61

tinyllama::TinyLlamaSession
Represents an active TinyLlama session holding the loaded model and tokenizer.
Definition api.h:26

tinyllama::TinyLlamaSession::threads_
int threads_
Definition api.h:129

tinyllama::TinyLlamaSession::config_
ModelConfig config_
Definition api.h:125

tinyllama::TinyLlamaSession::use_batch_generation_
bool use_batch_generation_
Definition api.h:130

tinyllama::TinyLlamaSession::batch_generation_parallel
bool batch_generation_parallel(const std::vector< int > &current_tokens, const std::vector< int > &token_positions, const std::vector< int > &original_sequence_indices, std::vector< std::vector< float > > &batch_logits)
Definition api.cpp:1367

tinyllama::TinyLlamaSession::batch_prefill_parallel
bool batch_prefill_parallel(const std::vector< std::vector< int > > &all_tokens, const std::vector< int > &prompt_lengths, std::vector< std::vector< float > > &batch_final_logits)
Definition api.cpp:1088

tinyllama::TinyLlamaSession::rng_
std::mt19937 rng_
Definition api.h:128

tinyllama::TinyLlamaSession::eos_token_id_
int eos_token_id_
Definition api.h:127

tinyllama::TinyLlamaSession::generated_stream_
std::stringstream generated_stream_
Definition api.h:131

tinyllama::TinyLlamaSession::model_
std::unique_ptr< TinyLlamaModel > model_
Definition api.h:123

tinyllama::TinyLlamaSession::TinyLlamaSession
TinyLlamaSession(const TinyLlamaSession &)=delete

tinyllama::TinyLlamaSession::tokenizer_
std::unique_ptr< Tokenizer > tokenizer_
Definition api.h:124

tinyllama::TinyLlamaSession::max_batch_size_
int max_batch_size_
Definition api.h:135

tinyllama::TinyLlamaSession::get_tokenizer
const Tokenizer * get_tokenizer() const
Definition api.h:105

tinyllama::TinyLlamaSession::generate
std::string generate(const std::string &prompt, int steps=128, float temperature=0.1f, int top_k=40, float top_p=0.9f, const std::string &system_prompt="", bool apply_q_a_format=false)
Generates text based on a given prompt.
Definition api.cpp:433

tinyllama::TinyLlamaSession::get_kv_cache
KVCache & get_kv_cache()
Definition api.h:107

tinyllama::TinyLlamaSession::generate_batch
std::vector< std::string > generate_batch(const std::vector< std::string > &prompts, int steps=128, float temperature=0.1f, int top_k=40, float top_p=0.9f, const std::string &system_prompt="", bool apply_q_a_format=false)
Generates text for multiple prompts in a single batch (parallel processing).
Definition api.cpp:780

tinyllama::TinyLlamaSession::get_config
const ModelConfig & get_config() const
Definition api.h:106

tinyllama::TinyLlamaSession::generated_text_for_api_return_
std::string generated_text_for_api_return_
Definition api.h:132

tinyllama::TinyLlamaSession::~TinyLlamaSession
~TinyLlamaSession()
Destructor to ensure proper cleanup (e.g., KVCache CUDA memory).
Definition api.cpp:429

tinyllama::TinyLlamaSession::kv_cache_
KVCache kv_cache_
Definition api.h:126

tinyllama::TinyLlamaSession::operator=
TinyLlamaSession & operator=(const TinyLlamaSession &)=delete

model.h

tinyllama
Definition api.cpp:29

KVCache
Complete Key-Value cache for all transformer layers.
Definition model.h:151

ModelConfig
Model configuration structure holding architecture and hyperparameters.
Definition model.h:80

tokenizer.h