formatron/v0.5.0/vllm_8py_source.html

"""

This module integrates the vllm library by providing convenience utilities.

"""

import collections.abc

import typing

import kbnf

import torch

from vllm import LLM

from formatron.config import EngineGenerationConfig

from formatron.formatter import FormatterBase, FormatterBuilder

from formatron.integrations.utils import get_original_characters, get_fastest_compatible_logits_mask_fn,get_bit_mask

from vllm.transformers_utils.tokenizer import AnyTokenizer


class FormattersLogitsProcessor:

    """

    Logit processor that uses formatters to mask batch logits.

    """


    def __init__(self, formatters: typing.Sequence[FormatterBase | None], eos_token_id: int,


                 configs: typing.Sequence[EngineGenerationConfig] | None = None):

        self._formatters = formatters

        self._eos_token_id = eos_token_id

        self._last_input_id_length = 0

        if configs is None:

            configs = [EngineGenerationConfig() for _ in formatters]

        assert len(configs) == len(formatters), \

            f"Number of formatters({len(formatters)}) must match number of configs({len(configs)})"

        self._configs = configs

        self._iter = zip(self._formatters, self._configs)

        self._debug_counter = 0

        self._mask_logits_fn = get_fastest_compatible_logits_mask_fn()

        self._bit_masks = []


    @property


    def formatters_captures(self) -> list[dict[str, typing.Any] | None]:

        return [f.captures if f is not None else None for f in self._formatters]


    def is_completed(self) -> list[bool | None]:

        """

        Check if the formatters are completed. Each boolean in the list corresponds to the

        completion status of the formatter at the same index.

        """


        return [f.is_completed() if f is not None else None for f in self._formatters]


    def reset(self) -> None:


        for f in self._formatters:

            if f is not None:

                f.reset()

        self._to_next_batch_step()

        self._last_input_id_length = 0

        self._bit_masks.clear()


    def _to_next_batch_step(self):

        self._iter = zip(self._formatters, self._configs)


        self._bit_mask_iter = iter(self._bit_masks)

        self._debug_counter = 0


    def __call__(self, prompt, generated_tokens, logits):

        result = next(self._iter, None)

        if result is None and len(generated_tokens) == self._last_input_id_length:

            # We exhausted all formatters but still have sequences to process in this batch

            raise ValueError(f"Batch size {self._debug_counter} "


                             f"is greater than number of formatters({len(self._formatters)})!")

        bit_mask = False

        if len(generated_tokens) == 0:  # First iteration

            self._debug_counter += 1

            formatter, config = result


            self._bit_masks.append(get_bit_mask(logits))

            if formatter is None:

                return logits

            if config.reset_at_beginning and formatter.is_completed():

                formatter.reset()

            if config.read_prompt:

                for token in prompt:

                    formatter.accept_token(token)

            bit_mask = self._bit_masks[-1]

        elif len(generated_tokens) == self._last_input_id_length + 1:  # to next batch step

            assert result is None, (f"Batch size {self._debug_counter} "

                                    f"is less than number of formatters({len(self._formatters)})!")

            self._to_next_batch_step()

            result = next(self._iter)

            self._last_input_id_length += 1

        if bit_mask is False:

            bit_mask = next(self._bit_mask_iter)

        formatter, _ = result

        if formatter is None:

            return logits

        while formatter.is_completed():

            if generated_tokens[-1] == self._eos_token_id:

                return logits

            formatter, _ = next(self._iter)

            if formatter is None:

                return logits

        if len(generated_tokens) != 0:  # accept new token

            input_id = generated_tokens[-1]

            if not formatter.is_completed():

                formatter.accept_token(input_id)

        if formatter.is_completed():

            logits[:] = float("-inf")

            logits[self._eos_token_id] = 1000

            return logits

        formatter.compute_allowed_tokens()

        logits = self._mask_logits_fn(bit_mask, formatter, logits)

        return logits


def create_engine_vocabulary(tokenizer: AnyTokenizer,

                             vocab_processors: typing.Optional[list[typing.Callable]] = None) -> kbnf.Vocabulary:

    """

    Create a vocabulary for the KBNF engine.

    Args:

        tokenizer: The tokenizer.

        vocab_processors: List of callables with signature (token_to_char: typing.Dict[bytes, bytes])->None.

            Callables can be used to "unmangle" encoded characters to original characters. If None, processors will be auto-detected.

    """

    vocab = tokenizer.get_vocab()


    new_vocab = get_original_characters(vocab, vocab_processors)

    return kbnf.Vocabulary({k: kbnf.Token(v) for k, v in new_vocab.items()}, {

        v: k for k, v in vocab.items()})


def create_formatters_logits_processor(llm: LLM,

                                       formatter_builders: typing.Sequence[FormatterBuilder | None] | FormatterBuilder,


                                       configs: typing.Sequence[EngineGenerationConfig] = None,

                                       vocab_processors: typing.Optional[list[typing.Callable]] = None) \

        -> FormattersLogitsProcessor:

    """

    Create a formatter logits processor.

    Args:

        llm: The LLM.

        formatter_builders: The formatter builders.


        configs: The engine generation configurations.

        vocab_processors: List of callables with signature (token_to_char: typing.Dict[bytes, bytes])->None.

            Callables can be used to "unmangle" encoded characters to original characters. If None, processors will be auto-detected.

    """

    tokenizer = llm.get_tokenizer()

    vocab = create_engine_vocabulary(tokenizer, vocab_processors)

    if not isinstance(formatter_builders, collections.abc.Sequence):

        formatter_builders = [formatter_builders]

    formatters = [i.build(vocab, lambda tokens: tokenizer.decode(tokens)) if i is not None else None


                  for i in formatter_builders]

    return FormattersLogitsProcessor(formatters, tokenizer.eos_token_id, configs)


formatron.config.EngineGenerationConfig
Configuration for how an KBNF engine should be used in text generation.
Definition config.py:14

formatron.integrations.vllm.FormattersLogitsProcessor
Logit processor that uses formatters to mask batch logits.
Definition vllm.py:19

formatron.integrations.vllm.FormattersLogitsProcessor.__init__
__init__(self, typing.Sequence[FormatterBase|None] formatters, int eos_token_id, typing.Sequence[EngineGenerationConfig]|None configs=None)
Definition vllm.py:22

formatron.integrations.vllm.FormattersLogitsProcessor._mask_logits_fn
_mask_logits_fn
Definition vllm.py:33

formatron.integrations.vllm.FormattersLogitsProcessor._bit_masks
_bit_masks
Definition vllm.py:34

formatron.integrations.vllm.FormattersLogitsProcessor._bit_mask_iter
_bit_mask_iter
Definition vllm.py:66

formatron.integrations.vllm.FormattersLogitsProcessor.reset
None reset(self)
Definition vllm.py:56

formatron.integrations.vllm.FormattersLogitsProcessor._debug_counter
_debug_counter
Definition vllm.py:32

formatron.integrations.vllm.FormattersLogitsProcessor._eos_token_id
_eos_token_id
Definition vllm.py:24

formatron.integrations.vllm.FormattersLogitsProcessor._last_input_id_length
_last_input_id_length
Definition vllm.py:25

formatron.integrations.vllm.FormattersLogitsProcessor._to_next_batch_step
_to_next_batch_step(self)
Definition vllm.py:64

formatron.integrations.vllm.FormattersLogitsProcessor._formatters
_formatters
Definition vllm.py:23

formatron.integrations.vllm.FormattersLogitsProcessor.__call__
__call__(self, prompt, generated_tokens, logits)
Definition vllm.py:69

formatron.integrations.vllm.FormattersLogitsProcessor.is_completed
list[bool|None] is_completed(self)
Check if the formatters are completed.
Definition vllm.py:53

formatron.integrations.vllm.FormattersLogitsProcessor._iter
_iter
Definition vllm.py:31

formatron.integrations.vllm.FormattersLogitsProcessor.formatters_captures
list[dict[str, typing.Any]|None] formatters_captures(self)
Definition vllm.py:44

formatron.integrations.vllm.FormattersLogitsProcessor._configs
_configs
Definition vllm.py:30

formatron.config
Configuration classes for Formatron.
Definition config.py:1

formatron.formatter
This module contains the Formatter class and its related classes.
Definition formatter.py:1

formatron.integrations.utils
Definition utils.py:1

formatron.integrations.vllm.create_engine_vocabulary
kbnf.Vocabulary create_engine_vocabulary(AnyTokenizer tokenizer, typing.Optional[list[typing.Callable]] vocab_processors=None)
Create a vocabulary for the KBNF engine.
Definition vllm.py:126

formatron.integrations.vllm.create_formatters_logits_processor
FormattersLogitsProcessor create_formatters_logits_processor(LLM llm, typing.Sequence[FormatterBuilder|None]|FormatterBuilder formatter_builders, typing.Sequence[EngineGenerationConfig] configs=None, typing.Optional[list[typing.Callable]] vocab_processors=None)
Create a formatter logits processor.
Definition vllm.py:146