ljsabc
/

Fujisaki-int4

@@ -29,7 +29,7 @@ from transformers.utils import logging
 from transformers.generation.logits_process import LogitsProcessor
 from transformers.generation.utils import LogitsProcessorList, StoppingCriteriaList, GenerationConfig
-from configuration_chatglm import ChatGLMConfig
 # flags required to enable jit fusion kernels
@@ -1273,7 +1273,7 @@ class ChatGLMForConditionalGeneration(ChatGLMPreTrainedModel):
         if bits == 0:
             return
-        from quantization import quantize, QuantizedEmbedding, QuantizedLinear, load_cpu_kernel
         if self.quantized:
             if self.device == torch.device("cpu"):

 from transformers.generation.logits_process import LogitsProcessor
 from transformers.generation.utils import LogitsProcessorList, StoppingCriteriaList, GenerationConfig
+from .configuration_chatglm import ChatGLMConfig
 # flags required to enable jit fusion kernels
         if bits == 0:
             return
+        from .quantization import quantize, QuantizedEmbedding, QuantizedLinear, load_cpu_kernel
         if self.quantized:
             if self.device == torch.device("cpu"):