fix sense_voice_datasets

2025-09-15 14:48:36 +08:00 · 2024-07-17 16:05:58 +08:00 · 2024-07-17 16:05:58 +08:00 · a98550fdf5
commit a98550fdf5
parent beef97a2fc
1 changed files with 1 additions and 1 deletions
--- a/funasr/datasets/sense_voice_datasets/datasets.py
+++ b/funasr/datasets/sense_voice_datasets/datasets.py
@ -328,7 +328,7 @@ class SenseVoiceCTCDataset(torch.utils.data.Dataset):
            emo_target = item["emo_target"]
            event_target = item["event_target"]
            text_language = item.get("text_language", "<|zh|>")
-            punc_itn_bottom = item.get("with_or_wo_itn", "<|SPECIAL_TOKEN_13|>")
+            punc_itn_bottom = item.get("with_or_wo_itn", "<|woitn|>")

            target_ids = self.tokenizer.encode(asr_target, allowed_special="all")
            target_ids_len = len(target_ids)  # [text]