code update

2025-09-15 14:48:36 +08:00 · 2024-01-15 20:34:47 +08:00 · 2024-01-15 20:34:47 +08:00 · 1233c0d3ff
commit 1233c0d3ff
parent 3fcb5dcfed
24 changed files with 1391 additions and 1404 deletions
--- a/funasr/bin/inference.py
+++ b/funasr/bin/inference.py
@ -310,9 +310,6 @@ class AutoModel:
                logging.info("decoding, utt: {}, empty speech".format(key))
                continue

-
-            # if kwargs["device"] == "cpu":
-            #     batch_size = 0
            if len(sorted_data) > 0 and len(sorted_data[0]) > 0:
                batch_size = max(batch_size, sorted_data[0][0][1] - sorted_data[0][0][0])
            
--- a/funasr/bin/train.py
+++ b/funasr/bin/train.py
@ -1,27 +1,29 @@
-import argparse
-import logging
 import os
 import sys
-from io import BytesIO
-from collections.abc import Sequence
 import torch
 import hydra
+import logging
+import argparse
+from io import BytesIO
+import torch.distributed as dist
+from collections.abc import Sequence
 from omegaconf import DictConfig, OmegaConf
-from funasr.train_utils.set_all_random_seed import set_all_random_seed
-from funasr.models.lora.utils import mark_only_lora_as_trainable
+from torch.nn.parallel import DistributedDataParallel as DDP
+from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
+
+from funasr.register import tables
 from funasr.optimizers import optim_classes
+from funasr.train_utils.trainer import Trainer
 from funasr.schedulers import scheduler_classes
-from funasr.train_utils.load_pretrained_model import load_pretrained_model
 from funasr.train_utils.initialize import initialize
+from funasr.download.download_from_hub import download_model
+from funasr.models.lora.utils import mark_only_lora_as_trainable
+from funasr.train_utils.set_all_random_seed import set_all_random_seed
+from funasr.train_utils.load_pretrained_model import load_pretrained_model
 # from funasr.tokenizer.build_tokenizer import build_tokenizer
 # from funasr.tokenizer.token_id_converter import TokenIDConverter
 # from funasr.tokenizer.funtoken import build_tokenizer
-from funasr.train_utils.trainer import Trainer
-import torch.distributed as dist
-from torch.nn.parallel import DistributedDataParallel as DDP
-from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
-from funasr.download.download_from_hub import download_model
-from funasr.register import tables
+

@hydra.main(config_name=None, version_base=None)
 def main_hydra(kwargs: DictConfig):
--- a/funasr/datasets/audio_datasets/datasets.py
+++ b/funasr/datasets/audio_datasets/datasets.py
@ -1,15 +1,8 @@
 import torch
-import json
-import torch.distributed as dist
-import numpy as np
-import kaldiio
-import librosa
-import torchaudio
-import time
-import logging

-from funasr.utils.load_utils import load_audio_text_image_video, extract_fbank
 from funasr.register import tables
+from funasr.utils.load_utils import extract_fbank
+

@tables.register("dataset_classes", "AudioDataset")
 class AudioDataset(torch.utils.data.Dataset):
@ -82,8 +75,6 @@ class AudioDataset(torch.utils.data.Dataset):
    
    
    def collator(self, samples: list=None):
-
-
        outputs = {}
        for sample in samples:
            for key in sample.keys():
--- a/funasr/datasets/audio_datasets/index_ds.py
+++ b/funasr/datasets/audio_datasets/index_ds.py
@ -1,11 +1,11 @@
-import torch
 import json
-import torch.distributed as dist
-import time
+import torch
 import logging
+import torch.distributed as dist

 from funasr.register import tables

+
@tables.register("index_ds_classes", "IndexDSJsonl")
 class IndexDSJsonl(torch.utils.data.Dataset):
    
--- a/funasr/datasets/audio_datasets/samplers.py
+++ b/funasr/datasets/audio_datasets/samplers.py
@ -1,5 +1,4 @@
 import torch
-
 import numpy as np

 from funasr.register import tables
--- a/funasr/download/download_from_hub.py
+++ b/funasr/download/download_from_hub.py
@ -1,9 +1,10 @@
-import json
 import os
+import json
 from omegaconf import OmegaConf
-import torch
+
 from funasr.download.name_maps_from_hub import name_maps_ms, name_maps_hf

+
 def download_model(**kwargs):
    model_hub = kwargs.get("model_hub", "ms")
    if model_hub == "ms":
--- a/funasr/download/runtime_sdk_download_tool.py
+++ b/funasr/download/runtime_sdk_download_tool.py
@ -1,8 +1,10 @@
-from pathlib import Path
 import os
 import argparse
+from pathlib import Path
+
 from funasr.utils.types import str2bool

+
 def main():
    parser = argparse.ArgumentParser()
    parser.add_argument('--model-name', type=str, required=True)
--- a/funasr/models/scama/chunk_utilis.py
+++ b/funasr/models/scama/chunk_utilis.py
@ -1,12 +1,10 @@
-
+import math
 import torch
 import numpy as np
-import math
-from funasr.models.transformer.utils.nets_utils import make_pad_mask
-import logging
 import torch.nn.functional as F
-from funasr.models.scama.utils import sequence_mask

+from funasr.models.scama.utils import sequence_mask
+from funasr.models.transformer.utils.nets_utils import make_pad_mask


 class overlap_chunk():
--- a/funasr/models/scama/utils.py
+++ b/funasr/models/scama/utils.py
@ -1,8 +1,9 @@
 import os
-import torch
-from torch.nn import functional as F
 import yaml
+import torch
 import numpy as np
+from torch.nn import functional as F
+

 def sequence_mask(lengths, maxlen=None, dtype=torch.float32, device=None):
    if maxlen is None:
--- a/funasr/tokenizer/abs_tokenizer.py
+++ b/funasr/tokenizer/abs_tokenizer.py
@ -1,15 +1,9 @@
-from abc import ABC
-from abc import abstractmethod
-from typing import Iterable
-from typing import List
-from pathlib import Path
-from typing import Dict
-from typing import Iterable
-from typing import List
-from typing import Union
 import json
-
 import numpy as np
+from abc import ABC
+from pathlib import Path
+from abc import abstractmethod
+from typing import Union, Iterable, List, Dict


 class AbsTokenizer(ABC):
--- a/funasr/train_utils/trainer.py
+++ b/funasr/train_utils/trainer.py
@ -1,13 +1,15 @@
-import torch
 import os
-from funasr.train_utils.device_funcs import to_device
-import logging
 import time
+import torch
+import logging
 from tqdm import tqdm
-from contextlib import nullcontext
 import torch.distributed as dist
+from contextlib import nullcontext
+
+from funasr.train_utils.device_funcs import to_device
 from funasr.train_utils.recursive_op import recursive_average

+
 class Trainer:
    """
    A simple trainer class for training a PyTorch model, saving checkpoints at the end of each epoch,
--- a/funasr/utils/vad_utils.py
+++ b/funasr/utils/vad_utils.py
@ -1,6 +1,7 @@
 import torch
 from torch.nn.utils.rnn import pad_sequence

+
 def slice_padding_fbank(speech, speech_lengths, vad_segments):
    speech_list = []
    speech_lengths_list = []
@ -16,7 +17,6 @@ def slice_padding_fbank(speech, speech_lengths, vad_segments):
    speech_lengths_pad = torch.Tensor(speech_lengths_list).int()
    return feats_pad, speech_lengths_pad

-
 def slice_padding_audio_samples(speech, speech_lengths, vad_segments):
    speech_list = []
    speech_lengths_list = []