diff --git a/docs/tutorial/README.md b/docs/tutorial/README.md
index 20102cca9..ef1b20884 100644
--- a/docs/tutorial/README.md
+++ b/docs/tutorial/README.md
@@ -221,7 +221,7 @@ funasr/bin/train.py \
 ++train_conf.validate_interval=2000 \
 ++train_conf.save_checkpoint_interval=2000 \
 ++train_conf.keep_nbest_models=20 \
-++train_conf.avg_nbest_model=5 \
+++train_conf.avg_nbest_model=10 \
 ++optim_conf.lr=0.0002 \
 ++output_dir="${output_dir}" &> ${log_file}
 ```
diff --git a/docs/tutorial/README_zh.md b/docs/tutorial/README_zh.md
index 4e9bb3f65..78acb5825 100644
--- a/docs/tutorial/README_zh.md
+++ b/docs/tutorial/README_zh.md
@@ -225,7 +225,7 @@ funasr/bin/train.py \
 ++train_conf.validate_interval=2000 \
 ++train_conf.save_checkpoint_interval=2000 \
 ++train_conf.keep_nbest_models=20 \
-++train_conf.avg_nbest_model=5 \
+++train_conf.avg_nbest_model=10 \
 ++optim_conf.lr=0.0002 \
 ++output_dir="${output_dir}" &> ${log_file}
 ```
@@ -242,7 +242,7 @@ funasr/bin/train.py \
 - `train_conf.save_checkpoint_interval`（int）：`5000`（默认），训练中模型保存间隔step数。
 - `train_conf.avg_keep_nbest_models_type`（str）：`acc`（默认），保留nbest的标准为acc（越大越好）。`loss`表示，保留nbest的标准为loss（越小越好）。
 - `train_conf.keep_nbest_models`（int）：`500`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 保留最佳的n个模型，其他删除，节约存储空间。
-- `train_conf.avg_nbest_model`（int）：`5`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 对最佳的n个模型平均。
+- `train_conf.avg_nbest_model`（int）：`10`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 对最佳的n个模型平均。
 - `train_conf.accum_grad`（int）：`1`（默认），梯度累积功能。
 - `train_conf.grad_clip`（float）：`10.0`（默认），梯度截断功能。
 - `train_conf.use_fp16`（bool）：`False`（默认），开启fp16训练，加快训练速度。
diff --git a/examples/README.md b/examples/README.md
index 20102cca9..ef1b20884 100644
--- a/examples/README.md
+++ b/examples/README.md
@@ -221,7 +221,7 @@ funasr/bin/train.py \
 ++train_conf.validate_interval=2000 \
 ++train_conf.save_checkpoint_interval=2000 \
 ++train_conf.keep_nbest_models=20 \
-++train_conf.avg_nbest_model=5 \
+++train_conf.avg_nbest_model=10 \
 ++optim_conf.lr=0.0002 \
 ++output_dir="${output_dir}" &> ${log_file}
 ```
diff --git a/examples/README_zh.md b/examples/README_zh.md
index 4e9bb3f65..78acb5825 100644
--- a/examples/README_zh.md
+++ b/examples/README_zh.md
@@ -225,7 +225,7 @@ funasr/bin/train.py \
 ++train_conf.validate_interval=2000 \
 ++train_conf.save_checkpoint_interval=2000 \
 ++train_conf.keep_nbest_models=20 \
-++train_conf.avg_nbest_model=5 \
+++train_conf.avg_nbest_model=10 \
 ++optim_conf.lr=0.0002 \
 ++output_dir="${output_dir}" &> ${log_file}
 ```
@@ -242,7 +242,7 @@ funasr/bin/train.py \
 - `train_conf.save_checkpoint_interval`（int）：`5000`（默认），训练中模型保存间隔step数。
 - `train_conf.avg_keep_nbest_models_type`（str）：`acc`（默认），保留nbest的标准为acc（越大越好）。`loss`表示，保留nbest的标准为loss（越小越好）。
 - `train_conf.keep_nbest_models`（int）：`500`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 保留最佳的n个模型，其他删除，节约存储空间。
-- `train_conf.avg_nbest_model`（int）：`5`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 对最佳的n个模型平均。
+- `train_conf.avg_nbest_model`（int）：`10`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 对最佳的n个模型平均。
 - `train_conf.accum_grad`（int）：`1`（默认），梯度累积功能。
 - `train_conf.grad_clip`（float）：`10.0`（默认），梯度截断功能。
 - `train_conf.use_fp16`（bool）：`False`（默认），开启fp16训练，加快训练速度。
diff --git a/examples/aishell/paraformer/conf/paraformer_conformer_12e_6d_2048_256.yaml b/examples/aishell/paraformer/conf/paraformer_conformer_12e_6d_2048_256.yaml
index 150d7a007..b65a32df4 100644
--- a/examples/aishell/paraformer/conf/paraformer_conformer_12e_6d_2048_256.yaml
+++ b/examples/aishell/paraformer/conf/paraformer_conformer_12e_6d_2048_256.yaml
@@ -80,7 +80,7 @@ train_conf:
   grad_clip: 5
   max_epoch: 150
   keep_nbest_models: 10
-  avg_nbest_model: 5
+  avg_nbest_model: 10
   log_interval: 50
 
 optim: adam
diff --git a/examples/industrial_data_pretraining/paraformer-zh-spk/README_zh.md b/examples/industrial_data_pretraining/paraformer-zh-spk/README_zh.md
index 4e9bb3f65..78acb5825 100644
--- a/examples/industrial_data_pretraining/paraformer-zh-spk/README_zh.md
+++ b/examples/industrial_data_pretraining/paraformer-zh-spk/README_zh.md
@@ -225,7 +225,7 @@ funasr/bin/train.py \
 ++train_conf.validate_interval=2000 \
 ++train_conf.save_checkpoint_interval=2000 \
 ++train_conf.keep_nbest_models=20 \
-++train_conf.avg_nbest_model=5 \
+++train_conf.avg_nbest_model=10 \
 ++optim_conf.lr=0.0002 \
 ++output_dir="${output_dir}" &> ${log_file}
 ```
@@ -242,7 +242,7 @@ funasr/bin/train.py \
 - `train_conf.save_checkpoint_interval`（int）：`5000`（默认），训练中模型保存间隔step数。
 - `train_conf.avg_keep_nbest_models_type`（str）：`acc`（默认），保留nbest的标准为acc（越大越好）。`loss`表示，保留nbest的标准为loss（越小越好）。
 - `train_conf.keep_nbest_models`（int）：`500`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 保留最佳的n个模型，其他删除，节约存储空间。
-- `train_conf.avg_nbest_model`（int）：`5`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 对最佳的n个模型平均。
+- `train_conf.avg_nbest_model`（int）：`10`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 对最佳的n个模型平均。
 - `train_conf.accum_grad`（int）：`1`（默认），梯度累积功能。
 - `train_conf.grad_clip`（float）：`10.0`（默认），梯度截断功能。
 - `train_conf.use_fp16`（bool）：`False`（默认），开启fp16训练，加快训练速度。
diff --git a/examples/industrial_data_pretraining/paraformer/README.md b/examples/industrial_data_pretraining/paraformer/README.md
index 20102cca9..ef1b20884 100644
--- a/examples/industrial_data_pretraining/paraformer/README.md
+++ b/examples/industrial_data_pretraining/paraformer/README.md
@@ -221,7 +221,7 @@ funasr/bin/train.py \
 ++train_conf.validate_interval=2000 \
 ++train_conf.save_checkpoint_interval=2000 \
 ++train_conf.keep_nbest_models=20 \
-++train_conf.avg_nbest_model=5 \
+++train_conf.avg_nbest_model=10 \
 ++optim_conf.lr=0.0002 \
 ++output_dir="${output_dir}" &> ${log_file}
 ```
diff --git a/examples/industrial_data_pretraining/paraformer/README_zh.md b/examples/industrial_data_pretraining/paraformer/README_zh.md
index 4e9bb3f65..78acb5825 100644
--- a/examples/industrial_data_pretraining/paraformer/README_zh.md
+++ b/examples/industrial_data_pretraining/paraformer/README_zh.md
@@ -225,7 +225,7 @@ funasr/bin/train.py \
 ++train_conf.validate_interval=2000 \
 ++train_conf.save_checkpoint_interval=2000 \
 ++train_conf.keep_nbest_models=20 \
-++train_conf.avg_nbest_model=5 \
+++train_conf.avg_nbest_model=10 \
 ++optim_conf.lr=0.0002 \
 ++output_dir="${output_dir}" &> ${log_file}
 ```
@@ -242,7 +242,7 @@ funasr/bin/train.py \
 - `train_conf.save_checkpoint_interval`（int）：`5000`（默认），训练中模型保存间隔step数。
 - `train_conf.avg_keep_nbest_models_type`（str）：`acc`（默认），保留nbest的标准为acc（越大越好）。`loss`表示，保留nbest的标准为loss（越小越好）。
 - `train_conf.keep_nbest_models`（int）：`500`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 保留最佳的n个模型，其他删除，节约存储空间。
-- `train_conf.avg_nbest_model`（int）：`5`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 对最佳的n个模型平均。
+- `train_conf.avg_nbest_model`（int）：`10`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 对最佳的n个模型平均。
 - `train_conf.accum_grad`（int）：`1`（默认），梯度累积功能。
 - `train_conf.grad_clip`（float）：`10.0`（默认），梯度截断功能。
 - `train_conf.use_fp16`（bool）：`False`（默认），开启fp16训练，加快训练速度。
diff --git a/examples/industrial_data_pretraining/paraformer/finetune.sh b/examples/industrial_data_pretraining/paraformer/finetune.sh
index b4d07bd62..25d9e1a98 100644
--- a/examples/industrial_data_pretraining/paraformer/finetune.sh
+++ b/examples/industrial_data_pretraining/paraformer/finetune.sh
@@ -62,6 +62,6 @@ torchrun \
 ++train_conf.validate_interval=2000 \
 ++train_conf.save_checkpoint_interval=2000 \
 ++train_conf.keep_nbest_models=20 \
-++train_conf.avg_nbest_model=5 \
+++train_conf.avg_nbest_model=10 \
 ++optim_conf.lr=0.0002 \
 ++output_dir="${output_dir}" &> ${log_file}
\ No newline at end of file
diff --git a/examples/industrial_data_pretraining/paraformer_streaming/README_zh.md b/examples/industrial_data_pretraining/paraformer_streaming/README_zh.md
index 4e9bb3f65..78acb5825 100644
--- a/examples/industrial_data_pretraining/paraformer_streaming/README_zh.md
+++ b/examples/industrial_data_pretraining/paraformer_streaming/README_zh.md
@@ -225,7 +225,7 @@ funasr/bin/train.py \
 ++train_conf.validate_interval=2000 \
 ++train_conf.save_checkpoint_interval=2000 \
 ++train_conf.keep_nbest_models=20 \
-++train_conf.avg_nbest_model=5 \
+++train_conf.avg_nbest_model=10 \
 ++optim_conf.lr=0.0002 \
 ++output_dir="${output_dir}" &> ${log_file}
 ```
@@ -242,7 +242,7 @@ funasr/bin/train.py \
 - `train_conf.save_checkpoint_interval`（int）：`5000`（默认），训练中模型保存间隔step数。
 - `train_conf.avg_keep_nbest_models_type`（str）：`acc`（默认），保留nbest的标准为acc（越大越好）。`loss`表示，保留nbest的标准为loss（越小越好）。
 - `train_conf.keep_nbest_models`（int）：`500`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 保留最佳的n个模型，其他删除，节约存储空间。
-- `train_conf.avg_nbest_model`（int）：`5`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 对最佳的n个模型平均。
+- `train_conf.avg_nbest_model`（int）：`10`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 对最佳的n个模型平均。
 - `train_conf.accum_grad`（int）：`1`（默认），梯度累积功能。
 - `train_conf.grad_clip`（float）：`10.0`（默认），梯度截断功能。
 - `train_conf.use_fp16`（bool）：`False`（默认），开启fp16训练，加快训练速度。
diff --git a/funasr/models/paraformer/template.yaml b/funasr/models/paraformer/template.yaml
index 7809457df..249e88ca6 100644
--- a/funasr/models/paraformer/template.yaml
+++ b/funasr/models/paraformer/template.yaml
@@ -87,7 +87,7 @@ train_conf:
   grad_clip: 5
   max_epoch: 150
   keep_nbest_models: 10
-  avg_nbest_model: 5
+  avg_nbest_model: 10
   log_interval: 50
 
 optim: adam
diff --git a/funasr/models/sanm/template.yaml b/funasr/models/sanm/template.yaml
index a7f7b12d7..316fe75cb 100644
--- a/funasr/models/sanm/template.yaml
+++ b/funasr/models/sanm/template.yaml
@@ -85,7 +85,7 @@ train_conf:
       - acc
       - max
   keep_nbest_models: 10
-  avg_nbest_model: 5
+  avg_nbest_model: 10
   log_interval: 50
 
 optim: adam
diff --git a/funasr/models/scama/template.yaml b/funasr/models/scama/template.yaml
index 214046e2d..bc2e210b2 100644
--- a/funasr/models/scama/template.yaml
+++ b/funasr/models/scama/template.yaml
@@ -91,7 +91,7 @@ train_conf:
       - acc
       - max
   keep_nbest_models: 10
-  avg_nbest_model: 5
+  avg_nbest_model: 10
   log_interval: 50
 
 optim: adam
diff --git a/funasr/models/uniasr/template.yaml b/funasr/models/uniasr/template.yaml
index e72a2d527..43d55fc26 100644
--- a/funasr/models/uniasr/template.yaml
+++ b/funasr/models/uniasr/template.yaml
@@ -171,7 +171,7 @@ train_conf:
   grad_clip: 5
   max_epoch: 150
   keep_nbest_models: 10
-  avg_nbest_model: 5
+  avg_nbest_model: 10
   log_interval: 50
 
 optim: adam
diff --git a/funasr/train_utils/trainer.py b/funasr/train_utils/trainer.py
index 491e85110..27856fbb5 100644
--- a/funasr/train_utils/trainer.py
+++ b/funasr/train_utils/trainer.py
@@ -79,7 +79,7 @@ class Trainer:
         self.validate_interval = kwargs.get("validate_interval", 5000)
         self.keep_nbest_models = kwargs.get("keep_nbest_models", 500)
         self.avg_keep_nbest_models_type = kwargs.get("avg_keep_nbest_models_type", "acc")
-        self.avg_nbest_model = kwargs.get("avg_nbest_model", 5)
+        self.avg_nbest_model = kwargs.get("avg_nbest_model", 10)
         self.accum_grad = kwargs.get("accum_grad", 1)
         self.grad_clip = kwargs.get("grad_clip", 10.0)
         self.grad_clip_type = kwargs.get("grad_clip_type", 2.0)