FunASR 实时流式语音转写模型

部署环境:Anaconda
虚拟环境:D:\Python\Envs\funasr
项目地址:C:\Users\Dylan\Desktop\Projects\FunASR\Fun-ASR

正常启动

conda activate funasr
cd desktop/projects/funasr/fun-asr
python transcribe_gui.py

部署过程

初步部署FunASR和模型

克隆GitHub仓库

git clone https://github.com/FunAudioLLM/Fun-ASR.git
cd Fun-ASR
pip install -r requirements.txt

下载 Fun-ASR-Nano-2512 模型:

  
modelscope download --model FunAudioLLM/Fun-ASR-Nano-2512 --local_dir ./Fun-ASR-Nano-2512

记得安装FFmpeg:Builds – CODEX FFMPEG @ gyan.dev

如果有N卡,需要安装Cuda ToolKit:CUDA Toolkit Archive,这里选择12.8版本。
然后去download.pytorch.org/whl,看看torch支持的cu版本,能找到cu128

卸载普通版版torch,然后安装支持cuda的torch。

pip uninstall torch torchaudio torchvision -y
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu128

验证torch:

import torch
print(torch.cuda.is_available()) # 应该变 True 了
print(torch.cuda.get_device_name(0)) # 应该能看到 "NVIDIA GeForce RTX 5080"

功能编写(实时流式推理、实时VAD推理、GUI)

让 Claude Opus 4.6 发力。

图形学热词列表:

Unity,UE5,Shader,PBR,URP,HDRP,SRP,DOTS,ECS,GPU,CPU,Vulkan,OpenGL,DX12,HLSL,GLSL,Metal,RTX,DLSS,FSR,LOD,BVH,GI,IBL,HDR,MVP,UV,RGBA,C-Sharp,C++,IL2CPP,Lua,渲染,着色,光追,路径,实时,离线,光栅,采样,抗锯齿,顶点,片元,像素,纹理,深度,遮蔽,延迟,前向,漫反射,镜面,折射,菲涅尔,粗糙,金属,法线,位移,阴影,蒙皮,骨骼,细分,体渲染,步进,管线,多重,各向异性,球谐,环境,贴图,色彩,视锥,裁剪,投影,矩阵,四元数,欧拉角,球谐,变体,遮罩,管线,实体,组件,数据,技术栈,任务,并行,分析,调试,变体,路径,探针,烘焙,贴图,剔除,合批,属性,状态机,动力学,物理,碰撞,触发,刚体,射线,脚本,生命周期,异步,加载,对象池,作业,编译器,向量,队列,过程,体积,相机,齐次,坐标,仿射,重心,主成分,梯度,下降,微分,张量,并行,误差,浮点,指令,插值,归一,叉积,点积,命名空间,接口,继承,多态,封装,委托,事件,泛型,协程,回收,泄漏,线程,原子

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

目录