-
1111
查看全部 -
啊查看全部
-
语音技术范围及技术框架特点-技术范围
语音识别:语音到文本
命令词识别:关键词检测
语音合成:文本到语音
声纹识别:声音生物信息认证
声音时间检测:呻吟场景分类,稀有事件检测,现实场景中的声学事件检测
语音前端(降噪,增强,定位,回声消除。。。)
ASR(语音识别):语音转录:实时转录(输入法),文件转录(病例,庭审记录)
KWS(关键词检测):siri,小爱同学,车载命令词
TTS(语音合成):TalkBot,有声书,泛娱乐
VPR(声纹识别):司法认证,生物信息认证
DCASE(事件检测):看护,咳嗽
FrontEnd(语音前端):直播降噪,鸡尾酒会问题(盲源分离)
查看全部 -
语音基础知识介绍-发声机理
人的发声范围: 100 - 10kHz
男性的基音频率(Fo): 50 - 250 Hz
女性基音频率: 100 - 500 Hz
语音基础知识介绍-听觉原理
外耳: 声源定位(DOA)、放大器(AGC)
中耳:保护耳蜗
内耳:梅尔滤波器组
人声听声范围: 20 - 20kHz
语音基础知识介绍-音频示例及参数
格式: 无损/有损
无损: WAV/PCM/FLAC
有损: MP3/ogg/AAC
幅职: 多种表示方式
采样值: short(-32768~ + 32767)
标准化值:采样值的归一化
分贝: 10log[(x/xo)^2] = 20log|x/xo|
长度:音频持续时间,一般单位是s,精确到ms
采样率:每秒钟采样的个数8k,16k,22.05k,44.1k
通道: 单声道(mono),多声道(混音),立体声(stereo)
位宽: 分辨率
16bits: 幅值的范围用两个字节的short表示(-32768~32767)
32bits: 幅值的范围用四个字节的long short表示(-65537~65536)
查看全部 -
语音相关基础知识:
语音基本知识介绍
语音技术范围及技术框架特点
语音技术历史演进
明确语音的基本概念技术范围和现在一些应用,并确定接下来我们选择的框架
查看全部 -
语音技术现状:
语音社交
极度稀缺
智能家居
课程的主要目的:
语音基本概念、处理方法
掌握语音特征工程
获得语音入门相关经验
课程概述:
1. 基础知识讲解: 语音的概念;语音的技术栈;框架及对比选择;语音技术的当前现状
2. 特征工程: 语音特征;语音特征抽取;相关神经网络组件
3. 项目实战: 数据处理;模型搭建;模型部署
技能储备:
熟悉Python基础语法
了解Pytorch基础用法
了解深度学习基础
查看全部 -
第一次学习查看全部
-
这是我的第一次笔记
查看全部 -
11111111111111111
22222222222222222
33333333333333333333
查看全部 -
发声机理。
查看全部 -
t查看全部
-
语音相关基础知识
查看全部 -
人工智能--语音
查看全部
举报