人声提取
又叫人声分离/割(speaker diarization);
目的:基于声纹特征的方式将不同说话人的声音分离出来;
一、 基本思路
语音分割:找到音频中发言人变化的点
最简单的做法是
对语音进行切片;
切片操作,早期/主流的是滑窗(1-2s 的窗口);
提取每个语音片段的声纹特征;
判断声纹片段是否只包含一个发言者,早期主流的是 BIC;
按规则聚类,得到说话人声片段,同时可得到发言人数量
提特征,以供聚类(聚类,GMM,SVM;k-means,spectral clustering;RNN);将聚类结果拼接在一起,即得到每个人的语音片段;
2、3 中使用的特征是 MFCC,再加上简单的能量、过零率及和语音相...
计算机视觉企业汇总
排名不分先后
一、 世纪晟科技
官网:http://www.centrizen.com/zh/
总部位于广州;核心研发团队来自于中科院、华南理工大学以及多位业内优秀专家教授;
业务
研究人脸识别方面技术,为安防行业提供芯片级的高性能解决方案;
参考资料
[1]. 李稀敏, 远鉴科技, et al. 目前国内做声纹识别相关技术或产品的公司有哪些[EB/OL]. https://www.zhihu.com/question/272131370. 2018-04-14/2018-12-29.
[2]. IT资讯. 一篇文章读懂计算机视觉五大关键任务[EB/OL]. https://www.jianshu.com/p/45acc16c6a94. 2017-11-14/201...
「论文解读」Bag of Tricks for Image Classification with Convolutional Neural Networks
论文发表时间:2018年12月
论文地址:https://arxiv.org/abs/1812.01187
文章整理对比了CNN分类网络中常用的一些tricks,例如改善模型结构,训练过程的精修,包括修改损失函数、数据预处理等;
论文第二部分先给出了一个训练Resnet-50、Inception-V3、MobileNet网络的baseline。
因为现在在训练过程中使用低数值精度(lower numerical precision)和larger batch size会更有效,所以第三部分介绍了一些可以在不牺牲模型精度的同时enable这两种做法works的方法。
一、 标准训练
1. 训练过程
2. 训练结果
二、 有效的训练策略
1. 大批次
large-batch...
共计 516 篇文章,26 页。