计算机视觉
1. 针对小数据集的肺部 CT 影像分类
发表时间:2019-03-01
标签:小数据,GAN,CNN,深度学习
He, G. (2019). Lung CT Imaging Sign Classification through Deep Learning on Small Data. http://arxiv.org/abs/1903.00183.
思路:
- 使用 GAN 生成样本(其中 56.7% 被证明是有效的);
- 用 GAN 生成的样本训练模型;
- 用真实样本微调模型;
结果:
二分类的情况,模型精度在 88%,微调后达到 95%;
多分类的情况,准确度为 91.83%,敏感性为 92.73%,特异性为 99.0%;
2. 用于显著性检测的金字塔特征选择网络
发表时间:2019-03-01
标签: 金字塔,注意力,损失函数
Zhao, T., & Wu, X. (2019). Pyramid Feature Selective Network for Saliency detection. http://arxiv.org/abs/1903.00179.
问题:如何提取有效特征是显著性检测的关键;目前的方法主要是盲目地综合多尺度卷积特征;然而,并不是所有的特征都对显著性检测有用,有些甚至会造成干扰;
方案:提出了金字塔特征选择网络,重点研究有效的高层语义和低层细节特征;包括
- 上下文感知网络(Context-aware Pyramid Feature Extraction ,CPFE)
- 空间注意力(spatial attention,SA),放在低层特征后面
- 通道感知(channel-wise attention,CA),放在 CPFE 后面
- 融合 CA 和 SA 的结果
- 设计了边缘保持 loss,来学习更多的细节特征
结果:
在五个数据集上用不同的指标做了评估,都是最优的;
机器学习
3. 综述:图聚类的随机块模型及其扩展
发表时间:2019-03-01
标签:基于模型的聚类,随机块模型,主题建模
图聚类综述
Lee, C., & Wilkinson, D. J. (2019). A Review of Stochastic Block Models and Extensions for Graph Clustering. http://arxiv.org/abs/1903.00114.
近十年,基于模型的图形聚类(又叫块建模)取得迅速发展;本文对不同的图类型、聚类方法、推理方法及是否需要指定聚类个数进行了总结和比较;同时,也回顾了无监督文本学习(又叫主题建模),这两个领域密切相关;
4. 逻辑回归的复杂度
发表时间:2019-03-01
标签:模型复杂度,逻辑回归,贝叶斯模型选择
Bulso, N., Marsili, M., & Roudi, Y. (n.d.). On the complexity of logistic regression models. http://arxiv.org/abs/1903.00386.
发现:我们发现,针对二进制输入的逻辑回归模型,其复杂度不仅和参数两有关,而且收输入数据的分布影响;这种影响也无法受常规复杂度处理策略的控制;
研究:
- 推导了复杂度的上下界;
- 发现模型的参数应该定义在有限范围内;
- 复杂度和域的大小关系很大;
设想:
提出模型选择时需考虑输入分布的想法;
实验:
- 为了验证设想,我们利用贝叶斯选择框架对逻辑回归的输入变量进行选择;得到的模型的重建误差最小;
- 用分类代替二分类,得到的时间复杂度也很低;
- 在 13 keys to the White House 数据集上进行了实验;
自然语言处理
5. 结合端到端语音识别模型进行情感识别
发表时间:2019-02-28
标签:情感识别,语音识别
Lakomkin, E., Zamani, M. A., Weber, C., Magg, S., & Wermter, S. (2019). Incorporating End-to-End Speech Recognition Models for Sentiment Analysis. http://arxiv.org/abs/1902.11245.
背景:视觉、听觉和文本的结合对于情感识别很有帮助,但是转录文本丢失了很多信息;
方案:我们提出了结合语音识别网络和字符是识别的 RNN 网络;
结果:仅使用我们模型中的语音识别模块,就已经达到了目前语音识别模型的最佳程度——73.6%;加上 RNN 后,在 Multimodal Corpus of Sentiment Intensity (MOSI) 数据集上达到了 80.4%,RNN 的加入至少可以提高 2%;
6. 无需 SoftMax 层的高效上下文表示学习
发表时间:2019-02-28
标签:词嵌入,降维
Harold Li, L., Chen, P. H., Hsieh, C.-J., & Chang, K.-W. (2019). Efficient Contextual Representation Learning Without Softmax Layer. http://arxiv.org/abs/1902.11269.
背景:语言模型因参数量大而难以训练,经分析后发现责任主要在 SoftMax 层;
方案:去掉 SoftMax 层,使用预训练的词嵌入和降维;
结果:在 ELMo 应用中,我们的方案运行时间降低到了 1/4,训练参数减少了 80%;精度也尚可;
音频
7. 面向音乐任务的通用神经网络
发表时间:2019-03-01
标签:音乐信息检索(MIR),音乐合成,WaveNet,GAN
在音乐合成中首次应用 GAN
Spratley, S., Beck, D., & Cohn, T. (2019). A Unified Neural Architecture for Instrumental Audio Tasks. http://arxiv.org/abs/1903.00142.
背景:在音乐信息检索(MIR)中常见的任务有高音跟踪、音源分离、超分辨率及音频合成,他们都有独立的处理方法;
方案:提炼这些任务的共同之处,并借鉴条件生成对抗网络(cGANs,在图像到图像的翻译任务中很通用),我们提出了一个监督网络,可以处理上述所有任务;由 WaveNet 和 cGANs 组成;
贡献:提出了首个 GAN 网络来指导音乐合成;
8. KT-Speech-Crawler: 爬取 YouTube 视频自动生成语音识别数据集
发表时间:2019-03-01
标签:语音识别,数据集,自动标注
音频爬取及标注
Lakomkin, E. (2018). KT-Speech-Crawler : Automatic Dataset Construction for Speech Recognition from YouTube Videos, 90–95. http://arxiv.org/abs/1903.00216.
爬取 YouTube 的视频,并进行过滤和后处理;一天之内可以爬取 150 小时的音频;
demo: http://emnlp-demo.lakomkin.me/
爬虫:https://github.com/EgorLakomkin/KTSpeechCrawler
9. 使用 CNN 进行鼓声数据增强
发表时间:2019-03-04
标签:鼓声,乐器,数据增强,CNN,深度学习
Jacques, C., & A. Roebel. (2018). Automatic Drum Transcription with Convolutional Neural Networks. http://arxiv.org/abs/1903.01416.
问题:缺乏标注数据是深度学习中常见的难题;
贡献:使用 CNN 进行鼓点数据增强;调研了其他增强算法;