大三下课程基本信息

2024-02-29

杂项

本文章用来记录课程的基本信息，包括评分标准，考核制度，课程基本内容等…

文化表示与挖掘

三层数据表示与挖掘

计算机视觉

课程大纲

CS131 Computer Vision: Foundations and Applications
CS231A: Computer Vision, From 3D Reconstruction to Recognition
CS 543/ECE 549: Computer Vision
CS 376: Computer Vision

评分标准

平时成绩: 30%(2次作业+出勤)
课程设计: 30%
期末考试: 40%

Why should you take the class?

Become a vision researcher

CVPR conference
ICCV conference

Become a vision engineer in industry

Vision at SenseTime
Vision at MEGVII
Vision at Tencent AI Lab
Perception team at Google AI – Vision at Google Cloud
Vision at Facebook AI

General interest

Overall Philosophy

宽度

计算机视觉是一个巨大的领域
它可以影响生活和社会的方方面面
它将推动下一次信息和人工智能革命
像素在我们的生活和网络空间中无处不在
本课程是一个广泛的概览课程，我们不会涉及
lecture混合了详细的技巧和高级的想法说我们的“语言”

深度

计算机视觉是一个高度技术性的领域，即了解你的数学!
掌握基本技能:人脸识别，角点，线条，
的特性

Roadmap

自然语言处理

课程内容

对NLP技术有一个从源头开始的系统了解和掌握
- 了解当前大模型范式的思路是如何发展来的: 优势和问题
- 了解大模型技术的前置基础技术是如何逐步发展演进的
- 掌握并实践基于大模型范式的NLP关键技术环节
- 大模型范式下的关键技术: 优势、问题、发展
对部分关键基础技术单元的实践掌握
对实际NLP问题进行分析和系统求解的能力
综合应用相关技术进行实际问题求解:
- 技术方法/约束求解
所设计和实现的系统存在的局限性: 技术/工程/伦理/创新

课程内容

基本单元处理
- 获取(词: 词法分析)(大模型基本单元获取)
- 表示(词: 词义分析)(大模型基本单元表示)
从小单元到大单元的组合建模
- 语言模型: 序列方式 (大模型的方式)
- 结构模型: 结构方式
伦理: 偏见 / 社会影响
扩展: 语言-视觉多模态

参考材料

IDaniel Jurafsky and James H. Martin, Speech and LanguageProcessing

课程安排计划

Title	Content	JMbook 3rd 对应(包含或交叉)
1-绪论	CL/NLP定义、进展等	补充PPT
2-单元获取	英语、汉语和通用方案最小编辑距离	Chap2&补充PPT
3-单元表示	符号方法词向量表示	补充PPT
4-语言模型	N元语言模型神经语言模型(FNN/RNN LM)预训练语言模型大规模语言模型	Chap3Chap7&Chap9Chap10&Chap11
5-句法分析	基于成分句法的句法结构分析基于依存语法的依存分析	Chap8&Chap17
6-篇章分析	篇章结构篇章表示	Chap18
7-其他	人机对话NLP伦理挑战多模态发展	补充PPTChap26Chap27Chap15

课程评分

教材阅读 (4x6=24分)

阅读JMBook的其中4章: chap6\7\9\10，在教学云平台上规定的时间点。
阅读报告内容:
- 章节内容综述
- 提出至少1个问题
- 全文至少1页 (A4纸，5号单倍行距编码作业)

编码作业（2 x 16分）

SGNS词向量实现与评估、Transformer序标实现与评估 (2次*16分/次 = 32分

课程参与 (4分)

课堂、课下交流，各种对课程的反馈等参与度

课程大作业 (40分, 3人一组)

从某个研究问题(或应用需求)出发，基于NLP技术进行解决方案的设计和实现
任务需求分析 (5分)
技术方案设计 (10分)
课程作业报告:
- 实现、结果及分析 (25分)

智能信息网络实验

评分标准

出勤： 每节课随机和同学讨论，作为平时成绩一部分（出勤统计）（10分）

每堂课会进行点名，最终成绩中，出勤占10%。

小作业：4选1（30分）

每个人找老师进行单独验收，提交实验报告、代码等，占30%（代码、文档各占50%权重）
每人一组，4-6周小作业汇报
代码文档五五开

小作业-任务1:
从torchvision获取预训练好的图像分类模型，例如AlexNet,VGG，
打印出网络结构
读入几张示例图像，利用预训练好的模型进行图像分类

小作业-任务2:
通过手机或者网络获取几张红色、蓝色、绿色物品的照片，
加载图像，转换为张量
对于每个图像张量，使用mean()函数计算图像各个通道平均亮度
通过平均亮度人工判断出红色、蓝色、绿色图像
用opencv(cv2)和PIL进行图像读取，看看计算出的平均亮度有什么区别

小作业-任务3：
文本蕴含
文本间的推理关系，又称为文本蕴含关系 (Textual Entailment)，作为一种基本的文本间语义联系，广泛存在于自然语言文本中。简单的来说文本蕴含关系描述的是两个文本之间的推理关系，其中一个文本作为前提（premise），另一个文本作为假设（hypothesis），如果根据前提P能够推理得出假设H，那么就说P蕴含H。

小作业-任务 4：
文本相似度
文本相似度旨在识别两段文本在语义上是否相似。文本相似度在自然语言处理领域是一个重要研究方向，同时在信息检索、新闻推荐、智能客服等领域都发挥重要作用，具有很高的商业价值。

大作业：自选（60分）

每个组随堂进行汇报，并提交相关材料（演示PPT，大作业实验报告、代码等），占60%（代码、文档各占50%权重）
1-3人一组
13-16周大作业汇报
代码文档五五开
可以利用AIStudio, CoLab, Kaggle平台的计算资源。

例如AIStudio任务：

[1]行车检测和车道线分
[2]基于图像识别的智慧零售商品识别

自定义任务，例如

[1]单幅图像超分辨（例如VDSR）
[2]单幅图像去噪（例如DNCNN）
[3] 情感分析：情感分析旨在自动识别和提取文本中的倾向、立场、评价、观点等主观信息。它包含各式各样的任务，比如句子级情感分类、评价对象级情感分类、观点抽取、情绪分类等。情感分析是人工智能的重要研究方向，具有很高的学术价值。同时，情感分析在消费决策、舆情分析、个性化推荐等领域均有重要的应用，具有很高的商业价值。
[4] 中文新闻文本标题分类：文本分类是借助计算机对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。本次比赛为新闻标题文本分类，选手需要根据提供的新闻标题文本和类别标签训练一个新闻分类模型，然后对测试集的新闻标题文本进行分类，评价指标上使用Accuracy = 分类正确数量 / 需要分类总数量。

提供工程实现细节：

数据介绍
读取数据过程：代码+打印中间结果
网络搭建过程：代码+打印中间结果
模型训练过程：代码+打印中间结果（各个epoch的训练loss情况）
测试过程：代码+打印结果
打印Model Cost: Flops/Memory/Time(Train/Test)

基本要求

根据指定的实验任务，提出解决方法，在给定的实验数据上进行实验。
对结果进行分析，进而提出有效的解决方法。
最终实验结果和目前的研究现状进行比较。
独立编程、上机调试
文档：Readme，资源，实验报告，源代码（注释）

课程安排

1st - 2nd week 讲解
4th - 6th week 小作业展示（1人）
7th -8th week 选题交流（组员1~3人）
13th - 16th week 大作业展示（小组成员学号、姓名、分工）

语音信息处理

课程组成

语音技术概述 - 探索语音技术的基础和发展历程。
语音产生和感知 - 学习人类如何产生和感知语音。
语音信号分析与特征提取 - 掌握对语音信号进行分析和提取关键特征的方法。
第一次实验 - 通过实践加深对语音信号分析与特征提取的理解。
语音识别 - 学习自动识别和转写语音内容的技术。
说话人识别 - 研究如何通过语音识别特定的说话人。
语音情感识别 - 探索识别和理解说话人情感状态的技术。
第二次实验 - 实践语音识别、说话人识别和语音情感识别技术。
语音合成 - 学习如何合成自然流畅的语音。
语音转换 - 研究如何将一种声音转换为另一种声音。
第三次实验 - 实践语音合成和语音转换技术。
语音增强 - 学习提高语音信号质量的技术。
声源定位 - 探索确定声音来源位置的技术。
大项目实验 - 结合所学知识，完成一个综合性的大项目。

考核方法

平时表现、三个小实验+大作业：总评成绩将由平时表现和实验成绩（40%）以及大作业（60%）构成。

分组大作业考核基本要求

自由分组：需在第3次课前完成分组，每组4-5人，指定一位组长，并在报告中明确每位成员的贡献。
提交材料：
1. 书面报告：一次。
2. 公开演讲：一次。
格式：报告格式应参照一般的论文格式。
提交方式：报告需提前发送至老师邮箱 yli01@bupt.edu.cn，邮件主题格式为“队伍编号+作业主题”。具体提交时间待后续通知。
系统提交：需提交完整的系统，包括数据和源代码。对于体积较大的文件，如预训练模型、数据等，可以上传至百度云，并在报告中附上下载链接。

大三下课程基本信息

目录

文化表示与挖掘

计算机视觉

课程大纲

评分标准

Why should you take the class?

Overall Philosophy

Roadmap

自然语言处理

课程内容

课程内容

参考材料

相关资源

课程安排计划

课程评分

智能信息网络实验

评分标准

基本要求

课程安排

语音信息处理

课程组成

考核方法

分组大作业考核基本要求