这是用户在 2025-4-6 23:10 为 https://app.immersivetranslate.com/html/ 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

ML week5.2 2025.04.03 Thu PM 1:02 ・ 101Minutes 14seconds ZHANG YIWEN
ML 第 5.2 周 2025.04.03 周四 下午 1:02 ・ 101 分钟 14 秒 张一文

Attendees 1 00:08 그럼 다음과 같이 뜨겠죠. 그럼 이제 여기서 학습시킨 이제 lr을 가지고 한번 그래프를 그려볼 겁니다. 여기서 이제 생성한 이 플라디시 리젠스 함수 같은 경우에는 밑에서 계속 사용이 될 거기 때문에 방금 이제 제가 진행을 하고 만약에 돌아가지 않으면 꼭 다른 조교분들한테 말씀드려가지고 틀린 부분 수정하시길 바랍니다. 여기서 보시면 이제 마커랑 컬러를 지정을 하고요. 여기서 보시면 시맵 같은 경우에는 이제 y의 타겟 유니 개수가 몇 개인지에 따라서 이제 범위를 지정하게 됩니다. 그리고 이제 저희가 사용할 x 데이터가 피처가 2개니까 x1이랑 x2에 대해서 각각 이제 표면을 만들겠죠.
参与者 1 00:08 那么接下来会是这样的。那么现在我们将使用在这里训练的逻辑回归来绘制图形。这里生成的这个伪随机数生成函数以后会继续使用,所以刚才我做的,如果无法运行,请务必告诉其他助教并修正错误部分。在这里你可以看到,现在指定标记和颜色。这里你可以看到,色彩映射表根据目标的唯一值个数来确定范围。而我们要使用的 x 数据有 2 个特征,所以我们将为 x1 和 x2 分别创建表面。

Attendees 1 01:03 그리고 이다음부터는 이제 여기다 클래시 파이어 그러니까 여기서 보시는 함수 같은 경우에 받아야 되는 인풋 값이 총 4개인데 x랑 y랑 그리고 클래시 파이어 분류기죠. 그래서 지금 이제 정의를 하고 나서 이 클래시 파이어는 저희가 사용하는 이제 모델마다 바뀌게 될 예정입니다. 그래서 이 부분이 여기로 들어가게 되겠죠. 그래서 이 분류기에 의해서 이제 예측된 값들이 이제 제트로 들어가고 이제 쉐입을 다시 변환한 다음에 이제 그래프로 그려지게 됩니다.
与会者 1 01:03 接下来,在这里,对于您所看到的这个函数,需要接收的输入值总共有 4 个,分别是 x、y 和分类器。因此,现在定义后,这个分类器将根据我们使用的不同模型而改变。所以这部分将进入这里。然后,通过这个分类器预测的值将进入 jet,然后重新转换形状,最后绘制成图形。

Attendees 1 01:41 그래서 아까 말씀드렸던 것처럼 이렇게 4개 있는 이 데이터셋을 로지스틱 회기로 한번 분류를 해보면 위에서 방금 말씀드렸던 이 함수를 사용을 할 거고 이 안에다가 저희가 학습했던 학습할 값들을 넣어주면 됩니다. 우선 사용할 데이터셋이니까 x를 먼저 넣겠죠. x 3을 넣고 y 트레인을 놓고 그리고 아까 분류기를 계속해서 지정을 해준다고 했으니까 클래시 파일을 지정을 해줘야 되는데 위에서 사용했던 lr을 사용을 해보겠습니다. 이렇게 하고 지금 다 라벨 값을 지정을 하고 법내 어디 있는지 하고 그리면 이렇게
与会者 1 01:41 正如我之前所说,对于这 4 个数据集,我们将使用逻辑回归进行分类。将使用刚才提到的这个函数,并将我们学习过的值放入其中。首先,由于这是我们要使用的数据集,我们先放入 x。放入 x3,然后放入 y 训练,并且如前所述,我们需要继续指定分类器,所以要指定分类文件。这里我们将使用之前使用过的 lr。这样做后,现在已经指定了所有标签值的位置。

Attendees 1 02:33 지금 보시면 각 영역이 잘 나누어진 걸 확인할 수가 있습니다.
现在您可以看到各个区域已经很好地划分开了。

Attendees 1 02:43 방금 여기 부분 있었죠
刚才这部分就在这里。

Attendees 1 02:53 그리고 이거 제출하실 때 모르시는 것 같은데 실습 시간에 진행된 코드도 점수에 들어가거든요. 그래서 이 부분도 채워 가지고 제출해 주셔야 됩니다.
参会者 1 02:53 而且当您提交时,似乎不太了解,实习时进行的代码也会计入分数。所以这部分也请填写后提交。

Attendees 1 03:09 그다음에 방금까지 이제 저번 시간에 했던 로지스틱 회기를 복습을 했으니까 이번 시간에 진행할 이제 이진 트리를 살펴볼게요. 지금 보시면 이제 디시전 트리 같은 경우에는 다음과 같이 보통 생겨져 있죠. 그래서 디시전 트리 같은 경우에는 처음에 이제 모든 학습 예제가 그러니까 데이터셋이 이 루트에 위치를 한다고 가정을 합니다. 그다음에 이제 저희가 사용하는 그런 통계적인 방법에 따라서 이제 피처가 선택이 되고요. 그다음에 이제 이게 장필들은 선택된 이제 특성에 따라서 이제 분할되는 것을 분할되는 그런 모델입니다. 그래서 어떻게 분할 포인트를 찾느냐 하면은 보통 이제 인접한 그런 데이터셋들의 중앙값을 사용을 해가지고 분류를 하게 되어 있어요. 그래서 여기서 보시면 1이랑 2의 중앙값 그러니까 리드 포인트 같은 경우에는 1.5고 4랑 6.5의 위드 포인트 같은 경우는 5.25니까 이런 지점들을 선정을 해가지고 분류를 하게 됩니다.
参会者 1 03:09 接下来,我们刚才已经复习了上一次课的逻辑回归,这次课我们将看看二叉树。现在您看,决策树通常是这样的。决策树首先假设所有学习示例,也就是数据集,都位于根节点。然后根据我们使用的统计方法,选择特征,然后根据选定的特征进行分割。那么如何找到分割点呢?通常是使用相邻数据集的中值来进行分类。所以在这里,1 和 2 的中值点是 1.5,4 和 6.5 的中值点是 5.25,就是这样选择分类点的。

Attendees 1 04:22 그리고 이 의사결정 나무 같은 경우에는 역시나 사이킬런에 있는데요. 저희는 사이킬런에서 불러와 가지고 한번 사용을 해보겠습니다. 그래서 이렇게 해서 인포트를 해오고요. 그리고 이제 트리를 생성을 해줘야겠죠. 똑같이 디시전 트리를 가져와 줍니다. 이번엔 파라미터를 아무것도 넣지 않고 그냥 객체를 생성하게 되겠죠. 그리고 이 생성한 객체를 가지고 또 위에서 있었던 그 4개의 데이터셋을 학습을 시켜야겠죠. 그러면 2 25 익스프레인이랑 그런 트레인을 넣어줍니다. 이렇게 하시면 이렇게 해서 실행을 해 주시면 지금 의사결정 나무 분류기를 이제 객체를 생성을 했고 그 생성한 기체를 저희가 주어진 학습 데이터로 학습을 시킨 거죠. 그러면 이제 트리가 학습이 됐을 테니까 그걸 그래프로 다음과 같이 이제 분류되는 걸 확인을 해볼 건데요. 그러면 이제 사이클론에서 제공하는 이 플라트리라는 라이브러리가 있습니다. 얘를 인포트 해준 다음에 사용을 해볼게요.
与会者 1 04:22 对于这个决策树,它确实是在 scikit-learn 中。我们将从 scikit-learn 中导入并使用它。因此,我们这样导入,然后创建树。同样,我们引入决策树。这次我们不会添加任何参数,只是创建对象。然后用这个创建的对象对之前的 4 个数据集进行学习。那么我们将放入解释和训练。这样执行后,我们就创建了决策树分类器对象,并用给定的学习数据对其进行了训练。既然树已经学习完毕,我们将通过图形来确认其分类情况。为此,我们将使用 scikit-learn 提供的 plotree 库,先导入它,然后使用。

Attendees 1 05:38 단순하게 트리를 플롯 할 거니까 플롯 트리를 하고 저희가 위에서 생성해 줬던 요 객체를 넣어주면 됩니다. 이렇게 해서 실행을 하게 되면 다음과 같이 제 게 좀 크게 뜨거든요. 다음과 같이 이제 분류되는 걸 확인할 수가 있죠. 이렇게 되면은 이제 다 그냥 검은색이랑 흰색만 입고 보기가 어려우니까 조금 더 잘 구분할 수 있는 걸 생각을 해 방법을 찾아보겠습니다. 그러면 이제 이렇게 색깔을 입히는 그런 플렛을 해볼 건데 여기서 보시면 얘는 이제 그래프의 사이즈를 지정하는 그런 함수예요. 그래서 지금 너비 같은 경우는 5로 하고 높이는 6으로 설정을 한 거고요. 이제 피처 네임 같은 경우에는 a b로 설정을 할 거고 이제 클래스 네임 같은 경우는 굿이랑 베드로 설정을 할 겁니다. 이것들을 반영해가지고 이번엔 플라트리를 다시 그려볼 수가 있어요. 플라트리를 그려볼 건데 이제 아까 위에서 생성했던 그 트리를 넣고 저희가 위에서 만들어줬던 요 정리해 줬던 것들을 넣어주면 됩니다.
与会者 1 05:38 只是为了绘制树,所以使用 plot tree,并放入我们之前创建的对象即可。执行后,它会显示得很大。这样我们就可以看到分类情况。由于现在都是黑白颜色,不太容易区分,我们将找找方法使其更容易区分。我们将尝试给图形上色。在这里,你可以看到这是用于设置图形大小的函数。现在将宽度设置为 5,高度设置为 6。特征名称将设置为 a 和 b,类名将设置为好和坏。结合这些,我们可以重新绘制 plotree。绘制 plotree 时,放入之前创建的树和我们之前整理的参数即可。

Attendees 1 06:57 피처 네임스 같은 경우에는 f 네임스로 정의를 했었죠. 그리고 클래스 네임도 c 네임이라고 신장을 했었습니다.
对于特征名称,我们之前定义为 f 名称。对于类名,我们也进行了声明。

Attendees 1 07:18 글자 크기까지 지정해서 실행을 해주면 안에 있던 거는 이제 위에 거랑 비슷한데 저희가 설정한 대로 지금 여기는 a가 됐고 클래스는 9이라고 분류가 되었죠. 아까 위에서는 이제 x 0 a 대신에 x 0이 있었고 그리고 이제 클래스 이름이 딱히 있진 않았었는데 지금은 이제 클래스가 생긴 거죠.
如果指定了字符大小并执行,里面的内容现在与上面的内容类似,但根据我们的设置,这里 a 已经成为了类,分类为 9。之前在上面,x 0 的位置是 x 0 a,而且当时并没有明确的类名,但现在类已经出现了。

Attendees 1 07:50 이렇게 해서 실행을 하게 됩니다.
参会者 1 07:50 就这样执行。

Attendees 1 07:56 그리고 이번에는 이렇게 트리를 직접 보는 게 아니고 이 트리 모델을 사용을 해가지고 처음에 정의했었던 이제 4개의 데이터셋을 구분을 해 줄 겁니다. 그러면 이 안에 똑같이 이제 스랑 와랑 그리고 저희가 사용할 클래식 파이어가 뭔지 정의를 해 주면 되겠죠. 똑같이 스트레인 넣고 와 트레인을 넣고 플래시 파이어를 지정을 해주면 되는데 트리 모델을 지정을 해 줄게요. 그리고 실행을 하게 되면은 다음과 같이 분류가 된 걸 확인할 수가 있습니다.
参会者 1 07:56 这次我们不是直接查看树,而是使用这个树模型来区分最初定义的 4 个数据集。那么,同样地,我们需要定义 SL 和 WL,以及我们将使用的分类器是什么。同样地,放入训练集,放入测试集,指定分类器。然后当执行时,我们可以确认已经完成了分类。

Attendees 1 08:45 그리고 지금까지는 이제 저희가 처음에 만들었던 데이터셋을 가지고 학습을 시키고 검증을 해봤는데 이번에는 사이클론에서 제공하는 아이리스 데이터셋으로 진행을 해보겠습니다. 예전에 했던 것처럼 이제 데이터셋을 임포트하고 그리고 아이리스 데이터를 불러와서 IDC 변수에 넣어줍니다. 근데 여기서 조건이 이제 두 번째 피처랑 세 번째 피처만 사용을 한다고 했죠. 그러면 동일하게 IBS 데이터에서
参会者 1 08:45 到现在为止,我们已经使用最初创建的数据集进行了学习和验证,这次我们将使用 Scikit-learn 提供的鸢尾花数据集。像以前一样,导入数据集并将鸢尾花数据加载到 IDC 变量中。这里的条件是只使用第二个和第三个特征。那么同样,从 IBS 数据中

Attendees 1 09:19 은행을 가져오는데 이제 칼럼 조건만 지정을 해주면 되겠죠. 두 번째랑 세 번째 그리고 y는 타겟이니까 아이리스에서 타깃 데이터를 가져오면 됩니다.
参会者 1 09:19 获取数据,只需指定列条件即可。第二个和第三个特征,然后 y 是目标,所以从鸢尾花数据集中获取目标数据就可以了。

Attendees 1 09:33 이렇게 해서 실행을 해보면 클래스 라벨이 이제 0이랑 1이랑 2 이렇게 세 가지가 있죠.
当我们这样执行时,类标签现在有三种:0、1 和 2。

Attendees 1 09:48 그다음에 이제 불러온 데이터셋을 가지고 이제 트레이닝을 하기 전에 트레이닝 데이터랑 테스트 데이터를 분류를 해 줄 겁니다. 이것도 사이클론에서 제공하는 트레인 테스트 스크릿을 사용을 할 거예요.
接下来,在训练数据之前,我们将把导入的数据集分为训练数据和测试数据。我们将使用 Cyclone 提供的 train-test 分割功能。

Attendees 1 10:06 저번에 했던 것처럼 트레인 테스트 스플릿을 하고 데이터를 넣어주면 되겠죠. x랑 y를 넣어주고 그리고 테스트 사이즈는 0.3이라고 지정을 해줬으니까 테스트 사이즈는 0.3을 넣어주고 계속 돌릴 때 이제 동일한 이제 분할이 되도록 랜덤 스테이트를 지정을 해주고 1로 할게요. 그리고 타겟 비율을 고정을 해주면 되겠죠.
就像上次一样,进行训练测试分割,然后放入数据。放入 x 和 y,测试大小设为 0.3,然后在每次运行时,为了使分割保持一致,将随机状态设置为 1。然后固定目标比例即可。

Attendees 1 10:41 이렇게 하면 이제 x랑 y랑 7 대 3으로 분류가 돼서 각각 4개의 분수 안으로 들어가겠죠. 그리고 이렇게 생성된 쉐입을 확인을 해보면 다음과 같이 나눈 걸 확인할 수가 있습니다.
这样 x 和 y 就会按 7 比 3 的比例分类,每个部分都会包含 4 个分数。通过检查生成的形状,可以确认分割情况。

Attendees 1 11:07 지금 여기서 보시면 이제 원래 아이디스 데이터가 150개였으니까 15개랑 45개로 나눠져 있고 그리고 스 피처를 저희가 2개만 사용을 했으니까 2인 걸 확인할 수가 있죠. 그럼 이렇게 분류된 데이터를 이제 그래프로 한번 확인을 또 해볼 건데 다음과 같이 이제 3정도 그래프를 사용을 하겠죠. 여기도 지금 클래스가 0이랑 1이랑 2인데 다음과 같이 나뉘고요. 여기에서 보시면 가 와 트레인이 1일 때 그리고 와 트레인이 2일 때가 있죠. 그럼 이 자리에는 빨간색은 와 트레인이 0일 때겠죠. 그대로 작성을 해 주시면 됩니다. 스트레인을 가져올 건데 이 조건이 와이 트레인의 타깃 값이 0인 경우를 가져오겠죠. 그리고 컬러는 다 가져옵니다.
参会者 1 11:07 现在你们可以看到,原本的 IDIS 数据是 150 个,分为 15 个和 45 个,并且我们只使用了 2 个特征,所以可以确认是 2 个。那么,我们将把这些分类的数据绘制成图表,接下来我们将使用 3 级图表。这里的类别是 0、1 和 2,并且按照这种方式分布。从这里可以看出,当 W 训练为 1 时,以及当 W 训练为 2 时。那么这里的红色将是 W 训练为 0 的情况。你们可以直接按照这样写。我们将获取训练集,条件是 Y 训练的目标值为 0,并且获取所有颜色。

Attendees 1 12:08 그리고 이번에는 똑같이 y 트레인이 0이어야 하는데 두 번째 피처겠죠. 그러니까
参会者 1 12:08 这次同样是 Y 训练必须为 0,但是是第二个特征。也就是说

Attendees 1 12:23 이렇게 해서 실행을 하게 되면은 아까랑 동일한 그래프가 보이는 걸 확인할 수가 있죠. 이렇게 빨간색이랑 파란색이랑 연두색이랑 3개의 클래스로 있는 걸 확인할 수가 있습니다. 얘를 이제 어떻게 분류를 할 거냐면 이제 분류를 진행을 하기 전에 수업 시간에 배웠었던 이제 엔트로피랑 이제 진위 불순도를 가지고 분류를 하겠죠. 일단 여기서 이제 엔트로피 같은 경우에는 엔트로피랑 여기 둘 다에서 이제 PI 같은 경우에는 이제 전체 샘플이 이제 아라는 클래스에 속할 확률이죠. 그래서 클래스 i가 차지하는 비율 비율이라고 생각을 해 주시면 됩니다. 그래서 얘가 이제 1에 가까우면은 이제 한 클래스가 차지하는 비율이 많은 거기 때문에 조금 더 순수함에 가깝다고 볼 수가 있고 이제 피가 서로 비슷하게 되면은 이제 여러 클래스가 많이 섞인 거니까 이제 불순도가 높아진다고 할 수 있겠죠. 그래서 이제 왼쪽이 엔트로피인데 여기서는 이제 이 같은 경우는 이제 혼합도 불확실성을 수치로 표현한 값이죠.
当执行这个操作时,您可以确认会看到与之前相同的图形。可以看到红色、蓝色和浅绿色三种类别。在进行分类之前,我们将像在课堂上学习的那样,使用熵和不纯度来进行分类。首先,对于熵,在这里 pi 是指属于类别 i 的总样本的概率。因此,可以理解为类别 i 所占的比例。如果 pi 接近 1,则意味着某个类别所占比例较高,可以认为它更加纯净。如果 pi 彼此相似,则意味着多个类别混合在一起,不纯度就会很高。左侧的熵是用来表示混合度和不确定性的数值。

Attendees 1 13:32 그리고 오른쪽은 이제 진위 개수를 계산을 하는 건데 여기도 이제 p가 0.5 그러니까 이제 클래스가 가장 많이 섞였을 때 이제 최대값을 가지고 가장 불순도가 높다고 봐주시면 됩니다. 그래서 이제 저희는 이거를 수식으로 표현된 이 값들을 이제 코드로 표현을 할 건데 여기서 코드를 작성을 해 주시면 됩니다. 여기서 보시면 이제 조건이 엔트로피를 계산할 때 이제 클래스가 1인 확률을 p라고 설정을 한다고 했죠. 그러면 클래스가 0일 확률은 1 마이너스 p로 해 주시면 됩니다. 위에 있는 이 함수를 그대로 가져와 볼게요. 그러면 지금 보시면 먼저 이제 클래스가 1일 때를 계산을 해보면 이제 마이너스를 편의상 앞에 붙일게요. 우리 피고 이는 p p겠죠. 여기에서 이제 PI가 i가 1일 때 그 값을 이제 p로 지정을 하기 때문에 그대로 여기에 가져와 주신 걸 확인할 수가 있습니다. 그리고 이번엔 클래스가 0일 때도 정리를 해서 더해줘야겠죠.
右侧是计算不纯度的数量,当 p 为 0.5 时,意味着类别最混合,此时具有最大值,可以认为不纯度最高。现在我们将用代码表达这些用公式表达的值。在计算熵时,如果将类别 1 的概率设为 p,那么类别 0 的概率就是 1 减去 p。我们将直接使用上面的函数。首先计算类别为 1 时的情况,为了方便,我们在前面加上负号。这里的 pi 是 1 时,值就是 p。因为 pi 为 i=1 时指定为 p,所以可以直接带入。然后我们还需要对类别为 0 的情况进行整理并相加。

Attendees 1 14:47 그러면 클래스가 0일 때 1 마이너스 피로 한다고 했으니까 1 마이너스 피로 하고 이 자리에도 1 마이너스 p를 넣어주면 되겠죠.
与会者 1 14:47 那么当类别为 0 时,1 减去疲劳,所以 1 减去疲劳,在这里也放入 1 减去 p 吧。

Attendees 1 15:06 그러면 진일 계산할 때도 동일하게 사용을 하면 되겠죠. 이번에는 편의점 이걸 가져와서 진행을 해볼게요. 그럼 똑같이 이제 클래스가 1일 때 피를 넣어주고
与会者 1 15:06 那么在计算真实值时也同样使用,这次我将带来便利店的这个并进行。那么同样地,现在在类别为 1 时放入疲劳。

Attendees 1 15:25 클래스가 0일 때니까 1 마이너스 p를 해주면 되겠죠.
当类别为 0 时,需要做 1 减去 p 的操作。

Attendees 1 15:32 지금 여기서 보시면 p 자리에 1 마이너스 p가 들어왔으니까 또 이 p 자리에 1 마이너스 p를 넣어주면 되겠죠. 그러면 1에서 1 마이너스 p를 한 번 더 빼줍니다. 이렇게 계산을 하면은 각각 엔트로피랑 지니가 계산이 되겠죠. 그러면 이때 값들을 이제 그래프에 표현을 하게 되면은 피는 이제 0.01부터 0.99까지 그러니까 x축으로 나타낼 수가 있고 지금 여기서 보시면 두 개의 그래프는 각각 이제 엔트로피랑 진위가 얼마나 되는지를 표현하는 그런 플라이겠죠. 그래서 실행을 해봅니다. 잠시만요.
现在如果你看,p 的位置已经被 1 减去 p 替代,那么在 p 的位置再放入 1 减去 p。然后从 1 中再减去 1 减去 p。这样计算的话,就可以分别计算熵和基尼系数。这时如果将这些值绘制在图表上,p 可以从 0.01 到 0.99,作为 x 轴表示。从这里可以看出,这两个图分别表示熵和基尼系数的大小。所以我们来执行看看。请稍等。

Attendees 1 16:35 실행을 하면 이렇게 엔트로피랑 지니가 이제 다음과 같이 나타낸 걸 확인할 수가 있죠. 그래서 둘 다 이제 p의 확률이 이제 0.5일 때 가장 높은 걸 확인할 수가 있습니다. 이때는 이제 클래스 특정 클래스가 될 확률이 둘이 같은 거기 때문에 이제 많이 불순도가 높다고 볼 수가 있는 겁니다. 그럼 2월 잠시만요. 여기 방금 했었죠
当参与者 1 在 16:35 执行时,可以看到熵和基尼指数是这样呈现的。当 p 的概率为 0.5 时,可以看到它们都达到最高。在这种情况下,特定类别的概率相同,因此可以认为不纯度很高。那么,等一下。

Attendees 1 17:22 그러면 방금 확인한 이제 진이랑 엔트로피를 가지고 이제 디시전 트리를 학습을 할 수가 있는데 우선 여기서 보시면 지니를 활용을 해가지고 이제 디시전 트리를 학습시켜라라고 되어 있죠. 그대로 해주겠습니다. 일단 새로운 디시전 트리를 만들어야 되니까 다시 객체를 생성해 줄게요.
接下来,我们可以利用刚才确认的基尼指数和熵来学习决策树。首先,正如你所看到的,我们将使用基尼指数来学习决策树。我们将原样执行。首先,因为需要创建一个新的决策树,所以我将重新创建对象。

Attendees 1 17:48 근데 이제 조건이 있는 거죠.
与会者 1 17:48 现在有一些条件。

Attendees 1 18:00 여기서 보시면 이제 계속 실행할 때마다 동일한 결과를 나타내기 위해서 랜덤 스테이트를 또 지정을 해줬고요. 그리고 이제 분할 기준을 진일하고 저희가 명시를 해줬습니다. 그러면 이렇게 조건에 맞는 디시전 트레이 분류기가 이제 객체가 생성이 되었으니까 걔를 다시 학습을 시켜볼게요. 여기서 데이터는 이제 위에서 분할했던 엑스트레인이랑 와이 트레인 데이터셋이겠죠. 이렇게 넣어서 실행을 시켜줍니다.
与会者 1 18:00 从这里可以看出,为了每次执行时都能得到相同的结果,我们再次指定了随机状态。然后,我们明确了分割标准。这样就创建了一个符合条件的决策树分类器对象,现在我们将重新对其进行训练。这里的数据是之前分割的 X 训练集和 Y 训练集。这样执行。

Attendees 1 18:38 그러면 이제 분할 기준이 지인 그런 디시전 트레이 분류기가 이제 학습이 되는 거겠죠. 그러면 걔를 이제 또 그래프로 확인을 해보겠습니다.
那么现在分割标准就是决策树分类器已经学习完成了。那么接下来我们将通过图形来确认它。

Attendees 1 18:53 똑같이 플록 디시전 바운더리 함수를 사용을 할 건데
同样,我们将使用绘制决策边界的函数

Attendees 1 19:03 스랑 y를 넣어주고 분류기를 지정을 해 주면 되겠죠.
在放入 y 并指定分类器后就可以了。

Attendees 1 19:34 그러면 아래처럼 분류된 걸 확인할 수가 있습니다.
这样就可以确认分类的结果了。

Attendees 1 19:46 지금 보시면 그 데이터셋에 약간 핏하게 분류가 돼가지고 이렇게 약간 튀어나와 있는 경계가 있는 걸 확인할 수가 있죠.
如果您现在观察,可以看到数据集已经相当精确地分类,并且有一些突出的边界。

Attendees 1 20:04 이렇게 그래프로 확인을 해봤으니까 이번에는 그 트리 모델을 다음과 같은 플라트리 라이브러리를 사용을 해가지고 어느 기준으로 분류가 됐는지 확인할 수 있습니다.
既然我们已经通过图表进行了确认,接下来可以使用如 Plotly 这样的库来查看树模型是根据什么标准进行分类的。

Attendees 1 20:19 여기서 보시면 이제 피규어 사이즈를 텐바이텐으로 지정을 해줬고 그래프를 그리면 되겠죠. 위에 위에서 학습했던 트리 분류기를 가져오고 그리고 여기서 보면 이제 아이리스의 피처 네임스랑 아이리스의 타겟 네임스를 사용하라고 되어 있어요. 그럼 그대로 넣어주면 됩니다.
从这里可以看到,现在已经将图形尺寸设置为 10x10,然后绘制图表即可。将之前学习过的树分类器带过来,并且从这里可以看到,使用鸢尾花的特征名称和目标名称。那么就直接放进去就可以了。

Attendees 1 20:49 피처 네임스 같은 경우에는 아이스 있는 네임스를 사용을 하고 클래스 네임 같은 경우에는 얘가 타겟 네임이죠. 아이리스의 타깃 네임을 사용하면 됩니다.
对于特征名称,使用鸢尾花现有的名称,而对于类名,它就是目标名称。使用鸢尾花的目标名称就可以了。

Attendees 1 21:12 여기도 폰트 사이즈는 10일로 지정을 해줬어요.
与会者 1 21:12 这里字体大小也设置为 10。

Attendees 1 21:19 이렇게 하면 한 번 해 보죠.
与会者 1 21:19 这样我们就试一试。

Attendees 1 21:28 이렇게 해서 실행을 해 주면 지금 보시면 이 수위가 분할되는 게 진이 값이 작아지는 그런 방향으로 분할이 된다는 걸 확인할 수가 있습니다. 그래서 여기서 보시면 원래 이제 0.667이었는데 이제 분류가 되면은 왼쪽 트리에는 지니가 0이 되고 오른쪽엔 0.5 남죠. 그리고 다시 이게 분류가 되면은 진희가 0 또 0.12고 그렇게 해서 최종적으로 이제 지니가 다 0인 방향으로 분류가 됩니다.
如果这样执行,你会看到分割的水平会朝着基尼值变小的方向进行分割。从这里可以看出,原本是 0.667,分类后左子树的基尼值变为 0,右子树剩余 0.5。再次分类后,基尼值又变为 0 和 0.12,最终基尼值会朝着全部为 0 的方向进行分类。

Attendees 1 22:15 그리고 방금 학습시켰던 이제 트리 모델의 정확도를 평가를 해보면 사이클론에서 제공하는 스코어 함수를 사용을 하면 되겠죠. 1 스코어 그리고 안에 x 값이랑 y 값을 넣어주면 됩니다.
接下来,评估刚才学习的树模型的准确性,可以使用 sklearn 提供的评分函数。使用 score 函数,并在其中输入 x 值和 y 值即可。

Attendees 1 22:39 위에는 이제 체인 어큐러시고 아래는 테스트 어큐러시니까 데이터셋도 다르게 넣어주면 되겠죠.
上面是链接准确性,下面是测试准确性,所以可以使用不同的数据集。

Attendees 1 22:50 이렇게 해서 실행을 하게 되면은 이제 트레인 어큐러시가 조금 더 높은 걸 확인할 수가 있습니다.
执行后,您可以看到训练准确性稍微更高。

Attendees 1 23:05 그리고 이번에 첫 번째 데이터셋 그러니까 첫 번째 처음에 5개의 테스트 데이터셋에 대해서 이제 클래스를 잘 분류하는지 조금 더 시각적으로 확인을 해볼 건데 그때는 이제 트리의 프리딕트 함수를 사용을 하면 되겠죠.
参会者 1 23:05 这次将对第一个数据集,也就是最初的 5 个测试数据集,以更加直观的方式来检查分类效果。届时可以使用决策树的预测函数。

Attendees 1 23:23 이렇게 하면은 이제 x 테스트에 대해서 이제 프리딕트 값이 그러니까 y h 값이 다 여기에 저장이 됩니다. 그중에서 이제 처음에 5개만 가지고 와서 확인을 해볼게요. 여기서 보시면 이제 y 같은 경우에는 이제 2 00 2 1 이렇게 되어 있는데 이제 프리딕트 라벨 그러니까 y 값은 네 번째 데이터가 1인 걸 확인할 수가 있습니다. 위에서 정확도가 이제 100 1이 아니었기 때문에 이렇게 조금씩은 다른 걸 확인할 수가 있습니다.
参会者 1 23:23 这样的话,对于 x 测试集,预测值,也就是 y h 值都将被存储在这里。现在我们取前 5 个来确认。在这里,我们可以看到 y 是 2 00 2 1,预测标签,也就是 y 值,可以确认第四个数据是 1。由于之前的准确率并非 100%,所以可以看到有一些微小的差异。

Attendees 1 24:00 그리고 디시전 트리를 이제 생성을 하실 때 여러 개의 이제 파라미터를 사용을 해가지고 저희가 원하는 트리를 구축을 할 수가 있는데요. 여기서 보시면 이번에는 이제 트리의 깊이를 2로 제한을 해서 학습을 하게 됩니다. 여기서 보시면 이제 새로운 이제 디시전 트리를 객체를 만들어주고요.
当我们创建决策树时,可以使用多个参数来构建我们想要的树。在这里,我们将树的深度限制为 2 来进行学习。在这里,我们创建了一个新的决策树对象。

Attendees 1 24:32 똑같이 분류 기준은 진위로 해주고 깊이를 제한합니다. 이렇게 되면은 가장 깊이 분류를 해도 최대 이제 2까지만 분류가 되겠죠. 그리고 또 랜덤 스테이트는 1로 지정을 합니다.
同样,分类标准为真假,并限制深度。这样,分类的最大深度将仅为 2。同时,随机状态设置为 1。

Attendees 1 25:00 그리고 이 생성한 객체를 이제 다시 학습을 시켜주겠죠. 똑같이 스트레인이랑 y 트레인을 넣어줍니다. 이렇게 해서 실행을 해주면 여기 조건이 보이죠.
第 1 位参与者 25:00 然后对这个创建的对象进行再次学习。同样地,我们将放入训练特征和训练标签。这样执行后,你会看到这里的条件。

Attendees 1 25:19 이제 이제 위에 데이터 위에 분류기랑 이제 다른 점은 깊이 파라미터가 추가됐다는 점인데요. 이것도 이제 그래프로 확인을 해보겠습니다. 이번엔 이제 7 3으로 그래프의 사이즈를 조정을 하고 똑같이 나타내볼게요. 얘를 또 실행을 해 주면 이제 위에서 저희가 봤던 그런 트리 그래프랑은 좀 다른 점이 보이시죠? 위에는 0이 될 때까지 계속 분할을 했기 때문에 깊이가 지금 깊죠. 깊이가 6까지 있는데 지금 아래서 저희가 깊이를 2까지로 제한을 했으니까 최대 깊이가 2인 것을 확인할 수가 있습니다. 그래서 여기 보시면 약간 섞여 있는 걸 볼 수가 있어요. 그러면 이렇게 이제 분 학습을 한 분류기를 또 확인을 해보면 동일하게 넣어주면 됩니다.
第 1 位参与者 25:19 现在,与之前的数据和分类器的不同之处在于添加了深度参数。我们将通过图形来确认这一点。这次我们将图形大小调整为 7:3,并以相同的方式展示。执行后,你会发现与之前我们看到的决策树图有些不同。之前是一直分割直到 0,所以深度很深。现在深度是 6,但我们将最大深度限制为 2,因此可以确认最大深度为 2。你会看到这里有些混合。然后,我们可以像之前一样检查这个已训练的分类器,只需放入相同的数据。

Attendees 1 26:30 또 스트레인이랑 와이 트레인을 넣어주고 이제 저희가 조건을 넣어서 새로 생성한 트리 모델을 넣어주면 되겠죠. 이렇게 해서 실행을 시켜주면 다음 아래와 같은 그래프를 확인할 수가 있습니다.
与会者 1 26:30 再将应变和 Y 训练加入,现在我们可以添加条件并将新生成的树模型放入。这样执行后,可以看到如下图表。

Attendees 1 26:52 지금 보시면 아까 저희가 이제 깊이를 제한하지 않았을 때는 이제 파란색 데이터까지 완벽하게 분류를 해가지고 이제 분류 경계가 이렇게 되어 있었어 되어 있었었죠. 근데 지금은 이제 저희가 깊이를 제한을 해가지고 완벽하게 분류가 되지 않다 보니까 분류 경계가 조금 더 이제 부드러워진 걸 확인할 수가 있습니다.
与会者 1 26:52 现在可以看到,之前我们没有限制深度时,蓝色数据已经完美分类,分类边界就是这样的。但现在我们限制了深度,因为无法完美分类,所以分类边界变得更加平滑了。

Attendees 1 27:18 그리고 요 모델에 대해서 이제 어큐러시를 또 확인을 해보면 아까는 이제 트레인 어큐러시가 0.97이었고 이제 테스트 어큐러시가 트레인 어큐러시가 0.99였고 테스트 어큐러시가 0.97이었는데 지금은 약간 둘 다 0.95로 감소한 걸 확인할 수가 있죠. 이렇게 되면 정확도가 낮아지는 게 아니냐 그러니까 어큐러시가 낮아지는 게 아니냐 할 수도 있는데 이게 많은 데이터셋에 대해서는 조금 더 일반화를 그러니까 일반화가 되도록 학습을 했다고 보실 수가 있습니다. 그리고 지금까지는 이제 트리 모델 하나만 저희가 만들어 가지고 계속 사용을 했었는데 랜덤 포레스트 같은 경우에는 이제 여러 개의 이제 결정 트리를 만든 다음에 이제 각 트의 예측 결과를 여기서 보시면 보팅이라고 하죠. 이제 투표를 해가지고 최종 예측을 내리는 그런 앙상블 모델입니다. 얘도 이제 사이클론에서 제공을 하기 때문에 저희가 한번 사용을 해볼게요.
与会者 1 27:18 然后如果我们检查这个模型的准确性,之前训练准确率是 0.97,测试准确率是 0.99,而现在两者都降到了 0.95。这可能会让人觉得准确率是否降低了,但对于大多数数据集来说,这实际上意味着模型更加泛化。到目前为止,我们一直使用的是单个决策树模型,而随机森林是通过创建多个决策树,然后通过投票方式做出最终预测的一种集成模型。由于 scikit-learn 提供了这个功能,我们来尝试使用一下。

Attendees 1 28:31 여기서 보시면 이제 조건이 이제 트리의 깊이는 2로 되어 있죠. 그러면
与会者 1 28:31 在这里,你可以看到树的深度被设置为 2。

Attendees 1 28:46 그전에 이제
与会者 1 28:46 在此之前现在

Attendees 1 28:55 분할 기준을 지니고 잡아주고 그리고 여기서 보시면 이제 100개의 디시전 틀이라고 되어 있어요. 그러면은 저희가
与会者 1 28:55 拥有分割标准并捕捉,然后在这里您可以看到现在有 100 个决策框架。那么我们

Attendees 1 29:09 트리 100개를 생성해 준다고 명시해 주면 됩니다. 그리고 깊이는 이와 같고 그다음에
如果指定生成 100 个树,深度如此,然后

Attendees 1 29:23 엑스 피처를 이제 저희가 제안을 해 줄 건데
接下来我们将建议 X 特征

Attendees 1 29:33 이렇게 하시면 이제 아까 방금 말씀드렸던 것처럼 깊이는 2로 제한이 되고 또 저희가 생성할 수 있는 트리가 100개로 지정이 되고 그러면 이제 100개에 대해서 이제 예측 결과를 받은 다음에 이제 그걸로 이제 투표 결과를 확인해서 예측을 내리겠죠. 그리고 이제 맥스 피처스 같은 경우에는 이제 각 트리마다 사용할 수 있는 피처의 개수를 제한하는 겁니다. 여기에서 이제 SQRT라고 했으니까 전체 피처 개수의 제곱근 개수만 이제 랜덤하게 선택을 해서 사용을 하겠죠. 그리고 여기는 이제 랜덤 스테이트는 1로 지정을 해가지고 결과상 갖도록 했어요. 그러면 이렇게 객체를 생성을 했으니까 여기도 이제 학습을 시켜줘야겠죠. 그러면 이제 피팅을 해줍니다. 똑같이 엑스트레인이랑 와 트레인 데이터를 사용을 해줍니다. 이렇게 해서 실행을 해주면 이렇게 되겠죠.
如果您这样做,就像我刚才说的那样,深度将限制为 2,并且我们可以生成的树将被设置为 100 个。然后,对于这 100 个,我们将获取预测结果,然后通过投票结果进行预测。对于最大特征数,它将限制每棵树可以使用的特征数量。这里写的是 SQRT,所以将随机选择总特征数的平方根个数。并且这里将随机状态设置为 1 以保持结果一致。那么创建了这个对象后,接下来就需要进行训练。然后进行拟合。同样使用 X_train 和 y_train 数据。这样执行就可以了。

Attendees 1 30:39 그러면 얘도 이제 결정 경계를 확인을 할 수가 있겠죠. 똑같이 위에서 이제 전개 했었던 플롯 디시험 리즌 함수를 사용을 해서 확인을 해볼게요.
这样也可以确认决策边界。我将使用之前展开的绘制决策边界的函数来确认。

Attendees 1 30:58 존스인데 이제 똑같이 스트레인이랑 와이 트레인을 넣고 클래식 파이어는 방금 위에서 정리한 랜덤 포레스트를 사용하면 되겠죠. 이렇게 해서 실행을 해줍니다.
出席者 1 30:58 现在用相同的方式放入 Strain 和 Y Train,对于经典火焰,我们可以使用刚才总结的随机森林。就这样执行。

Attendees 1 31:15 그러면 이제 결정 경계가 아래와 같이 이제 그래프로 확인할 수가 있는데 위에서 봤던 거랑 조금 다른 그런 그래프가 나타난 걸 확인할 수가 있죠. 그래서 이제 단일 모델 그러니까 디시전 트리를 하나 사용했을 때보다 지금 이제 앙상블 모델을 사용을 한 게 조금 더 이제 일반화된 경계를 가진다고 볼 수 있습니다.
出席者 1 31:15 现在可以确认决策边界如下图所示,与之前看到的图表有些不同。因此,与单一模型(即使用单个决策树)相比,现在使用的集成模型具有更加泛化的边界。

Attendees 1 31:39 그리고 얘도 이제 어큐러시를 확인을 해보면 똑같이 진행을 하면 되겠죠. 위에서 학습했던 포레스트 입체 스코어를 확인을 해봐요. 쓰신 것 같은데요.
参会者 1 31:39 然后现在我们也可以检查准确性,如果按照相同的方式进行的话。我们来看看之前学习过的森林立体分数。看起来是你写的。

Attendees 1 31:58 그 아래에 똑같이
参会者 1 31:58 在下面也是一样的

Attendees 1 32:05 이렇게 진행을 해 주시면 됩니다. 이렇게 해서 확인을 해보면 지금 트인 어큐러시는 0.95인데 테스트 어큐러시는 0.97이죠. 일반화 성능이 조금 더 높아진 걸 확인할 수가 있습니다.
参会者 1 32:05 请按照这种方式进行。这样确认后,我们可以看到训练准确率现在是 0.95,而测试准确率是 0.97。我们可以确认泛化性能有了一些提高。

Attendees 1 32:26 지금까지는 이제 디시전 트리를 기반으로 이제 일반적인 디시전 트리랑 그리고 이제 앙상본 모델인 이제 랜덤 포레스트를 활용을 해서 실습을 해봤는데 이번에는 사이클론에서 또 제공을 하는 다른 KNN을 활용해서 진행을 해볼게요. 여기서 보시면 이제 데이터는 이제 2차원 데이터고 테스크는 지금까지 했던 거랑 똑 동일한 테스크죠. 두 개의 이제 x 피처가 주어졌을 때 y가 0인지 1인지 분류하는 그런 테스크입니다. 그렇게 해서 똑같이 엑스트레인이랑 와이 트레인 데이터셋을 만들어주고요.
参会者 1 32:26 到目前为止,我们已经基于决策树并使用普通决策树和集成模型随机森林进行了实践。这次我们将使用 Sklearn 提供的 KNN 来继续。从这里我们可以看到,数据是二维的,任务与之前完全相同。当给定两个 x 特征时,任务是分类 y 是 0 还是 1。按照相同的方式,我们创建了 x 训练和 y 训练数据集。

Attendees 1 33:06 지금 그림을 보시면 이제 KNN이 어떻게 이제 타겟 값을 결정을 하느냐 그게 보이는데 만약에 이제 k가 그러니까 저희가 가장 가까운 이웃 5명을 확인을 한다고 가정을 해보면 지금같이 이렇게 점선으로 된 원 안에 있는 5개의 5개 데이터의 클래스를 확인을 해보겠죠. 그러면 지금 이제 각각 하나고 보라색 세모만 3개가 있는 걸 확인할 수가 있죠. 만약에 저희가 k가 5가 되면은 이제 보라색 세 개를 가진 이 클래스가 이제 과반수이기 때문에 이 물음표의 예측 결과는 보라색 세모로 저희가 예측을 하는 그런 알고리즘입니다. 그리고 옆에 있는 수식은 이제 거리를 어떻게 계산을 하냐 그런 거리 계산 수식인데 여기서 이제 p가 1이면 보통 이제 매네튼 거리고 p가 2면 유클리디한 거리를 사용을 하는 거겠죠. 아마 실습에서는 거의 피가 2인 경우 그러니까 위클리디한 거리를 활용을 해서 실습을 진행해 보겠습니다.
如果您查看现在的图表,您就会看到 KNN 是如何确定目标值的。假设我们确认最近的 5 个邻居,您可以看到点线圆内的 5 个数据的类别。现在可以看到,每个类别有一个紫色三角形,共 3 个。如果 k 为 5,那么这个具有 3 个紫色三角形的类别是多数,因此问号的预测结果将是紫色三角形,这就是这个算法。旁边的公式是关于如何计算距离的距离计算公式,其中当 p 为 1 时通常是曼哈顿距离,当 p 为 2 时使用欧几里得距离。在实践中,我们几乎使用 p 为 2 的欧几里得距离来进行实践。

Attendees 1 34:07 여기도 이제 사이킬런에서 제공을 한다고 말씀을 드렸기 때문에 사이킬런에서 얘를 불러와 줘요. 그리고 객체를 하나 만들어 줍니다.
由于我们之前提到 scikit-learn 提供了这个,所以我们从 scikit-learn 调用它。然后创建一个对象。

Attendees 1 34:20 그리고 파라미터를 넣어주면 되겠죠. 여기서 보면 이제 k가 1이고 p가 2일 때 이제 학습을 해본다고 되어 있어요. 그러면 여기서 k는 요 파라미터를 사용을 해서 지정을 해 줍니다. 가장 가까운 이웃 한 명만 볼 거고 거리 계산은 p가 2인 공식을 활용을 할 거다 이런 의미겠죠. 그리고 이렇게 생성한 객체 KNN을 학습을 시켜줍니다. 똑같이 엑스트레인이랑 와이 트레인을 사용을 하겠죠. 이렇게 해서 실행을 시켜줍니다.
参会者 1 34:20 然后输入参数就可以了。从这里可以看出,现在 k 为 1,p 为 2 时进行学习。那么在这里,k 是使用这个参数来指定的。将只查看最近的一个邻居,并使用 p 为 2 的公式计算距离,就是这个意思。然后使用这样创建的 KNN 对象进行学习。同样使用 X_train 和 y_train。像这样执行。

Attendees 1 35:04 그러면 이렇게 생성하고 이제 학습한 이 KNN에 대해서도 결정 경계를 확인을 할 수가 있겠죠. 똑같이 위에서 사용했었던 이제 플러티션 비즈니스 함수를 사용을 가져와서 확인을 해 줍니다.
参会者 1 35:04 这样创建并学习的 KNN,也可以确认决策边界。同样使用之前使用过的绘图函数来确认。

Attendees 1 35:25 x 값이랑 y 값을 넣고 분류기는 이번엔 위에서 만들었던 KNN을 넣어주면 되겠죠. 이렇게 실행을 해주면 잘 분류된 걸 확인할 수가 있죠.
学员 1 35:25 放入 x 值和 y 值,分类器这次使用我们之前创建的 KNN。这样执行的话,就可以确认分类得很好。

Attendees 1 35:49 지금까지 이제 데이터를 4개만 사용을 했는데 이번에는 조금 더 많은 데이터를 한번 사용을 해볼게요. 두개가 더 늘어나서 6개가 되었죠. 실행을 해 주고 여기서 보면 아까랑 조건이 같죠. KNN을 사용을 할 건데 이번에 또 k가 1이고 p가 2인 그런 객체입니다. 얘를 실행을 해주면
学员 1 35:49 到目前为止我们只使用了 4 个数据,这次我们来使用稍微多一些的数据。数据增加了 2 个,变成了 6 个。执行后,可以看到条件与之前相同。我们将使用 KNN,这次 k 仍然是 1,p 是 2 的对象。执行它的话...

Attendees 1 36:18 이번엔 이 데이터셋에 대해서 학습된 그런 KNN이 나오겠죠. 그럼 얘를 또 그래프로 확인을 해줍니다. 여기서 보시면 이제 똑같은 kna인데 새로 이제 저희가 생성을 한 그런 kna죠. 그래서 결과적으로 다음과 같이 분류되는 걸 확인할 수가 있습니다.
这一次,这个数据集上训练的 KNN 将会出现。那么我们将再次通过图表确认它。在这里,我们可以看到是同一个 KNN,但现在是我们新生成的 KNN。因此,最终可以看到它是按照以下方式分类的。

Attendees 1 36:47 이번에는 이제 아이리스 데이터셋으로 동일하게 진행을 해볼 건데요. 이번에도 이제 사이클런의 아이리스 데이터를 불러온 다음에 똑같이 두 번째랑 세 번째 피처만 사용을 해주겠습니다. 그러면 x니까 ids 데이터인데
这次我们将使用鸢尾花数据集进行相同的操作。这次我们也会加载 scikit-learn 的鸢尾花数据集,并像之前一样仅使用第二和第三个特征。这样 x 就是 ids 数据。

Attendees 1 37:11 3이고 y는 타겟 값이겠죠. 그래서 확인을 해보면 아까 위에서 저희가 불러왔던 거랑 동일한 데이터가 불러와질 겁니다. 그리고 얘도 학습이 트레이닝 어큐러시랑 테스트 어큐러시를 확인을 해야 되기 때문에 이제 사이클론에서 제공하는 뉴 트랜스플릿 함수를 사용을 해서 분류를 다시 해줄게요.
与会者 1 37:11 x 是前 37 和 11 个数据点,y 是目标值。通过检查,这将与之前我们加载的数据相同。由于需要检查训练准确性和测试准确性,我将使用 scikit-learn 提供的新的训练测试分割函数再次进行分类。

Attendees 1 37:40 똑같이 트레인 테스트 스플릿에다가 스랑
与会者 1 37:40 同样,在训练测试分割中...

Attendees 1 37:50 스랑 아이랑
与会者 1 37:50 我和我的孩子

Attendees 1 38:00 그리고 테스트 사이즈를 넣어주면 되겠죠.
与会者 1 38:00 然后加入测试尺寸就可以了。

Attendees 1 38:06 그리고 또 랜덤 스테이트는 1로 잡아줄게요.
与会者 1 38:06 然后随机状态也设置为 1。

Attendees 1 38:15 또 비율은 y의 비율을 고정해 줘야겠죠. 얘를 또 실행을 해주면 데이터가 분류가 되겠죠.
与会者 1 38:15 同时还要固定 y 的比例。再次执行,数据就会被分类。

Attendees 1 38:25 그다음에 이번에 또 스케일러를 사용을 해서 스케일 된 데이터셋을 사용을 해 줄 겁니다. 여기서 보시면 이제 사이클론에서 제공하는 스탠다드 스케일러를 불러와 주고 이제 스트레인에 대해서 이제 학습을 시킨 다음에 이 스케일러를 트레인 데이터랑 테스트 데이터 둘 다 사용을 하게 됩니다. 지금 스탠다드 스케일러를 sc로 정의를 했으니까 걔를 불러와주고 익스트레인이고 엑스 테스트를 이렇게 스케일링 하면 되겠죠.
接下来,我们将使用缩放器来使用缩放后的数据集。在这里,您可以看到我们从 scikit-learn 中导入标准缩放器,然后对训练数据进行学习,并在训练数据和测试数据上都使用这个缩放器。现在我们已经将标准缩放器定义为 sc,所以我们将导入它,并对 X_train 和 X_test 进行缩放。

Attendees 1 39:11 그렇게 해서 결과를 살펴보면 이제 다음과 같던 데이터 셋이 이제 이렇게 스케일링 된 걸 확인할 수가 있습니다.
这样,当我们查看结果时,可以确认数据集已经按照这种方式进行了缩放。

Attendees 1 39:24 그러면 이제 스케일링 된 요트 스트레인 STD 데이터셋을 가지고 또 KNN을 실행을 해보겠죠. 지금 보시면 이제 위랑 비슷해 보이지만 이번에는 k가 3인 그런 클래식 바이어를 정의를 해 주면 됩니다.
那么现在我们将在缩放后的游艇应变标准数据集上执行 KNN。如你所见,这看起来与之前的很相似,但这次我们定义了一个 k 值为 3 的经典分类器。

Attendees 1 39:48 k는 3 p는
k 是 3,p 是

Attendees 1 39:56 이렇게 객체를 생성을 하고 피팅을 시켜줘야겠죠.
参与者 1 39:56 这样创建对象并进行拟合。

Attendees 1 40:37 이렇게 해주면 이제 파라미터 조건에 맞는 그런 KNN이 생성되고 학습이 되는 되겠죠. 그러면 얘도 이제 가지고 결정 경계를 확인을 해보겠습니다.
参与者 1 40:37 这样做后,就可以生成符合参数条件的 KNN,并进行学习。然后,我们将确认其决策边界。

Attendees 1 40:56 똑같이 이제 플러티시장 오젠스 사용하고 x 트레인을 넣었는데 STD 된 객체를 넣어줘야겠죠. 그다음 트레이닝 그러면은 위에서 정리한 게 이렇게 실행을 해주면 아이디 스틱스이 이런 경계를 가지고 분류된 걸 확인할 수가 있습니다.
参与者 1 40:56 现在同样使用 Pluti 市场 Ozens 并放入 x 训练,然后需要放入标准化的对象。接下来训练,如果按照上面整理的这样执行,就可以确认使用 ID Sticks 的这种边界进行分类的情况。

Attendees 1 41:40 그러면 얘도 이제 정확도를 확인해 볼 수가 있겠죠. 동일하게 진행을 해볼게요. KNN의 스코어 레스드 가져와서 스케일링된 데이터를 넣으시고
参与者 1 41:40 这样也可以 now 检查准确性。我们将同样进行。获取 KNN 的分数,并将标准化的数据放入

Attendees 1 42:03 여기도 스케일링된 테스트 데이터를 넣어줘야겠죠. 해서 실행을 해 주면 다음과 같은 이런 어큐러시가 나오겠죠.
在这里也需要放入缩放后的测试数据。执行后,准确率将会如下所示。

Attendees 1 42:18 여기도 트레인 어큐러시에 비해서 약간 테스트 어큐러시가 조금 작은 걸 확인할 수가 있습니다. 이제 KNN 같은 경우에는 이제 다른 원하시는 이제 k 값을 넣어주시면 되는데 이번에는 k가 9일 때를 확인을 해볼게요.
可以看到测试准确率比训练准确率略低。对于 KNN,你可以输入想要的 k 值,这次我们来看看 k 为 9 的情况。

Attendees 1 42:55 그 객체를 k가 9인 객체를 생성을 해주고 다시 피팅을 시켜주면 되겠죠. 멈추 넣어서 실행을 시켜줍니다.
与会者 1 42:55 创建一个 k 为 9 的对象,然后重新拟合。停止并执行。

Attendees 1 43:19 그리고 얘도 이제 그래프로 확인을 해보면 이렇게 나오는 걸 확인할 수가 있죠. 지금 보시면 위에서 k가 3일 때랑 이제 9일 때랑 여기는 비슷한데 여기 파란색이랑 이제 클래스 1이랑 클래스 2가 나뉠 때 살짝 다른 걸 확인할 수가 있는데요. 이제 위에서 보시면 이제 k가 3일 때죠. 3일 때는 이렇게 조금 더 과적합된 그런 양상을 확인할 수가 있습니다.
与会者 1 43:19 然后如果我们在图表上查看,可以看到这样的结果。现在如果你看,k 为 3 时和现在 k 为 9 时,这里是相似的,但是当蓝色和类别 1 和类别 2 分开时,有些微的不同。现在从上面可以看出,当 k 为 3 时,可以看到一个更加过拟合的趋势。

Attendees 1 43:52 그리고 이제 k가 9일 때는 조금 더 완화된 그런 경계를 확인할 수가 있죠.
当 k 为 9 时,可以看到更加宽松的边界。

Attendees 1 44:00 얘도 이제 정확도를 살펴보면 다음과 같이 어큐러시가 나옵니다. 얘는 이제 반대로 트윈 어퀘러시는 조금 낮지만 이제 테스트 어큐러시가 조금 더 높은 걸 확인할 수가 있죠.
如果查看准确率,则会发现如下结果。相反,孪生准确率稍低,但测试准确率稍高。

Attendees 1 44:20 그래서 이제 학습할 때는 조금 어큐러시가 낮아 보이지만 이제 테스트 데이터 셋에 대해서 조금 더 나은 성능을 가진다입니다. 이번에는 이제 서포트 벡터 머신을 실험을 실습을 진행을 해볼 건데 이제 서포트 벡터 머신 같은 경우에는 이제 하고자 하는 게 이제 결정 단계에서 이제 각 클래스까지의 거리 그러니까 이 부분이죠. 마진을 최대화하는 걸 목표로 가진 가진 모델이죠. 그리고 이제 서포트 벡터 같은 경우에는 여기서 보시면 이렇게 가장 경계에 가까이 있는 샘플들을 서포트 벡터라고 합니다. 얘도 진행을 해볼게요.
因此,在学习时可能看起来准确率较低,但在测试数据集上具有更好的性能。这次我们将进行支持向量机的实验实践。支持向量机的目标是在决策阶段最大化到各个类别的距离。如果您看这里,最接近边界的样本被称为支持向量。我们也将进行这个实验。

Attendees 1 45:09 동일한 테스크에서 진행을 할 건데 이제 데이터셋은 똑같이 이제 2차원 데이터셋을 한번 정리를 해주고 이제 서포트 벡터 머신 같은 경우에는 이제 커너를 두 가지를 쓸 수가 있는데 일단 첫 번째는 이제 폴리노미얼 커너를 활용해서 진행을 할 수 있습니다.
我们将在相同的任务中进行,数据集仍然是二维数据集。对于支持向量机,可以使用两种核函数,首先是使用多项式核函数进行实验。

Attendees 1 45:29 여기서 보시면 SVM인데 이제 서포트 팩트 워신도 이제 클래식 파이어랑 그런 리그레션을 둘 다 제공을 하기 때문에 저희가 지금 하고 있는 그런 테스크는 클래식 바이어 테스크죠. 그래서 SVC를 불러와 줍니다.
在这里可以看到这是 SVM,现在支持向量分类器和经典的贝叶斯分类器都提供这两种回归方法,所以我们现在正在进行的是经典贝叶斯任务。因此,我们调用 SVC。

Attendees 1 45:45 그래서 이제 불러온 SVC를 생성을 해줄 건데 방금 말씀드렸듯이 커널은
所以现在我们将创建调用的 SVC,正如我刚才提到的,内核是

Attendees 1 45:56 폴리노미얼 커너를 사용을 해 줄 겁니다. 이렇게 폴리노미얼 폴리노미얼 커너를 사용을 하게 되면은 이제 선형이 아닌 비선형인 디시전 바운더리를 학습할 수 있겠죠. 그리고 감마는 0.2로 지정을 해 줍니다.
与会者 1 45:56 我们将使用多项式核函数。使用这种多项式核函数,我们现在可以学习非线性的决策边界。并将伽马设置为 0.2。

Attendees 1 46:19 그리고 똑같이 이제 여기도 레귤러라이제이션 파라미터가 있는데 얘도 100으로 지정을 해 줄게요. 그리고 랜덤 스테이트도 0으로 지정을 해줍니다.
与会者 1 46:19 同样,这里也有正则化参数,我们也将它设置为 100。并将随机状态设置为 0。

Attendees 1 46:39 그리고 위에서 이제 정의한 서포트 벡터 머신을 학습을 시켜야겠죠. 똑같이 엑스트레인이랑 와이 트레인 데이터셋을 넣어서 학습을 시켜줍니다.
参与者 1 46:39 现在我们需要训练已定义的支持向量机。同样地,将 X 训练和 Y 训练数据集输入并进行训练。

Attendees 1 46:53 1로 하죠. 네 그래서 이제 다음 코너를 사용을 하고 이제 감마를 0.02 0.2로 잡아서 얘 같은 경우는 이제 그 마진에 그런 영향력을 부여를 하는 값인데 이제 얘가 조금 더 크게 잡히면 과적합에 가까워지고 얘가 작게 잡히면 조금 더 경계가 완화돼서 일반화가 잘 되겠죠. 그리고 얘 같은 경우에는 방금 말씀드렸듯이 이제 레귤러라이제이션 을 조절하는 그런 파라미터인데 반비약에 적용이 되겠죠.
参与者 1 46:53 使用 1。所以现在使用下一个角落,并将伽马设置为 0.02 和 0.2。这个值会影响间隔,如果值设置得更大,就会更接近过拟合,如果设置得更小,边界会更加宽松,从而更好地进行泛化。就像我刚才提到的,这是调节正则化的参数,将应用于反比例。

Attendees 1 47:29 그러면 이렇게 학습된 이제 서포트 벡터 머신의 결정 경계를 또 확인을 해볼 수가 있습니다.
那么现在我们可以确认一下使用支持向量机学习的决策边界。

Attendees 1 47:38 여기도
这里也是

Attendees 1 47:42 플라티시전 비즈니스를 확인을 해 줄 건데 x 데이터랑 와 데이터를 넣어주면 돼요. 그리고 분류기는 위에서 정리한 SVM을 넣어줄 거예요. 이렇게 하시면 저희가 이제 폴리 코너를 사용을 했기 때문에 이런 식으로 비선형의 그런 결정 경계를 가지는 걸 확인할 수가 있습니다.
与会者 1 47:42 我将检查多氏精密业务,只需输入 x 数据和 y 数据即可。然后我们将使用之前总结的 SVM 分类器。这样,因为我们已经使用了多项式角,我们可以确认这种非线性决策边界。

Attendees 1 48:19 그리고 디시전 바운더리가 이렇게 그냥 끊긴 이런 비선형으로도 나올 수가 있고 또 원형으로도 나올 수가 있는데 원형으로 나오는지 한번 실습을 해보겠습니다. 사이클론에서 제공하는 메이크 서플스 요 함수를 사용을 하게 되면은 이제 두 개의 동심원 구조의 데이터를 생성을 할 수가 있어요. 이걸 활용해서 진행을 해보겠습니다.
与会者 1 48:19 决策边界可以是这样被切断的非线性形式,也可以是圆形的。我们将尝试实践看看圆形是否会出现。使用 Scikit-learn 中提供的 make_circles 函数,我们可以生成两个同心圆结构的数据。我们将利用这一点来进行演示。

Attendees 1 48:45 불러온 메이커 서클스에다가 파라미터를 넣어주면 되겠죠 샘플은 500개를 쓸 거예요. 500개를 쓰고 노이즈 정도는 0.2로 조절해 주고
将参数放入 Maker Circles 中,我们将使用 500 个样本。使用 500 个样本,并将噪声调整为 0.2

Attendees 1 49:01 반지는 비율을 이제 0.5 팩터를 0.5로 조절을 하고 이번에 랜덤 스테이트를 0으로 해볼게요.
现在将比率调整为 0.5,因子设为 0.5,这次将随机状态设为 0。

Attendees 1 49:13 이렇게 해서 실행을 하시게 되면은 이제 500개 샘플이 생성이 돼가지고 각각 x랑 y로 들어가게 됩니다. 그리고 여기에서 보시면 이제 x 데이터는 이렇게 있고 y 데이터 타겟 값은 0이랑 1로 분류가 되겠죠.
如果您这样执行,那么将生成 500 个样本,并分别进入 x 和 y。从这里可以看到,x 数据在这里,目标值 y 数据将被分类为 0 和 1。

Attendees 1 49:37 이번엔 이 생성된 이제 x랑 y 데이터를 그래프로 확인을 해보면 선정도 그래프를 사용을 해서 찍어볼게요. 스키터 플러을 사용을 할 건데 그러니까 y의 클래스가 0일 때 x의 0번째 피처고
现在,我们将使用散点图(scatter plot)来查看这些生成的 x 和 y 数据。我将使用散点图,因此当 y 的类别为 0 时,x 的第 0 个特征

Attendees 1 50:06 여기도 y의 클래스가 0인데 이제 첫 번째 피처 있죠 그리고 색깔은 빨간색으로 지정을 해 줄게요.
在这里,y 的类别为 0,现在有第一个特征,并且颜色将被指定为红色。

Attendees 1 50:17 얘도 똑같은데 이번에는 이제 y의 클래스가 1이고 이제 첫 번째 0 번째 피처 와의 클래스가 1이고 첫 번째 부처 색깔은 파란색이겠죠 별로로 지정을 해서 실행을 해 주겠습니다.
这个也一样,现在 y 的类别为 1,第一个特征的类别为 1,第一个特征的颜色将是蓝色,我将单独指定并执行。

Attendees 1 50:44 그러면 위에서 이제 저희가 만들었던 이제 500개의 샘플이 이런 식으로 산정도가 찍힌 걸 확인할 수가 있습니다.
这样,您现在可以确认我们刚刚创建的 500 个样本是如何绘制在散点图上的。

Attendees 1 50:57 이게 일반적으로 위에서 이제 사용했던 코널 같은 경우에는 이렇게 약간 잘 분류되지 않겠죠
在通常使用的内核中,情况可能不会如此好地分类。

Attendees 1 51:08 그리고 테스트랑 트레인 데이터도 분류를 해줍니다.
出席者 1 在 51:08 分对测试和训练数据进行了分类。

Attendees 1 51:26 여긴 랜덤 스테이트는 다시 1로 해줄게요.
出席者 1 在 51:26 分将随机状态再次设置为 1。

Attendees 1 51:32 와 비율을 고정해 줍니다.
参与者 1 51:32 并固定比率。

Attendees 1 51:43 방금 말씀드렸듯이 이제 이렇게 생긴 데이터셋 같은 경우에는 이제 폴리노미얼 커너를 사용을 하게 되면 잘 분리하지 못하기 때문에 이번에는 다른 코너를 사용해서 진행을 해볼 겁니다. 지금 보시면 이게 지금 저희가 방금 생성했던 그런 데이터셋과 약간 유사하게 생겼죠. 얘도 이제 얘를 이제 고차원으로 매핑을 한 다음에 고차원으로 매핑을 하게 되면 이제 빨간색 클래스는 위로 가고 파란색 클래스는 아래에 좀 분포한 걸 볼 수가 있죠. 그럼 이렇게 3차원으로 변형이 될 때는 이렇게 결정 단계를 저희가 정의를 할 수가 있습니다. 그래서 얘를 다시 2차원으로 매핑을 하게 되면 이렇게 원형 형태의 결정 경계가 보이겠죠. 그래서 이번에 만들었던 이 데이터셋에 대해서는 방금 설명드린 RBF 커너를 사용을 해서 진행을 해보겠습니다. 똑같이 이제 SVC를 불러오는데 이번엔 커널이 RBF로 바뀌었죠 그 외에는 동일합니다.
正如我刚才所说,对于这种类型的数据集,如果使用多项式核函数,就无法很好地分离。因此,这次我们将使用另一种核函数。你们看,这个数据集与我们刚才生成的数据集有点相似。当我们将其映射到高维空间时,红色类别会向上分布,蓝色类别会向下分布。当它转换为 3 维时,我们可以定义决策边界。将其重新映射到 2 维时,你会看到一个圆形的决策边界。对于这个数据集,我们将使用刚才解释的 RBF 核函数。同样,我们调用 SVC,只是这次核函数变成了 RBF,其他都保持不变。

Attendees 1 52:58 엠스테이트는 1로 하고 반박 값은 0.2로 하고 1.0으로 이번엔 c 값을 지정을 해볼게요.
与会者 1 52:58 将 M 状态设置为 1,反馈值为 0.2,这次我们将 C 值设置为 1.0。

Attendees 1 53:23 이렇게 하면은 이제 위랑 유사하지만 이제 여기서 보시는 레귤러라이제이션 값이랑 그리고 커널 종류가 다른 그런 SVM이 학습이 되겠죠. 그러면 이렇게 학습한 이제 SVM을 또 결정 경기를 확인을 해볼 수가 있습니다. 똑같이 위에서 만들었던
与会者 1 53:23 这样做,现在与之前的情况类似,但现在您看到的正则化值和内核类型不同,这样学习的 SVM 将是不同的。然后,我们可以像之前一样检查这个学习过的 SVM 的决策边界。

Attendees 1 53:48 플라이죠.
与会者 1 在 53 分 48 秒飞过。

Attendees 1 53:54 네 엑스프레인이랑 프레이 그리고 위에서 코나를 ibf로 지정한 코드 액터 머신을 넣어주면 됩니다.
与会者 1 在 53 分 54 秒,需要在 Express、Fray 以及在上面用 IBF 指定 Kona 的代码 Actor 机中添加。

Attendees 1 54:08 해서 진행을 해보시면 다음과 같이 원형 결정 경계가 나타난 걸 확인할 수가 있죠.
出席者 1 在 54:08 时可以看到这样一个圆形的决策边界。

Attendees 1 54:23 얘도 이제 고차원으로 나타내서 분류를 한 다음에 다시 저차원으로 매핑한 그런 형태입니다.
这个也是先在高维空间进行分类,然后再映射到低维空间的形式。

Attendees 1 54:37 얘도 이제 트레인이랑 테스트 어큐러시를 확인을 해보면 SVM의 스코어를 사용하면 되겠죠. 스트 라이트를 넣어주고
与会者 1 54:37 现在我们可以通过使用 SVM 的分数来检查训练和测试的准确性。加入直线

Attendees 1 54:52 스테스트라는 테스트를 넣으시면 됩니다.
与会者 1 54:52 您可以添加测试。

Attendees 1 55:01 이렇게 실행을 하면은 이제 트레인 어큐러시는 88% 정도 나오고 테스트 어큐러시는 90% 정도 나오는 걸 확인할 수가 있는
如果这样运行,可以看到训练准确率大约为 88%,测试准确率大约为 90%

Attendees 1 55:14 네 이렇게 해서 실습은 여기까지고요. 오늘도 퀴즈가 있는데 퀴즈는 총 3개입니다. 일단 첫 번째로 이제 올려드렸던 이제 이거 홈워크에서도 사용을 했었죠. 헐츠 디지즈 데이터셋을 사용을 해가지고 이제 디시넌트리를 한번 학습을 시켜본다. 그리고 다음과 같이 이제 플라이 잘 보이도록 찍으셔야 됩니다. 두 번째는 이제 동일한 데이터셋인데 KNN 분류기를 사용을 해서 한번 진행을 해보면 됩니다. 그리고 마지막은 이제 디시전 바운더리 그러니까 결정 단계가 서형이 아닌 경우를 비교해 볼 건데요. 여기에서 보시면 이제 메이크 몬스 데이터셋을 사용을 하는데 이거는 아까 메이크 서클스 데이터셋이랑 유사하게 흘러간다고 생각을 해 주시면 됩니다. 이것도 이제 가상의 데이터를 만들어서 그거를 트레인이랑 테스트 셋으로 나누고 진행을 해보겠죠. 그래서 여기서 보시면 이렇게 데이터셋을 제너레이트 하는 걸 확인할 수가 있습니다.
好的,实习到此结束。今天还有一个测验,总共有 3 个。首先,使用我们之前在作业中使用过的心脏病数据集,学习决策树。然后按照图中显示的方式进行截图。第二个是使用相同的数据集,使用 KNN 分类器进行操作。最后是比较决策边界,即非线性情况。在这里,你会看到使用了 Moons 数据集,这与之前的 Circles 数据集非常相似。我们将创建一个虚拟数据集,然后将其分为训练集和测试集。在这里,你可以看到数据集是如何生成的。

Attendees 1 56:18 그리고 여기 보시면 이제 여기에서 이제 객체를 생성을 하면 밑에 원래 그 파라미터가 있는 그게 떠야 되는데 여기 지금 안 떠요. 그래도 그냥 확인하시고 진행을 해 주시면 됩니다. 그렇게 해서 이제 네 가지 모델에 대해서 결과를 결과 플러을 찍어주시면 됩니다. 이제 퀴즈 진행해 주시면 되고 모르는 거 있으면 손 들고 여쭤보세요.
如果你们看这里,当创建对象时,原本应该显示那些参数的地方现在没有显示出来。不过你们可以确认一下并继续进行。现在请为这四个模型打印结果。接下来请进行测验,如果有不懂的地方,请举手询问。

Attendees 1 58:17 여기서 봐
在这里看看

Attendees 1 59:09 근데 여기는 똑같이 알긴 하는데
参会者 1 59:09 但是这里看起来是一样的

Attendees 1 59:33 제가 게시도 했을 때는 똑같이 나왔거든요. 이거 말고는 다
参会者 1 59:33 当我发布的时候,情况也是一样的。除此之外,其他都

Attendees 1 1:01:38 근데 이게 역시 와이 테스트
出席者 1 1:01:38 但是这确实是 Y 测试

Attendees 1 1:03:03 일단 이거 안 쪽으로 한번 다시 해보시겠어요 이거는 처음 여기 말고 저는 식도 똑같이 나 그러면은 이거는 일단 뒤로 넘어가도록 네 주석을 밑에 달아주세요.
出席者 1 1:03:03 先让我们再试一次这个,这不是第一次在这里,我的公式也是一样。那么,这将先往后推,好的,请在下面添加注释。

Attendees 1 1:03:27 피처 사이즈를 조금 크게 하면 아마
与会者 1 1:03:27 如果稍微增大特征大小,可能会

Attendees 1 1:03:39 이거 하면 이제 좀 더 크게
与会者 1 1:03:39 这样做会让它变得更大一些

Attendees 1 1:03:59 근데 이게 아마 내일이면은 여러분 여기 넣으면 지금 한 줄이 있잖아요. 그래서 지금 이렇게 하셔도 상관없어요. 거 똑같은
参会者 1 1:03:59 但是,如果明天的话,你们在这里放置,现在有一行。所以现在这样做也没关系。那个是一样的。

Attendees 1 1:04:25 달라지고 아마 사이즈를 3 다르네 이거 수업 때 했죠. 근데 이거는 상관없죠. 분류하는 거랑 똑같이 나오는 건데 지금 사이즈가 커진 거잖아요. 중간에 저 어디지 앞 쪽에 쇼핑 22.04 이게 약간 다 다르게 나와 저는 이렇게 나오거든요. 좀 더 타이트하게 나오잖아요. 그래서 이거는 아마 버전 문제 같은데 나머지 코드 다 동일하게 작성하시면 상관없어요. 그리고
参会者 1 1:04:25 发生了变化,可能尺寸是 3 不同。这是在课堂上讲过的。但这无关紧要。分类是一样的,现在尺寸变大了。中间的那个在哪里,前面的购物 22.04 看起来有点不同。我是这样出现的。更加紧凑,对吧?所以这可能是版本问题,但其余代码都写得一样,没关系。然后

Attendees 1 1:05:20 이게 저는 이게 약간 안쪽이 나오는
与会者 1 1:05:20 这个对我来说稍微有点内向

Attendees 1 1:05:39 네 맞아 잘 넘어가요. 감사합니다. 저거 프리텔리 터브 저 시 만나
与会者 1 1:05:39 是的,已经很顺利了。感谢你。那个普利特利管那个时候见

Attendees 1 1:07:03 혹시 KNN에서 아이디 스테이터 사용해가지고 테스트 어큐러시 확인했을 때 1로 나오시는 분 계세요. 손 한번 맞네. 이게 코드는 똑같이 해도 결과가 지금 두 가지로 나오는 것 같더라고요. 그래서 1.0으로 나오셔도 그냥 진행해 주시면 될 것 같습니다. 그 부분은 맞다고 다 처리 해드릴게요.
参会者 1 1:07:03 有没有在 KNN 中使用身份状态检查测试准确性时出现 1 的人?请举手。正确。我注意到即使代码相同,结果似乎有两种不同的情况。即使您的结果是 1.0,也请继续进行。这部分我们会处理为正确的。

Attendees 1 1:07:47 이게 이렇게 찍혀 있을까요? 이게 찍혀 있을까봐요
参会者 1 1:07:47 这会这样显示吗?我在担心它是否会这样显示。

Attendees 1 1:08:25 문제가 제가 뭐 하나 수정했거든요.
与会者 1 1:08:25 我修改了一个问题。

Attendees 1 1:17:20 이거 기분 코드 지금 보시면은 48번 셀에 RF RBF 컨을 사용하는데 아래 보시면 이게 주석은 c가 100으로 되어 있거든요. 요거 1로 수정해 주시면 됩니다. 제가 수업 때
与会者 1 1:17:20 如果您现在查看代码,在第 48 个单元格中使用了 RBF 内核的 RF,下面您会看到注释中 c 被设置为 100。您可以将它修改为 1。我在课堂上

Attendees 1 1:17:42 변수는 이제 여기 주석은 100으로 되어 있는데 1로 수업을 했거든요. 그래서 1로 진행을 하시는 게 이제 밑에 요 결괏값도 동일하게 나오게 되어 결괏값도 동일하게 나오기 때문에 이거 그냥 주석만 수정하시면 됩니다.
参会者 1 1:17:42 现在变量的注释是 100,但我在课程中是用 1 来进行的。所以使用 1 进行操作,下面的结果值也会相同,因此您只需修改注释即可。

Attendees 1 1:18:07 네 여기 부분이요. 그 코드 제가 수업할 때 똑같이 하셨으면은 결괏값도 똑같이 나오실 텐데 만약에 이거 주석이 원래 100이었었는데 100으로 하셨으면은 밑에 결괏값이 다를 거예요. 그래서 그때는 이제 1로 수정을 해 주시면 됩니다.
参会者 1 1:18:07 是的,在这部分。如果您按照我上课时的方式完全相同地操作,结果值也会相同。如果原来注释是 100,并且以 100 进行操作,下面的结果值会不同。那么此时,您需要修改为 1。

Attendees 1 1:19:27 있었는데 이거 어떤 퀴즈 퀴즈 2요
与会者 1 在 1:19:27 有,这是什么测验测验 2 呢

Attendees 1 1:21:26 있잖아
与会者 1 在 1:21:26 有啊

Attendees 1 1:23:21 지정을 안 하시는 거거든요. 이 비를 따로 지정을 하지 않고 그냥 시도해가지고
与会者 1 1:23:21 您没有指定这个。您就这样尝试进行,没有特别指定这个雨

Attendees 1 1:25:01 저 개인마다 수명이 좀 더는 이 되는 게 심하지 않는 좋겠어요. 그래서 말 해도
与会者 1 1:25:01 希望每个人的寿命能稍微延长一些,这不是很好吗?所以我说

Attendees 1 1:25:12 혼자서 시간을 같이 되면
与会者 1 1:25:12 一个人一起度过时间

Attendees 1 1:25:30 크리스토로 설정해 줘야
与会者 1 1:25:30 应该设置为克里斯托

Attendees 1 1:25:42 근데 공원에서 대출하실
出席者 1 1:25:42 话说在公园里借钱

Attendees 1 1:27:47 제가 3번 부분 추가해서 기본 코드를 다시 한 번 올려드릴게요.
出席者 1 1:27:47 我将再次上传第 3 部分的基本代码。

Attendees 1 1:31:23 객체가 생성이 되는데 아웃풋이 빠져가지고 이제 그 원래 이렇게 제작해야 되는데 제가 저희가 드릴 때는 제공할 때는 저게 없으니까 그 부분 레이아웃에서 하면 된다라고 했는데 제가 지금 아웃풋 추가해서 하는 거
与会者 1 1:31:23 对象已创建,但输出已经消失,现在我本来应该这样制作,但是当我们提供时,没有那个,所以可以在布局中完成该部分。我现在正在添加输出。

Attendees 1 1:31:42 네 조건만 만족하셨으면 저 여기서 하시고 피도 저희가 수업 시간에 했던 게 하신 거죠? 네 제출하면 돼. 네 제출하면 됩니다. 그 이것만 올리셔도 돼요. 저희도 데이터 따로 안 넣으셔도 좋겠어요. 네 아비 바로 올리시면 돼요. 40분 정도 나가셔도 돼.
与会者 1 1:31:42 是的,如果您只满足条件,就可以在这里进行操作。这是您在课堂上已经完成的内容吗?是的,可以提交。是的,可以提交。您只需要上传这个就可以了。我们也不需要您额外添加数据。是的,直接上传即可。您可以休息 40 分钟。

Attendees 1 1:32:19 이 사이즈는 그냥 임의로 하면 되나요?
与会者 1 1:32:19 这个尺寸是可以随意选择的吗?

Attendees 1 1:32:28 원래 있었던 거랑 거의 원래대로 하면 일단 22시 저희가 삭제했던 대로 하셔요.
与会者 1 1:32:28 还是按照原来的方式,先按照 22 点我们之前删除的那样做。

Attendees 1 1:32:41 스탠드 부분 어디서 쓰는 부분 어디서 쓰면 돼요?
参会者 1 1:32:41 站立部分在哪里使用?在哪里可以使用?

Attendees 1 1:32:56 스케일로 쓰는 말씀이신가요? 네 스케일로 같은 경우에는 좀 변수가 엄청 좀 다르게 분포되어 있는 이 때문에 그냥 맞춰주기 위해서 사용을 하는 거기 때문에 이거 스케일로 안 쓰면은 지금은 잘 작동할 수도 있는데 가끔씩 오류가 있는 상황이 발생할 수도 있어
参会者 1 1:32:56 您是指按比例使用吗?是的,对于比例来说,由于变量分布非常不同,所以使用它是为了进行调整。如果不使用比例缩放,现在可能可以正常工作,但有时可能会出现一些错误情况

Attendees 2 1:33:32 이대로 작성하기도 해놨는데 교환에 있던 내용이랑 좀 다르거든요.
出席者 2 1:33:32 我已经按照这样写了,但是与交流中的内容有些不同。

Attendees 1 1:33:40 근데 저희 교환이랑 다른 관점들이 가지고 그 부분을 맞춰주셔야 돼요. 왜냐하면 저희가 수업 시간 때 진행했던 부분이잖아요. 어디죠?
出席者 1 1:33:40 但是我们交流中的观点不同,您需要调整这部分。因为这是我们课堂上进行的部分,对吧?

Attendees 1 1:34:08 저희 이거 비율 조정 안 하려고
参会者 1 1:34:08 我们不打算调整这个比例

Attendees 1 1:34:14 저희 라이브 카페 조정할 때 맨날 감수 하나랑 그 파라미터 하나 추가해서 진행했었잖아요. 그거 빠뜨리시 다른 부분도 다 안 하셨을까요?
参会者 1 1:34:14 我们每次在直播咖啡调整时都会加一个评估和一个参数进行处理,你忘记那个部分是否会导致其他部分也没有完成?

Attendees 1 1:34:32 그걸 안 하시면은 데이터가 데이터를 7 대 3으로 나눌 때 yp를 빼고 나눠줘요. 그러면은 설정 경기가 다를 수도 있어요. 그거 뭘 추가하시면 되나요? 이 변수를 추가해 주시면 되는데 저희 이거 그러면 오늘 수업 때 이거 다 추가 안 하셨다니요?
参会者 1 1:34:32 如果不这样做,在将数据分为 7 比 3 时,不要包括 yp。这样可能会影响设置。您需要添加什么?您需要添加这个变量。那么今天的课程中您没有添加这些吗?

Attendees 2 1:34:56 0점 스테이트 뒤에 트레틱 파일을 따로 제가 추가를 안 했어 가지고
参会者 2 1:34:56 我没有在零点状态后添加特征文件

Attendees 2 1:35:16 나머지 부분도 다 스트리티 하이죠.
参加者 2 1:35:16 其余部分也应该直接使用。

Attendees 1 1:35:22 네 수업 때 그렇게 쓰세요.
参加者 1 1:35:22 是的,在课堂上这样使用。

Attendees 1 1:35:28 그거는 추가하셔가지고 원래 스케일로 데이터 넣으셔서
参会者 1 1:35:28 那个请添加,并将数据放入原始比例尺

Attendees 2 1:35:36 피치할 때 스케일러 데이터랑 와이트 데이터 이터.
参会者 2 1:35:36 在推介时的缩放器数据和权重数据。

Attendees 1 1:35:39 그렇죠 저희가 사용하는 게 이제 스케일화된 데이터를 사용하는 거고 y 값은 저희가 따로 스케일링을 하지 않고 그냥 클래스 분류잖아요. 얘는 원래 스케일링을 하지 않아
是的,我们正在使用标准化后的数据,而 y 值我们没有单独进行标准化,这只是一个类别分类。它本来就不需要标准化

Attendees 1 1:39:30 퀴즈 아웃풋 추가된 버전도 올려드렸으니까 결과값 그래프 확인하고 싶으시면 새로 다운받으셔가지고 확인하시면 됩니다. 그런데 저희가 조건에 이미 명시해 놓은 부분이 있기 때문에 그것들 맞으면은 맞다고 처리할 거기 때문에 원래 원래 맞게 푸셨던 분들은 그냥 참고만 하시면 돼.
我已经上传了包含测验输出的新版本,如果您想查看结果图,可以重新下载并确认。由于我们已经在条件中明确说明了一些内容,所以如果符合条件就会被视为正确。原本已经正确解答的人只需参考即可。

clovanote.naver.com