这是用户在 2025-5-9 11:10 为 https://app.immersivetranslate.com/html/ 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

ML week10.1
机器学习第 10 周第 1 节

2025.05.07 Wed PM 9:03 ・ 86Minutes 38seconds
2025 年 5 月 7 日 周三 下午 9:03 ・ 86 分钟 38 秒

ZHANG YIWEN
张一文



Attendees 1 00:02
与会者 1 00:02

이번 주 강의에서 다룰 내용은 텍스트 데이터로부터 머신러닝을 수행하는 것과 관련된 주제들입니다.
本周讲座将涉及与从文本数据执行机器学习相关的主题。

이 내용들은 우리 책에 8장에 관련된 내용들이 있습니다.
这些内容与我们书中的第 8 章相关。

네 우리가 지금까지 주로 다뤄왔던 것은 수치 데이터였습니다.
到目前为止,我们主要处理的是数值数据。

그래서 예를 들면 여기 처음에 보이는 것과 같이 어떤 와인 데이터가 여러 개의 피처 값들로 이렇게 표현돼 있고 각각의 와인을 어떤 클래스 중에 하나로 분류하는 그런 모델을 예를 들면 로지스틱 리그레션 같은 알고리즘으로 학습해서 적절한 파라미터를 찾는 그런 것들을 봤었죠.
例如,就像最初看到的那样,一些葡萄酒数据由多个特征值表示,并且可以使用像逻辑回归这样的算法学习,找到适当的参数,将每种葡萄酒分类到某个类别中。

텍스트로부터 학습을 한다는 것은 예를 들어서 우리가 두 번째 있는 것처럼 어떤 텍스트가 주어졌을 때 이것에 대한 의미를 분리한다든지 그런 문제에 대한 학습을 하는 겁니다.
从文本中学习意味着,例如,当给定某些文本时,我们可以分离其含义,或者对这类问题进行学习。

여기 예로 나와 있는 텍스트는 어떤 영화에 대한 리뷰를 적은 텍스트인데 이 리뷰에 대해서 예를 들면 이것이 positive 긍정적인 의미인지 negative 부정적인 의미인지를 분류하는 모델을 학습하고 싶다는 거죠.
这里给出的示例文本是关于某部电影的评论,例如,我们想要学习一个模型来分类这个评论是正面(积极)还是负面(消极)的。


Attendees 1 01:17
与会者 1 01:17

물론 이럴 때도 로지스틱 리그레션, 디시전 트리 이런 것들을 우리가 사용할 수 있는데 그러기 위해서는 이 텍스트를 어떤 형태로든 수치화된 데이터로 표현해야 되겠죠.
当然,在这种情况下,我们也可以使用逻辑回归、决策树等方法,但为了做到这一点,我们需要将这些文本以某种形式转化为数值化的数据。

텍스트가 갖는 여러 가지 특성 때문에 우리는 먼저 텍스트의 프리 프로세싱에 어떤 작업들이 필요한지를 살펴볼 거고 그다음에 구체적으로 텍스트를 어떻게 수치화된 데이터로 표현하는지 그런 거에 대해서 살펴보겠습니다.
由于文本具有多种特性,我们首先将探讨需要对文本进行哪些预处理工作,然后具体讨论如何将文本转换为数值化的数据。

백오브 워드 표현이라는 것은 일종의 원화 인코딩을 하는 그런 표현이고 이렇게 표현되고 나면 앞서 말한 로지스틱 리그레션 같은 이런 머신러닝 알고리즘을 우리가 적용할 수가 있습니다.
词袋表示是一种原始编码的表示方法,通过这种方式表示后,我们就可以应用之前提到的逻辑回归等机器学习算法。

또 하나는 워드 임베딩인데 워드 임베딩은 단어를 의미가 표현되는 어떤 벡터로 나타내는 그런 방법입니다.
另一个是词嵌入,词嵌入是将单词表示为具有语义的向量的方法。

이것은 딥러닝과 관련이 있고 이런 방법을 사용하는 딥러닝 모델들에 대해서는 여기서 워드 임베딩 알고리즘에 대해서는 우리가 살펴보고 구체적인 머신러닝 모델들에 대해서는 나중에 딥러닝을 우리가 다룬 이후에 추후에 다시 다루도록 하겠습니다.
这与深度学习有关,关于使用这种方法的深度学习模型,我们将在这里查看词嵌入算法,具体的机器学习模型将在我们讨论深度学习之后再详细探讨。


Attendees 1 02:39
与会者 1 02:39

여기서 우리가 사용하는 라이브러리는 여러 가지 있는데 그중에 대표적인 게 NLTK 내추럴 랭귀지 툴 킷이라는 라이브러리 네 이거는 우리가 언어 즉 텍스트를 다루기 위해서 사용되는 여러 가지 함수들을 제공하는 라이브러리고 클래시피케이션이나 또 텍스트를 토큰화한다든지 스테밍 태깅 이런 등등의 여러 가지 작업들을 수행하는 그런 라이브러리 함수들이 제공됩니다.
这里我们使用的库有很多种,其中最具代表性的是 NLTK 自然语言工具包。这是一个为了处理语言(即文本)而提供多种函数的库,它提供了用于分类、文本分词、词干提取、标注等多种操作的库函数。

그 이외에도 여러 가지 리소스들을 제공해서 예를 들면 워드 넷과 같은 서로 어떤 단어들 사이에 의미적인 연결 관계를 나타내는 일종의 사전이죠.
除此之外,还提供了许多资源,例如词汇网络,这是一种显示单词之间语义关联的词典。

이런 것을 포함한 다양한 리소스를 제공하는 라이브러리입니다.
这是一个包含各种资源的库。

네 그래서 먼저 아주 간단한 형태의 프리 프로세싱에서부터 우리가 살펴볼 텐데 1차적으로는 텍스트 안에 들어 있는 여러 가지 스트링 중에 우리가 불필요한 것들을 좀 제거하거나 변환하는 그런 일종의 클리닝을 하는 것을 먼저 생각할 수 있습니다.
是的,我们将从非常简单的预处理形式开始查看,首先考虑如何清理文本,删除或转换文本中不必要的字符串。


Attendees 1 03:56
与会者 1 03:56

그런 걸 하기 위해서 텍스트 안에 요러요러한 스트링이 있으면 우리가 그걸 제거하거나 변환한다 그런 작업을 수행하는 것이 필요할 수 있는데 그때 사용하는 것이 이 레귤러 익스프레션으로 어떤 패턴들을 지정하는 것을 사용할 수 있습니다.
为了做这个,如果文本中有这样那样的字符串,我们可能需要执行删除或转换的操作。在这种情况下,可以使用正则表达式来指定某些模式。

레귤러 익스프레션은 많은 사람들은 이미 다 알고 있겠지만 기본적으로 어떤 패턴을 표현하는 것이고 우리가 일부 몇 가지 간단한 것만 여기서 살펴보고 가겠습니다.
正则表达式,相信许多人已经都知道了,基本上是用于表示某种模式,我们在这里只简单地看几个例子。

예를 들면 점 하나를 찍으면 우리가 임의의 문자 하나를 나타냅니다.
例如,如果打一个点,我们就表示一个任意的字符。

그래서 예를 들면 a 점점 이렇게 하면 이것은 a와 그다음에 두 개의 어떤 문자가 연달아 나오는 스트림을 표현합니다.
所以,例如,如果是 a 点点,这就表示 a 后面跟着两个连续的字符流。

이렇게 삿갓 모양의 기호를 쓰면 이것은 텍스트가 어느 특정한 문자로부터 시작되는 것을 표현합니다.
如果用这种像斗笠形状的符号,这表示文本从某个特定字符开始。

이렇게 했으면 이것은 a로 시작하는 어떤 스트링의 매치가 되는 거죠.
如果这样做,那么这就是匹配以 a 开头的任何字符串。

네 문자 뒤에 플러스 기호를 붙이면 그 문자가 한 번 또는 그 이상 등장하는 패턴을 의미합니다.
如果在字符后添加加号(+),表示该字符出现一次或多次的模式。


Attendees 1 05:11
参会人员 1 05:11

그래서 a b 플러스라고 쓰게 되면 이것은 a b 혹은 a b b 등으로 b가 여러 번 나타나는 스트링을 의미하는 거죠.
所以如果写成 a b 加号,这意味着字符串中可以出现 a b,或者 a b b 等,b 可以出现多次。

스타가 붙으면 비슷한데 0번 이상 등장하는 걸 나타낸다.
如果加了星号,就类似的,表示出现 0 次或更多次。

그래서 ab 스타라고 하면 a도 매치가 되고 혹은 a b 혹은 a b b b 등이 매치가 되는 어떤 패턴을 의미합니다.
所以当说到 ab 明星时,意味着匹配 a,或者 a b,或者 a b b b 等各种模式。


Attendees 1 05:39
参会人员 1 05:39

네 대가로 안에 문자들을 나열하면 나열돼 있는 문자 중에 어떤 거라도 이게 매치될 수 있다는 걸 합니다.
如果在大括号内列出字符,那么在列出的字符中,任何一个都可以匹配。

그래서 a 한 다음에 대괄호 안에 BCD를 이렇게 나열하면 이것은 a b와도 매치되고 ac 혹은 AD와 매치될 수 있는 패턴을 나타내는 거죠.
所以在 a 之后,在方括号内列出 BCD,这表示可以匹配 ab,也可以匹配 ac 或 AD 的模式。

대가로 안에 이 사건 모양의 캐릭터를 쓰면 이것은 나열된 문자 외에 것들이 매실된다는 뜻입니다.
表示在这个字符集中使用这个字符意味着除了列出的字符之外,还会匹配其他字符。

이렇게 표현하면 이것은 a 다음에 BCD 말고 다른 것들이 매치될 수 있다는 거죠.
这样表示 a 后面可以匹配 BCD 以外的其他字符。

BCD 이외의 문자 이런 뜻을 가지고 있습니다. 네 밑에 이런 것들을 보면 네 d라고 쓰면 모든 숫자들은 여기에 매치될 수 있다는 걸 의미하고 대문자 d를 쓰면 숫자가 아닌 것들을 의미합니다.
BCD 以外的字符具有这种含义。当你看到下面这些内容时,如果用小写 d 书写,则表示所有数字都可以匹配;如果使用大写 D,则表示非数字的内容。

w를 쓰면 숫자, 알파벳, 한글 등의 문자 일반 문자들이 매치된다는 걸 의미하고 대문자를 쓰게 되면 그거 이외에 것들이 매치되는 걸 의미합니다.
使用小写 w 表示可以匹配数字、字母、汉字等普通字符;而使用大写字母则表示匹配这些之外的内容。


Attendees 1 06:57
出席者 1 06:57

이런 표현을 가지고 우리가 찾으려면 어떤 스트링의 형태를 지정할 수 있고 그걸 가지고 간단한 클리닝을 하는 것은 특정한 어떤 스트링들을 우리가 데이터에서 제외하겠다 그런 의미를 갖게 되겠습니다.
如果我们想要找这种表达方式,可以指定某些字符串的形式,并通过简单的清理来排除数据中的特定字符串,这就意味着我们要排除某些特定的字符串。

그래서 레귤러 익스프레션을 이용한 우선 가장 간단한 형태의 프리 프로세싱은 예컨대 우리가 텍스트 안에 어떤 마크업 기호 같은 게 있어서 이거는 텍스트의 어떤 의미를 파악하는 데 아무 상관이 없다든지 그런 걸 제거하는 거죠.
因此,使用正则表达式进行最简单的预处理形式是,例如,删除文本中不会影响理解文本意义的标记符号等。

또는 어떤 스페셜 캐릭터 같은 것을 제외한다든지 이런 것도 있겠습니다.
或者排除某些特殊字符等。

전부 다 소문자로 바꾸겠다든지 또는 경우에 따라서 어떤 이모티콘 같은 거 이런 것들을 포함하거나 포함하지 않거나 이런 걸 한다든지 이런 걸 생각할 수가 있겠습니다.
我们可以考虑将所有内容转换为小写,或者根据情况是否包含表情符号等。

네 그래서 여기 지금 프리 프로세서라는 간단한 함수를 작성했는데 우리가 re 레귤러 익스프레션 라이브러리를 사용했습니다.
是的,现在我们编写了一个简单的预处理函数,使用了正则表达式库。

이 라이브러리의 SUV라는 함수는 서피티튜트 치환하라는 겁니다.
这个库中的 SUV 函数意味着进行替代替换。


Attendees 1 08:07
参会人员 1 08:07

첫 번째 레귤러 익스프레이션으로 표현된 스트링이 있으면 두 번째 형태로 치환하라는 거고 대상이 되는 건 제일 마지막에 텍스트라고 나와 있습니다.
如果有第一个正则表达式表示的字符串,则将其替换为第二种形式,目标是最后一个文本所示。

그러니까 첫 번째 줄의 의미는 텍스트 안에서 이런 패턴이 있으면 이건 엠티스틱이니까 제외시키라는 거가 되겠죠.
所以第一行的意思是,如果文本中存在这种模式,那么它就是空洞的,因此应该排除。

네 앞서 우리가 몇 가지만 레귤러 익스프레이션의 의미에 대해서 한번 살펴봤는데 요 지금 레귤러 익스프레션으로 표현된 패턴이 의미하는 건 처음에 이런 기호로 시작하고 이런 문자로 시작하고 그다음에 대괄호 안에 어떤 것들이 올 수 있느냐가 표현돼 있죠.
之前我们已经简要地探讨了正则表达式的一些意义,现在正则表达式所表示的模式意味着,首先以某些符号开始,以某些字符开始,然后在方括号中表示可以出现的内容。

요 문자가 아닌 것들이 오고 그다음에 스타가 있으니까 그것이 0번 이상 반복되고 제일 마지막에는 특정 문자가 그냥 나열돼 있습니다.
这些不是字符的内容会出现,然后后面有星号,表示可以重复 0 次以上,最后是特定的字符排列。

이걸로 끝나는 것을 의미하죠. 그래서 예를 들면 이런 부분 이런 마크업 태그 같은 이런 부분이 새로 시작해서 꺽쇠로 끝나는 이런 스트링이 여기에 매치돼 라고 볼 수가 있겠습니다.
这意味着结束。例如,像这样的标记标签部分,以尖括号开始并以尖括号结束的这种字符串可以被匹配。

그거를 엔티스트링으로 서티 수원하라고 그랬으니까 그것이 없어지는 거죠.
之前说要将其作为实体字符串处理,所以那部分就会消失。


Attendees 1 09:31
与会者 1 09:31

두 번째도 치완화라는 게 있는데 여기에 나타난 레귤러 익스프레션 표현은 네 대괄호 안에 뭐가 있냐 하면 아까 이거 무슨 뜻이라고 그랬냐 하면 숫자나 알파벳 한글 아닌 것 를 나타내는 거겠죠.
还有第二种所谓的"治完化",这里出现的正则表达式表示是在方括号内表示什么。刚才说的是什么意思,即表示非数字、非字母、非汉字的内容。

근데 플러스가 붙어 있으니까 그런 것들이 한 번 이상 반복되는 걸 말하는 거고 그런 것들은 전부 다 한꺼번에 하나의 스페이스 문자로 대체한다 이렇게 돼 있습니다.
因为带有加号,所以说的是这些内容被重复一次以上,这些内容全部都一次性地替换成一个空格字符。

예를 들면 이런 부분 스페이스하고 특수 기호가 있는데 이걸 묶어서 하나의 빈칸으로 대체한다는 거죠.
举个例子,这些部分包含空格和特殊符号,将它们打包替换成一个空白。

또 이런 부분 숫자나 알파벳이 아닌 것 이런 걸 전부 다 플러스니까 한 번 이상 반복되는 걸 다 포함한 매치되는 스트링 전체를 하나의 빈칸 스페이스로 대체한다.
此外,对于数字或非字母的部分,将重复一次以上的所有匹配字符串替换为一个空格。

네 그리고 나서 보면 여기 소문자로 바꿔주는 이런 함수를 실행하게 돼 있죠.
是的,然后我们会看到这里有一个将文本转换为小写的函数。

그러니까 이런 부분이 없어지고 나면 결국 밑에 예로 나와 있는 거에 왼쪽에 있는 그런 텍스트는 이렇게 쓸데없는 부분이 지워진 상태로 핵심이 되는 그런 단어들만 남게 돼 있습니다.
如果这些部分消失后,最终在下面的示例左侧的文本中,这些无用的部分就会被清除,只剩下核心的词语。


Attendees 1 10:58
出席者 1 10:58

이런 프리 프로세싱을 우리가 일단 할 수 있고 네 그다음에 이제 텍스트를 단어들의 어떤 리스트로 표현하는 걸 이제 수행해야 되는데 그걸 우리가 토크나이징 한다고 얘기합니다.
我们首先可以进行这种预处理,然后接下来需要将文本表示为单词列表,我们称之为分词。

앞서와 같은 간단한 프리 프로세싱을 한 이후에 NLTK에 있는 워드 토크 아이즈 같은 함수를 사용하면 밑에 그림이 보이는 것처럼 이런 어떤 단어들의 시퀀스인 센텐스가 이게 중간 단계는 생략돼 있는데 예를 들면 이런 게 다 없어지고 대문자가 소문자로 바뀌고 중간에 이런 쉼표도 다 없어지겠네요.
在进行如前所述的简单预处理之后,使用 NLTK 中的词分词函数,就像下面图片所示的那样,这个句子会变成单词序列,中间的步骤被省略了,例如所有的东西都会消失,大写字母会变成小写,中间的逗号也会消失。

그리고 나서 각 단어들을 엘리먼트라는 리스트가 아래와 같이 만들어지게 됩니다.
然后,每个单词都会按照如下方式创建为一个名为元素的列表。

이런 걸 우리가 토크나이징을 한다고 얘기하고
我们称这种操作为分词。


Attendees 1 11:58
与会者 1 11:58

네 그다음에는 그걸 물론 이제 그대로 써도 되지만 스테밍이라는 작업을 하기도 합니다.
是的,接下来,当然可以直接使用它,但也可以进行词干提取(stemming)操作。

스테밍이라는 건 뭐냐 하면 영어 같은 경우에 명사가 복수형이 되면서 이게 단어가 변형이 오죠.
所谓的词干提取(stemming 的,就是在像英语这,当名词变成复数形式时,出现单词变形。

예를 들면 s가 붙는다든지 혹은 동사가 시대가 바뀌면서 ing나 ED가 붙는다든지 그런 것들이 약간씩 변형된 모습인데 사실은 같은 의미를 갖는 단어이니까 이런 걸 전부 다 그것의 스템으로 다 대치를 하는 겁니다.
例如,像是加 s,或者动词随随着时化代变 ing 或 ED 等,,这上是意意意,所以这些都变形的词。进行替换。

다양한 형태의 스테이밍하는 함수들이 있고 NLTK에서 우리가 사용할 수 있는 것 중에 포터 스테머라는 게 있습니다.
存在各种形式的词干提取函数,在 NLTK 中,我们可以使用波特词干提取器。

그래서 포터 스테머에 스탠이라는 함수를 쓰면 바로 각 단어의 어떤 루트 폼을 찾아서 바꿔주게 되는 역할을 합니다.
因此,如果使用波特词干提取器中的 stem 函数,它会直接找到并替换每个单词的词根形式。

네 예를 들면 앞에 그 단어들의 리스트가 만들어져 있는 것에서 각각의 단어에 대해 스테밍을 하게 되면 변함이 없는 단어들이 있고 예를 들어서 이런 단어는 이건 원래 원형이니 샤인이다 이거죠.
例如,在前面已经创建了这些单词的列表,对每个单词进行词干提取后,会发现有些单词保持不变,比如说这个词本来的原形就是"闪耀"。


Attendees 1 13:16
与会者 1 13:16

또 이런 것은 라이크 스인데 원형이 라이크 여기 또 러닝이 원형을 2번 이렇게 바꿔주는 걸 우리가 스테밍을 한다고 합니다.
这也是像一个 like,原形是 like,这里还有一个 running,原形被修改了 2 次,我们称之为词干提取。


Attendees 1 13:31
与会者 1 13:31

네 그다음에는 주로 우리가 텍스트를 가지고 예컨대 클래시피케이션을 한다고 하거나 할 때 각 단어들이 갖는 어떤 의미에 따라서 텍스트 전체가 이제 분류되게 될 텐데 그런 의미에 따른 분류에 별로 영향을 미치지 않는 그 의미상 이렇게 그런 분류 같은 데 정보력이 없는 그런 단어들이 있습니다.
当我们处理文本,比如进行分类时,每个单词的意义会影响整个文本的分类,但有些词语对分类的信息贡献很少,这些词在语义上几乎没有分类价值。

그런 걸 우리가 스톱 워드라고 표현하고 우리가 전처리를 하면서 할 수 있는 것 중에 또 하나는 바로 그런 스톱워드를 이제 데이터에서 제거하는 겁니다.
我们将这种词语称为停用词,在文本预处理过程中,一个常见的做法就是从数据中删除这些停用词。

예를 들어서 대표적으로 이런 것들이 있죠. 어나 더 같은 관사 그다음에 이즈 아 같은 b 동사 이 같은 대명사 전치사 이런 것들이 있습니다.
举例来说,主要有这些。像 an 或 the 这样的冠词,然后是 is、are 这样的动词,以及代词、介词等。

이런 건 어떤 텍스트의 의미 표현과 크게 관련이 없다고 볼 수가 있겠죠.
这些可以认为与文本的意义表达关系不大。


Attendees 1 14:34
与会者 1 14:34

네 그래서 NLTK에는 언어마다 그런 이제 스타보드에 해당하는 리스트들을 제공해서 우리는 그거를 가져와서 예를 들면 여기 리모브 스터버드라는 함수를 간단하게 작성했는데 이거는 텍스트 안에서 해당되는 스톱워드에 있는 것이 아닌 것만 걸러내는 이런 작업을 할 수가 있죠.
是的,所以 NLTK 为每种语言提供了相应的列表,我们可以从中获取。例如,我们简单地编写了一个名为"remove_stop_words"的函数,这个函数可以过滤掉文本中不在停用词列表中的词语。

그럼 예를 들면 위에 지금 12개의 단어로 구성된 텍스트가 있는데 그 리스트로 표현돼 있는데 여기서 별 의미 없는 이런 단어들을 전부 다 제외하는 겁니다.
举个例子,现在有一个由 12 个单词组成的文本,它以列表形式呈现,在这里我们要排除所有这些无意义的单词。

더 비스 앤드 대문자 이런 것을 제거하고 나면 이제 6개의 단어로 구성된 리스트만 남게 되겠죠.
如果去除大小写和其他标点后,列表就只剩下 6 个单词了。

이것이 이제 어떤 의미 표현과 관련된 단어들이다 이렇게 볼 수가 있겠습니다.
这现在是与某种意义表达相关的词语,可以这样看。


Attendees 1 15:36
与会者 1 15:36

네 거기서 조금 더 나아가면 우리가 모폴로지컬 어날리시스를 할 수도 있습니다.
在那里再往前一点,我们还可以进行形态学分析。

모폴로지컬 어날리시스는 각 단어들의 어떤 형태 를 분석하는 걸 말하는 거고 예를 들면 아까 복수형에서 s가 붙은 거라든지 혹은 동사의 과거 양의 ED가 붙은 것 이런 것들을 이제 분석해서 시제를 판별한다든지 하는 그런 작업들을 할 수도 있고 원형을 찾아내는 그런 작업들을 할 수도 있는 거죠.
形态学分析是指分析每个单词的形态,例如之前提到的复数形式加 s,或动词过去时加 ED 等,通过这些分析可以判断时态,也可以找出词根。

특히 그중에서 우리가 파트 오브 스피치라고 해서 이것은 품사를 의미합니다.
特别是在这些中,我们所说的词性部分(Part of Speech)是指语法范畴。

즉 각 단어가 어떤 품사인지를 판별해내는 것 이런 것까지 포함해서 우리가 모폴로지컬 어날리시스라고 하고 이런 품사를 이제 판별해서 각각의 단어가 무슨 품사인지를 결정하는 것을 POS 태깅을 한다고 얘기를 합니다.
也就是说,判断每个单词的词性,包括这些内容,我们称之为形态学分析(Morphological Analysis),并且通过判断词性来确定每个单词属于哪种词性,这就是所谓的词性标注(POS Tagging)。

그래서 예를 들면 이런 텍스트가 있다면 이 텍스트의 각각에 대해서 태깅을 지금 한 결과가 오른쪽에 있는데 품사라 그러면 굉장히 다양한 우리가 문법적으로 정의하기 나름으로 다양한 품사가 있을 수가 있죠.
因此,例如,如果有这样的文本,对于每个文本的标记结果现在在右侧,如果是词性,那么根据语法定义,我们可以有非常多样的词性。


Attendees 1 16:51
与会者 1 16:51

대표적인 건 예를 들어서 명사 공사 등등등이 있을 수 있어서 각각이 어떤 품사에 해당하는지를 분석해서 결정해 주는 이런 과정을 말합니다.
典型的例子是,比如名词、动词等等,通过分析每个词属于什么词性来确定,这就是这个过程。

그래서 오른쪽에 보면 더는 반사다 써는 이 텍스트에서 명사다 이즈는 b 동사다.
因此在右侧,这个文本中的名词是这个和 b 是动词。

각각의 기호가 뭘 나타내는지는 각각의 이제 품사를 결정하는 그런 라이브러리 또는 이제 문법 체계에 따라서 이름은 각각 다르게 주어질 수 있습니다.
每个符号代表什么,取决于不同的词性标注库或语法系统,名称可能会有所不同。

대체로 보면 n이 어떤 명사의 한 종류 v로 시작하는 것들이 동사의 어떤 형태 이런 걸 나타내는 거겠죠.
总的来说,n 是某种名词的一种类型,以 v 开头的是动词的某种形式,就是这样表示的。


Attendees 1 17:39
参会者 1 17:39

네 우리 말 한국어와 관련돼서는 좀 한국어에 특징들이 있기 때문에 한국어를 분석하는 여러 가지 함수들을 모아놓은 라이브러리가 또 있습니다.
是的,关于我们的语言韩语,由于有一些韩语的特点,所以有一个收集了用于分析韩语的各种函数的库。

그래서 대표적인 것으로서 4 nlpy 같은 라이브러리 를 우리가 쓸 수 있는데 이 라이브러리에 보면 방금 얘기한 것 같은 단어의 분석 모폴로지컬 어나시스를 한다든지 예를 들면 여기 명사만을 텍스트에 추출한다든지 품사 태깅을 한다든지 이런 것들을 할 수 있는 함수들이 있고 여기 밑에 이상한 이름들이 쭉 나열돼 있는 건 그런 모폴로지컬 어날리시스를 하는 다양한 알고리즘 또 다양한 함수들이 있어서 서로 다른 라이브러리의 이름들입니다.
因此,我们可以使用的代表性库之一是 4 nlpy,在这个库中,你可以看到刚才提到的像单词分析形态学分析这样的功能,比如从文本中提取名词,进行词性标注等。下面列出的那些奇怪的名称是用于进行各种形态学分析的不同算法和函数,来自不同的库。

그래서 이것들이 저마다 약간의 차이점이 있고 이제 용도의 필요에 따라서 이런 것들 중에 하나를 선택해서 우리가 이런 분석을 수행하면 되겠습니다.
因此,这些有一些细微的差异,根据需要的用途,我们可以从中选择一种来进行这种分析。


Attendees 1 18:43
与会者 1 18:43

몇 가지만 우리가 살펴볼 텐데 네 우선 아까 영어 같은 경우에 그런 모폴로지카 어널시스 스테밍 품사의 결정 이런 것들의 예를 봤고 한국어의 경우에는 조금 단어의 분석이 약간 다른데 한국어는 밑에 한번 예를 보죠.
我们将看看几个例子。首先,对于英语,我们已经看到了形态学分析、词干提取、词性确定等示例。而对于韩语,单词分析略有不同,让我们看看下面的例子。

하늘을 나는 이렇게 쭉 나와 있는 텍스트가 있습니다.
有这样一段文字,像是在天空中飞行。

이거를 우리가 앞서 토크나이즈 하듯이 이 빈칸 스페이스를 기준으로 쭉 나눠서 리스트를 하면 이렇게 되겠죠.
如果我们像之前标记化那样按照空格将其分开,那么列表就会像这样。

그런데 우리 말은 사실은 이것이 한 단어는 아닙니다.
但是实际上,我们的语言并不是这样的一个单词。

그래서 하늘 을이라는 단어가 사전에 있는 건 아니죠.
所以"하늘 을"这样的词在词典中并不存在。

보통 우리 말은 명사 동사 형사의 조사나 어미 같은 것들이 하나 이상 붙어서 어조를 형성하게 됩니다.
通常我们的语言是由名词、动词、形容词以及一个或多个助词和词尾构成语气。

그래서 한국어는 우리가 모폴로지 카오나시스를 형태소 분석을 한다 이렇게 얘기하고 그때 형태소라는 건 뭐냐 하면 의미를 독립적인 의미를 갖는 최소 단위를 형태소라고 이야기합니다.
因此,对于韩语,我们说进行形态学分析(形态素分析),这里所说的形态素是指具有独立意义的最小单位。


Attendees 1 19:59
与会者 1 19:59

그래서 간단히 보자면 예를 들어서 이렇게 이렇게 하나의 어절이 있으면 이것은 사람은이라는 게 어떤 하나의 의미를 갖는 단어가 아니라 이것은 사람이라는 명사와 은이라는 조사가 합쳐진 형태다 하는 거죠.
简单来说,例如,如果有一个词,对于人来说,这不仅仅是一个有意义的词,而是由"人"这个名词和"은"这个助词组合而成。

또 집에 가고 싶다 이런 얘기를 할 때 각오라는 것은 이것은 가다는 동사와 고라는 어미가 붙어서 만들어진 어절이다.
还有说想回家的时候,"各오"是由动词"가다"和词尾"고"组合而成的词。

즉 요 안에 어떤 형태 속으로 이렇게 만들어져 있는가를 분석을 해서 밑에 있는 것 같이 이렇게 표현하는 것이 맞다 이거죠.
就是分析这个要素内部是如何形成的,然后像下面这样表达是正确的。

이 텍스트는 하늘 그다음에 을 그다음에 나 는 이렇게 이렇게 우리가 분석을 하는 걸 형태소 분석이라고 얘기를 합니다.
这段文字是天空,然后是某个东西,然后是"我",我们这样分析,这就叫做形态分析。

네 그래서 앞서 나열되어 있던 예시 라이브러리 중에 okt라는 것을 예로 들어서 보면 okt의 MF라는 함수는 바로 그런 토크나이징을 하는데 이때 이게 형태도 분석을 해서 토큰들을 나누는데 여기 보면 옵션으로 스테밍도 할 건지 이런 걸 선택하게 돼 있습니다.
是的,所以如果查看之前列出的示例库中的 OKT,它的 MF 函数就是用于这种分词的,它通过形态分析来分割标记,在这里你可以看到有选项可以选择是否进行词干提取等。


Attendees 1 21:20
与会者 1 21:20

그래서 이런 모폴로지카 오날리시스를 하는 함수를 수행하게 되면 바로 앞서 본 것처럼 형태소 분석을 필요하면 수행을 해서 이런 데도 있죠.
因此,当执行这种形态学分析函数时,像之前看到的那样,如果需要,就进行形态分析。

이것이 이런 토큰들로 만들어지는 이런 역할을 합니다.
这些标记的组合起到这种作用。

okt 같은 경우에 여러 가지 함수들이 제공돼서 예를 들면 명사만을 끄집어내는 이런 함수를 사용하면 여기서 형태소 분석을 다 한 다음에 이 안에 품사도 결정해서 이 안에 들어 있는 명사들은 뭔가 하는 것을 이렇게 나타내주는 이런 작업을 우리가 수행할 수도 있고 네 POS 태깅을 하기 위해서 POS라는 함수를 쓰게 되면 형태소 분석을 하고 그다음에 품사를 결정해서 아래와 같은 리스트를 만들어주기도 합니다.
对于 OKT 来说,提供了多种功能,例如可以使用提取名词的函数。在进行形态分析后,确定词性并展示出其中的名词。我们可以执行这种操作,并且通过使用 POS 函数进行 POS 标注,完成形态分析并确定词性,生成如下列表。

네 여기 참고로 이 결과는 사실은 여기 오류가 약간 있습니다.
是的,请注意,这个结果实际上存在一些小错误。


Attendees 1 22:30
与会者 1 22:30

여기 보면 어떻게 분석을 했냐 하면 이 텍스트를 하늘 이라는 명사에 조사가 붙은 것과 나라는 명사에 는이라는 또 주격 조서가 붙은 걸로 분석을 했는데 사실은 이럴 수도 있긴 하겠습니다만 원래 문장에서는 하늘을 나누네 나누는 이것은 날다라는 동사 플러스 는으로 분석이 되는 것이 아마 맞겠죠.
如果观察分析方式,这段文本是分析了带有助词的名词"天空"和带有主格助词"是"的名词"国"。虽然这种分析是可以的,但实际上原句中更可能是将"分开"理解为动词"飞"加上助词"是"的分析。

이런 건 약간 오류 내지는 모호성이 있는 거다 이렇게 생각할 수가 있겠네요.
这种情况可能存在一些错误或模糊性,可以这样思考。


Attendees 1 23:10
与会者 1 23:10

네 그래서 그런 지금까지 본 프리 프로세싱을 통해서 클리닝을 하고 그다음에 이 토큰들로 구분하고 필요하다면 스테밍을 하거나 품사 결정을 하거나 이런 작업들을 할 수가 있습니다.
是的,通过到目前为止所看到的预处理,我们可以进行清洗,然后按照标记进行分割,必要时还可以进行词干提取或词性标注等操作。

네 그렇게 해서 우리가 필요로 하는 단어들을 우선 추려내고 나면 그다음에 이제 전체 텍스트를 표현하는 대표적인 방법으로 백 오브 워드 모델이 있습니다.
是的,当我们先筛选出所需的单词后,接下来表示整个文本的一个典型方法就是词袋模型。

우리가 여기 용어를 좀 앞에 정의를 해야 될 것을 또 빨간색으로 표시했는데 일단 각각의 토큰이라는 것은 단어 들을 나타내는 거죠.
我们需要在这里定义术语,并在前面用红色标记出来。首先,每个标记都代表单词。

그걸 우리가 턴이라고 표현하기도 하고 그다음에 그 단어들의 시퀀스로 어떤 문장 또는 두 개 이상의 어떤 문장이 하나의 텍스트를 이루게 되는데 그걸 우리가 다큐먼트라고 표현합니다.
我们称之为词轮,然后这些单词的序列组成一个句子,或者两个或多个句子构成一个文本,我们称之为文档。

그러니까 하나 또는 그 이상의 문장으로 표현된 하나의 텍스트 다큐먼트가 하나의 데이터인 거죠.
也就是说,一个文本文档可以由一个或多个句子表达,这就是一个数据。

그래서 그 데이터를 클래시피케이션을 하겠다 뭐 이런 겁니다.
所以我们要对这些数据进行分类。


Attendees 1 24:27
与会者 1 24:27

그리고 그것들이 모여져 있는 것을 우리가 코퍼스 우리 말로는 말뭉치라고 이야기하기도 합니다.
而这些聚集在一起的内容,我们称之为语料库,或者用我们的语言说是文本语料库。

백오브 워드는 그래서 데이터가 주어집니다. 텍스트들 텍스트 데이터가 여러 개 있다.
因此给出了词袋模型的数据。有多个文本数据。

즉 다큐먼트들이 여러 개 있습니다. 그것들은 각각 어떤 텀들로 구성이 돼 있습니다.
也就是说,有多个文档。它们各自由某些术语组成。

그러면 내가 다루는 모든 데이터셋 전체에 어떤 구분되는 텀 즉 단어들이 있는지를 가지고 우리는 단어들의 집합을 우선 결정하게 되는데 그걸 우리가 다루는 보케뷰러리 네 그러면 백 오브 워드는 뭐냐 하면 여기 지금 종이 백이 있죠.
然后,对于我处理的所有数据集,我们首先会根据其中区分的术语,即单词,来确定单词的集合,我们称之为词汇表。那么,什么是词袋模型呢?这里有一个袋子。

백 안에 여러 가지가 이렇게 뒤섞여서 담겨 있는 것처럼 하나의 텍스트 데이터 혹은 다큐먼트를 그 다큐먼트에 포함된 텀 단어들의 집합으로 보고 원화 표현을 하는 겁니다.
就像袋子里混杂地装着各种东西一样,我们将文本数据或文档视为由该文档中包含的术语(单词)的集合来表示。


Attendees 1 25:34
出席人数 1 25:34

그래서 여기 보면 피처 벡터를 우리가 구축하는데 각각의 다큐먼트에 대해서 피처 벡터는 그 안에 등장하는 텀들의 텀들이 있는지 없는지 혹은 텀들의 카운트로 표현하는 거죠.
所以在这里,我们构建特征向量,对于每个文档,特征向量是通过其中出现的术语是否存在或术语的计数来表示的。

예를 들면 여기 지금 6개의 단어로 표현된 하나의 간단한 텍스트가 있습니다.
例如,这里有一个由 6 个单词组成的简单文本。

만약에 우리가 다루는 전체 데이터의 포케비러리가 이만큼 있다고 해보죠.
假设我们处理的整个词汇量就是这么多。

이것이 우리의 포케비러리입니다. 여기는 지금 아주 조금만 나타나 있지만 보통 굉장히 많은 복해비를 우리가 쓰게 되겠죠.
这是我们的词汇表。虽然现在只显示了一小部分,但通常我们会使用大量的复合词。

위에 있는 텍스트를 네 그리고 그 복회비럴에 있는 단어들을 지금 알파벳 순으로 쭉 나열한 겁니다.
上面的文本是按字母顺序排列的,包括复合词中的单词。

그냥 8개만 있다고 해보죠. 위에 있는 텍스트는 다음과 같이 표현해 무슨 뜻이냐 하면 이 안에 더라는 단어가 있어 독이라는 단어가 있고 이즈라는 단어가 있고 on이라는 단어 도가 또 있는데 여기서는 그냥 있다 없다로만 표현했네요.
假设只有 8 个。上面的文本可以这样表示,意思是在这里有"更多"、"毒"、"伊斯"这些词,还有"on"这个词,但在这里只是用了有或没有来表示。

테이블이라는 단어가 있다 그러면 다른 단어들은 없으니까 0입니다.
如果有"表"这个词,那么其他词就没有,所以是 0。


Attendees 1 26:55
与会者 1 26:55

그러면 이것은 어떤 피처 벡터로 표현되냐 하면 00 11 0 1 1 1이 되는 거죠.
那么这将表示为什么样的特征向量呢?它将成为 00 11 0 1 1 1。

네 참고로 우리가 잠깐 생각해 보면 여기서 이렇게 표현하면은 사실 여기 우리가 놓치는 정보가 있죠.
如果我们稍微思考一下,在这里这样表达的话,实际上我们忽略了一些信息。

뭐냐 하면 이건 단어들의 집합으로 말하자면 어떤 텍스트를 표현하는 셈인데 실제 텍스트의 의미 같은 것을 우리가 명확히 파악하려면 단어들의 순서가 더 중요하죠.
换句话说,这是由词语组成的集合,如果要用这些词语来表达某个文本,那么要准确把握文本的实际含义,词语的顺序就更加重要了。

여기서는 순서 인포메이션은 없어지는 거라고 볼 수가 있겠습니다.
在这里,我们可以认为顺序信息已经消失了。


Attendees 1 27:35
参会者 1 27:35

네 지금 우리가 다룬 라이브러리에서 예컨대 카운트 벡터라이저라는 클래스가 바로 그런 역할을 해줍니다.
在我们现在处理的库中,例如计数矢量化器这个类就是执行这种功能。

카운트 베터라이저는 여기 지금 얘에 데이터가 3개가 있습니다.
计数矢量化器在这里现在有 3 个数据。

첫 번째 데이터 우리가 이걸 다큐먼트 원이라고 해보죠.
让我们称这个为第一个文档。

두 번째 데이터 세 번째 데이터 네 카운트 베터라이저를 가지고 이 데이터셋을 핏 트랜스폼 하게 되면 얘네들이 바로 앞에서 우리가 간단히 본 것 같은 그런 백업 워드 표현을 만들어주는데 즉 어떤 여기 다큐먼트 텀 매트릭스라고 하는 행렬을 만들어줍니다.
对于第二个和第三个数据,如果使用计数矢量器对这个数据集进行拟合转换,它们将直接创建我们之前简单看到的词袋表示,即创建一个所谓的文档-词条矩阵。

다큐먼트 텀 매트릭스는 아래 보는 것처럼 네 첫 번째 다큐멘트 첫 번째 데이터죠.
文档术语矩阵就像下面看到的那样,是第一个文档的第一个数据。

첫 번째 데이터를 이 원 핫 표현으로 전체 복회비로에 대해서 원화 표현을 찾아주고 그다음에 두 번째에 대해서 또 원화 표현 세 번째에 대해서 원화 표현을 찾아준다.
第一个数据用这个 one-hot 表示来寻找整体货币比率的原始表示,然后对于第二个数据也找原始表示,对于第三个数据也找原始表示。

네 여기에서 보면 이쪽이 다큐먼트들이고 이 열들이 바로 보케비로리 인 거죠.
在这里我们可以看到,这边是文档,这些列实际上就是词汇表。

이제 데이터 전체에서 독해을 찾아서 알파벳 순으로 지금 나열했고 그것이 각각의 컬럼입니다.
现在我们从整个数据中找出词条,并按字母顺序排列,这就是每一列的内容。


Attendees 1 29:09
与会者 1 29:09

보시면 되니까 텀들을 나타내는 거죠. 이렇게 만들어진 매트릭스를 우리가 다큐먼트 텀 매트릭스라고 얘기하고 이 데이터 전체가 이렇게 변 네 카운터 벡터라이저는 보통 텀이 굉장히 이제 보큐브로 사이즈가 크니까 상당히 많은 엘리먼트가 0으로 표현될 수가 있겠죠.
如您所见,这是表示术语的方式。这样创建的矩阵我们称之为文档-术语矩阵,并且整个数据现在是这样的。计数矢量化器通常因为词汇量非常大,所以可以预见会有大量元素表示为 0。

그래서 보통 스파스 매트릭스 형태로 결과를 리턴하게 돼 있어서 스파스 매트릭스를 우리가 다루는 논파의 행렬 같은 걸로 하기 위해서는 투 어레이 메소드를 써서 이 변화할 수 있습니다.
因此,通常以稀疏矩阵的形式返回结果,为了使用我们处理的非参数矩阵,可以使用 toarray 方法进行转换。

네 그래서 이렇게 변환한 결과를 보면 이런 형태가 된다는 거죠.
是的,这样转换后的结果就是这种形式。

이것이 우리의 텍스트 데이터의 행렬 표현이다 이렇게 할 수가 있겠습니다.
这是我们文本数据的矩阵表示。这样就可以了。


Attendees 1 30:09
参会人员 1 30:09

네 요 각각의 지금 엘리먼트가 뭘 나타내고 있냐 하면 각 다큐먼트 즉 텍스트 데이터의 빈도 수를 지금 표현하고 있었죠.
是的,现在每个元素代表的是什么,是表示每个文档,即文本数据的频率。

그러니까 없다 0 혹은 한 번 혹은 두 번 나타내는 게 있다는 것에 따라서 0 1 2 3 이런 값을 가지고 있었습니다.
也就是说,根据是否出现 0 次,或者 1 次或 2 次,它具有 0、1、2、3 这样的值。

이걸 조금 더 어떤 각각의 텀이 갖는 중요성 이런 거에 따라서 가중치를 둬서 표현할 수도 있는데 그럴 때 대표적으로 사용하는 게 TF IDF 웨이팅이라는 겁니다.
这可以根据每个词条的重要性来赋予不同的权重来表达,在这种情况下,最典型的做法是使用 TF-IDF 权重。

그래서 그걸 잠깐 살펴보려고 합니다. tfidf 웨이팅은 이름은 여기서 온 겁니다.
所以我想稍微看一下这个。TF-IDF 权重的名称就源于此。

텀 프리퀀시 인버스 다큐먼트 프리퀀시 그래서 이 두 가지의 어떤 프리퀀시 매저를 가지고 웨이트를 계산하는 그런 방법입니다.
词频-逆文档频率,这是用这两种频率测量来计算权重的方法。


Attendees 1 31:08
与会者 1 31:08

기본 개념은 뭐냐 하면 내가 어떤 단어가 앞서 다큐먼트 텀 매트릭스에 보면 많이 등장할수록 큰 값을 갖게 될 텐데 없으면 제로고 그렇죠 그런데 우리가 어떤 텍스트 안에 어떤 단어가 많이 등장한다고 해서 단순히 그것이 중요한 단어다 이렇게 보기는 좀 어렵습니다.
基本概念是,如果在文档词矩阵中某个词出现得越多,它就会得到越大的值,如果没有出现则为零。但是,我们不能简单地认为在某个文本中出现频繁的词就是重要的词。

왜냐하면 예를 들어서 더 같은 단어들은 흔하게 많이 등장할 테니까 그렇죠.
因为例如像"的"这样的词会经常出现,对吧。

그래서 우리가 두 가지를 따져보는데 하나는 앞서 우리가 한 것과 같은 몇 번 등장하느냐를 나타내는 수치를 우선 텀 프리퀀시라고 그래서 이걸 계산할 수 있습니다.
所以我们要考虑两个方面,其中之一是像我们之前做的那样,计算词频,即词项出现的次数,我们称之为词项频率。

이거는 뭐냐 하면 그 다큐먼트의 그 텀 단어가 몇 번이나 등장하느냐 그건 단순한 빈도죠.
这是什么呢?就是在文档中某个词或单词出现的次数,这只是简单的频率。

그런데 그것만 가지고 우리가 하는 게 아니라 두 번째 인버스 다큐먼트 피퀀시를 우리가 따져보고 이걸 같이 쓰겠다는 거죠.
但是,我们不仅仅是用这个,还要考虑第二个逆文档频率,并一起使用。

인버스 다큐먼트 프리퀀시는 뭐냐 하면 특정 단어에 대해서 그 단어가 얼마나 많은 서로 다른 다큐먼트에 등장하는지를 카운트를 해서 그것의 역수를 계산합니다.
逆文档频率是什么呢?它是对特定词语计算该词语在多少不同文档中出现,然后计算其倒数。


Attendees 1 32:29
出席人数 1 32:29

네 의미는 뭐냐 하면 만약에 어떤 단어가 굉장히 많은 다큐먼트 그러니까 서로 다른 텍스트 데이터에 다 등장한다면 위에서 우리가 예를 든 더 같은 관사처럼 그러면 그것은 별 의미가 없는 단어다.
它的意思是,如果某个单词出现在非常多的文档,即不同的文本数据中,就像我们之前举的冠词的例子,那么这个词就没有太多意义。

즉 클래시피케이션을 하거나 의미 분석을 할 때 별 중요성이 없는 단어다 이렇게 볼 수가 있다는 거죠.
即在进行分类或语义分析时,这些词可以被认为没有太大重要性。

네 그래서 IDF식은 여기 나타난 것과 같이 이렇게 우리가 다 df는 뭐냐 하면 특정한 t라는 텀이 얼마나 많은 서로 다른 다큐멘트에 등장했는지를 나타내는 빈도 수입니다.
是的,所以 IDF 公式如这里所示,df 是指特定术语 t 在不同文档中出现的频率。

그것의 역수 를 계산한다는 거죠. 위에 ND라는 것은 토탈 넘버 오브 다큐먼트니까 이게 상수고 턴마다 df가 서로 다 다른데 이 값이 크면 클수록 작은 값을 갖는다는 거죠.
计算其倒数。上面的 ND 是文档总数,这是一个常数,而每一项的 df 都不同,如果这个值越大,就会得到越小的值。

0이 안 되기 위해서 1을 더했고 전체 로그를 취해서 사용하는 네 그러면 tfidf는 뭐냐 하면 이 두 가지를 에서 사용하는 가중치죠.
为了避免为 0,加了 1,并对整体取对数,那么 tfidf 是什么呢?它是这两种方法中使用的权重。


Attendees 1 33:36
参会人员 1 33:36

즉 우리가 말로 표현한다면 어떤 단어의 어떤 다큐먼트에서의 중요도 가중치라는 것은 그 안에 많이 등장할수록 중요한 거이면서 동시에 인버스 서로 다른 다큐먼트에 많이 등장하지 않아야 중요한 단어다 이런 뜻을 가지고 있다고 볼 수 있겠습니다.
换句话说,如果用语言表达,某个单词在特定文档中的重要性权重意味着它在文档中出现得越多就越重要,同时又不应该在其他文档中过于频繁出现,这就是重要单词的含义。

그래서 간단한 예를 하나 만들어서 우리가 살펴보면 만약에 우리가 내가 다루는 텍스트 데이터가 총 천 개 있습니다.
所以让我们来看一个简单的例子,假设我们处理的文本数据总共有一千个。

다큐먼트가 총 천 개입니다. 나는 AI라는 단어와 컴퓨터라는 단어를 지금 보려고 합니다.
总共有一千个文档。我现在想查看"AI"和"计算机"这两个词。

AI라는 단어는 1번 다큐먼트에 대해서 그 안에 두 번 등장했습니다.
AI 这个词在第 1 个文档中出现了两次。

컴퓨터라는 단어는 1번 다큐먼트에 세 번 등장했습니다.
计算机这个词在第 1 个文档中出现了三次。

텀 프리퀀시라고 그러는 거죠.
这就是所谓的词频。


Attendees 1 34:32
参会人员 1 34:32

단순 빈도 그러면 이것만 갖고 봤을 때는 컴퓨터라는 단어가 더 많이 등장했으니까 이 다큐먼트 안에 컴퓨터가 더 중요한 단어일까 이렇게 생각할 수가 있는데 인버스 다큐먼트 프리퀀시라는 걸 우리가 따지려고 이걸 한번 해보면 다큐먼트 프리퀀시를 따져보니까 AI라는 단어는 위에 천개의 다큐먼트가 있다 그랬죠.
如果仅仅看频率,因为"计算机"这个词出现得更多,所以可能会认为在这个文档中计算机是一个更重要的词。但是如果我们考虑逆文档频率,我们可以看看文档频率:关于 AI 这个词,我们之前说过上千个文档中。

그중에 1 100개의 다큐먼트에 AI라는 단어가 등장합니다.
在这些文档中,大约有 100 个文档出现了 AI 这个词。

그런데 컴퓨터라는 단어는 무려 100개의 서로 다른 다큐먼트에 이 단어가 등장을 합니다.
然而,"计算机"这个词出现在足足 100 个不同的文档中。

그러면 뭐냐 하면 컴퓨터는 굉장히 보편적으로 많이 등장하는 단어구나 그러니까 이런 클래스를 구분한다든지 이런 걸 할 때 상대적으로 덜 중요한 단어일 수 있고 AI라는 단어가 좀 더 어떤 특별한 스페시픽한 단어일 거다라고 볼 수가 있죠.
那么,意思是计算机是一个非常普遍的常见词,所以在区分类别时,它可能是相对不那么重要的词,而"人工智能"这个词可能是一个更特殊、更具体的词。

그래서 이거에 인볼스로 반비례학의 중요도를 넣는 거죠.
所以这里是关于反比例学的重要性的参与。


Attendees 1 35:32
参会者 1 35:32

그러면 tfidf를 만약에 계산해 본다면 AI라는 단어의 1번 다큐먼트에서의 중요 가중치라는 것은 텀프리퀀스에다가 네 뒤에 1 더하고 이런 거 없이 간단하게 그냥 역수 계산하고 로그를 취했습니다.
如果计算 TFIDF,那么 AI 这个单词在第 1 个文档中的重要权重是通过项频率直接计算对数,没有额外的加 1 或其他复杂操作。

그러니까 전체에 10번 등장하는 이 단어이므로 로그 10분의 추천 하면은 10일 미만 로그로 그냥 계산했습니다.
也就是说,对于在整个文档中出现 10 次的这个单词,我们直接计算了 log(10)。

이거는 2니까 그죠 2 곱하기 2해서 4가 되겠죠.
这是 2,对吧?2 乘以 2 就会得到 4。

컴퓨터라는 단어에 마찬가지 따져보면 이거는 텀 프리퀀시는 아까 3이라 그랬고 하지만 굉장히 많은 단어에 등장하기 때문에 인버스 다큐먼트 프리퀀시를 계산해 보면 이것은 1이 돼서 이걸 곱한 값은 3이 되는 즉 tfidf 가중치로 우리가 따져본다면 AI라는 단어가 컴퓨터라는 단어보다는 좀 더 가중치를 높게 둘 수 있는 중요한 단어가 된다 그런 의미가 되겠습니다.
关于"计算机"这个词,同样地追究的话,之前说词频是 3,但是因为它出现在非常多的词中,所以计算逆文档频率的话,这个值会是 1,所以乘积值是 3,即如果我们用 TF-IDF 权重来衡量的话,"AI"这个词比"计算机"这个词有更高的权重,这就意味着它是一个更重要的词。

그래서 이건 흔하게 우리가 사용하는 가중치 방식이고 네 이런 형태로 이런 가중치를 준 행렬을 계산해 주는 TF IDF 벡터라이저가 따로 있습니다.
所以这是我们常用的加权方式,是的,有一个专门的 TF-IDF 向量化器可以计算这种形式的权重矩阵。


Attendees 1 37:01
参会人员 1 37:01

네 그래서 아까와 같이 여기 다큐먼트 1, 다큐먼트 2, 다큐먼트 3가 있고 이것들을 가지고 tfid의 벡터 라이즈로 우리가 피 트랜스폼에서 행렬로 표현해 보면 오른쪽에 있는 것과 같은 행렬을 얻을 수가 있는데 다큐먼트 텀 매트릭스라고 우리가 얘기를 했죠.
是的,就像之前一样,这里有文档 1、文档 2 和文档 3,如果我们使用 TFIDF 向量化并在特征变换中表示矩阵,我们可以得到右侧的矩阵,我们称之为文档-项矩阵。

단순 프리퀀시를 했을 때는 왼쪽과 같은 결과 tfidf를 적용해 계산했을 때 오른쪽과 같은 결과를 얻을 수 있고, 네 이 중에 예를 들어서 한두 개만 우리가 살펴보면 이게 es라는 단어에 해당하는 값이었는데 단순 프리퀀시로는 첫 번째 텍스트에서 1이라는 값을 가지고 있죠.
当使用简单频率时,得到左侧的结果;当应用 TFIDF 计算时,得到右侧的结果。例如,我们仔细看看其中一两个,这是单词"es"对应的值,在简单频率中,第一个文本中的值为 1。

그런데 tfidfs는 0.44입니다. 선이라는 단어는 역시 한 번 나왔기 때문에 그냥 1이라는 값을 가지고 있었는데 tfidf 계산에서는 0.56이 됩니다.
但是 tfidfs 是 0.44。"选"这个词因为只出现了一次,所以原本只有 1 这个值,但在 tfidf 计算中变成了 0.56。


Attendees 1 38:08
出席人数 1 38:08

네 의미는 뭐냐 하면 이즈나 선이나 단순 프리퀀시를 할 때는 동일한 가중치를 갖게 되지만 앞서 설명한 것 같은 그런 개념을 적용한 tfidf를 계산하게 되면 이즈보다는 선이 조금 더 어떤 의미상의 분류나 이런 걸 하는 목적에 더 중요한 그런 단어로 표현된다 그런 뜻이 되겠습니다.
它的意思是,在简单频率的时候,单词会有相同的权重,但是如果应用之前提到的概念并计算 TF-IDF,那么与"이즈"相比,"선"会成为在语义分类等目的上更重要的词语。


Attendees 1 38:37
参会人员 1 38:37

네 지금까지 우리가 본 것은 각각의 단어를 따로따로 이렇게 큰 우리가 인식을 해서 그것들이 얼마나 등장하는지를 가지고 이제 행렬 표현을 원학 벡터 형태로 나타낸 거고 좀 더 일반적으로 우리가 표현하면 엔 그램 모델이라는 것은 텍스트 안에 등장하는 토큰을 연속적인 엔 개를 묶어서 하나로 표현하는 걸 우리가 엔 그램이다 이렇게 얘기를 합니다.
到目前为止,我们看到的是单独识别每个单词,并统计它们出现的频率,然后用矩阵表示或向量形式呈现。更普遍地说,我们称之为 N-gram 模型,即将文本中连续的 N 个标记捆绑在一起表示为一个整体。

이 n 그램은 문자 단위로 우리가 생각할 수도 있고 단어 단위로 생각할 수도 있는데 그래서 아까 우리가 좀 전까지 본 백어브 워드 모델이라는 것은 사실은 각각의 단어를 하나하나 띄워서 우리가 카운트를 하는 그런 방식이었죠.
这个 N-gram 可以从字符或单词层面来考虑。所以我们之前看到的词袋模型实际上是将每个单词单独分开并计数的方式。

그거는 엔 그램 모델의 정의에서 보면 1 그램에 해당하는 거고 혹은 우리가 이걸 유니그램이라고 얘기를 합니다.
从 N-gram 模型的定义来看,这对应于 1-gram,或者我们称之为一元语法。


Attendees 1 39:47
出席者 1 39:47

그럼 1 그램이 아니라 2 그램, 3그램 4그램은 뭐냐 예를 들면 이렇게 4개의 단어가 있는 어떤 텍스트가 있다고 할 때 원 그램이라는 건 이걸 각각을 하나씩 이렇게 띄어내서 그걸 가지고 카운팅을 하든 가중치를 주든 하는 거고 2그램이라는 것은 뭐냐 하면 연속된 예컨대 두 단어를 하나의 구분되는 토큰으로 보는 거죠.
那么,不是 1-gram,而是 2-gram、3-gram、4-gram 是什么呢?举个例子,当有一个文本包含 4 个单词时,1-gram 就是将它们分开,然后进行计数或赋予权重。而 2-gram 是指将连续的两个单词视为一个独特的标记。

예를 들면 더 썬이라는 게 하나 썬이즈라는 게 또 또 다른 하나 이즈 샤이닝이라는 게 또 다른 아이템 이렇게 이제 표현하는 겁니다.
比如说,"the sun"是一个,"sun is"是另一个,"is shining"又是另一个项目,这就是表达方式。

네 이렇게 하면 우리가 아까 백 어브 워드 모델은 1그램으로서 이건 단어의 순서 정보는 다 사라지는 거라고 그랬는데 토그램을 하게 되면 약간의 그런 정보가 같이 들어가는 의미가 있겠죠.
是的,这样的话,我们之前说的词袋模型是 1-gram,意味着所有的词序信息都会消失,但是使用二元语法后,会保留一些词序信息。

앞서 우리가 봤던 카운트 베터라이저라는 것을 보면 우리가 파라미터로 몇 개를 가지고 말하자면 하나의 토큰을 구성해서 우리가 행렬을 찾을지 그걸 지정할 수도 있습니다.
回顾我们之前看到的计数向量器,如果我们谈论参数的话,可以指定如何构成一个标记,从而确定我们将构建的矩阵。


Attendees 1 41:01
与会者 1 41:01

그래서 앤 그램 레인지라고 그래서 이건 최소 그다음에 최대 값을 설정할 수 있어서 만약에 이걸 이라고 한다 그러면 나는 그러면 다큐먼트 텀 매트릭스를 이제 텍스트로부터 얻어낼 건데 그때 보케뷰럴이라는 것은 각각의 단어 가 되는 것이 아니고 이제 연속된 두 단어의 시퀀스 그러니까 이거는 만약에 단어가 내가 100개 있다 그러면 이론상 원래 원 그램에서는 보케비러리 사이즈가 100이겠지만 2그램에서는 보케비러리 사이즈가 1만 개로 늘어나게 되겠죠.
所以这是 N-gram 范围,因此你可以设置最小和最大值。如果这样说的话,我将从文本中获取文档术语矩阵,那么词汇表不是每个单词,而是连续的两个单词序列。也就是说,如果我有 100 个单词,在原始的一元语法(unigram)中,词汇表大小将是 100,但在二元语法(bigram)中,词汇表大小会扩大到 10,000。

서로 다른 두 단어의 시퀀스의 종류가 될 테니까 이렇게 해서 따지는 것을 우리가 n그램 모델이라고 얘기를 합니다.
将成为不同两个单词序列的种类,这就是我们所说的 N-gram 模型。


Attendees 1 41:57
参会人员 1 41:57

네 그래서 지금까지 프리 프로세싱 그다음에 백오브 워드 모델 1 그램 2 그램 이런 거에 대한 개념을 살펴봤고 어떤 라이브러리로 이 단어들이 그렇게 표현될 수 있는지를 살펴봤습니다.
是的,到目前为止,我们已经研究了预处理、词袋模型、1 克、2 克等概念,并且查看了可以用哪些库来表示这些词。

하나의 예로서 텍스트 데이터를 가지고 센티멘트 어날리스를 하는 것을 한번 예로 여기서 한번 보겠습니다.
举个例子,我们将以文本数据进行情感分析。

센티멘트 어날리시스라는 것은 오피니언 마이닝이라고 표현하기도 하고 우리 말로는 이걸 감성 분석이라고 합니다.
情感分析也称为观点挖掘,用中文称为情感分析。


Attendees 1 42:33
与会者 1 42:33

이건 뭐냐 하면 텍스트가 주어졌을 때 그 텍스트로부터 이 텍스트를 쓴 사용자의 감성이 뭐냐 예를 들면 긍정적인 내용 의미로 쓴 거냐 혹은 부정적인 의미로 쓴 거냐 또 감성을 어떻게 정의하느냐에 따라서 지금 행복한 거냐 뭔가 불행한 거냐 아니면 화가 난 거냐 기분이 좋은 거 뭐 이런 걸 이제 구분할 수도 있겠죠.
这是什么意思呢?当给定一段文字时,我们想从这段文字中分析写作者的情感。例如,这是用积极的意思写的还是消极的意思?情感如何定义?是现在感到快乐吗?还是感到不幸?或者生气?心情好吗?等等,我们可以对此进行区分。

그런 걸 우리가 감성 분석을 한다 이렇게 얘기하고 예를 들면 어떤 정치에 관한 메시지들이 트위터에 왔다 갔다 하는데 짧은 담론들을 보고서 이것들이 지금 후보를 지지한다는 의미인지 아니면 반대한다는 의미인지를 자동으로 캐치한다든지 아니면 어떤 쇼핑몰의 아이템에 대한 리뷰 그런 짧은 텍스트들을 써놓은 걸 보고 이것이 지금 어떤 프로덕트가 좀 좋다는 뜻으로 한 건지 나쁘다는 뜻으로 한 건지 그런 걸 분석하는 거라고 볼 수가 있겠습니다.
比如说,我们进行情感分析,举个例子,在推特上来回传播的一些关于政治的消息,看这些简短的言论,自动捕捉它们是支持候选人还是反对候选人,或者是查看某个购物网站商品的评论,通过这些简短的文本来分析这个产品是被认为好还是不好。


Attendees 1 43:39
参会人员 1 43:39

네 그래서 우리가 하고 싶은 건 뭐냐 하면 텍스트로부터 감성을 자동 판별 즉 클래시피케이션 하기 위해서 학습을 수행 하겠다는 거죠.
是的,我们想做的是从文本中自动判断情感,即进行分类,通过执行学习来实现。

그래서 모델이 학습되면 그걸로 자동적으로 새로운 텍스트를 감성 분석을 하겠다.
因此,当模型学习完成后,就可以自动对新的文本进行情感分析。

그래서 우리는 이런 이그잼플을 가지고 한번 해보려고 하는데 우리가 대상으로 하는 감성 분석은 뭐냐 하면 영화에 대한 리뷰를 리뷰에 대해서 감성 분석을 하는 겁니다.
因此,我们想尝试使用这样的例子,我们关注的情感分析是什么呢?是对电影评论进行情感分析。

그래서 리뷰는 여기 리뷰 데이터는 두 가지를 예로 이제 썼는데 하나는 imdb라고 그래서 이 인터넷 무비 데이터베이스입니다.
所以,我在这里举了两个评论数据的例子,其中一个是 IMDB,即互联网电影数据库。

이거는 5만 개의 어떤 영화에 대한 리뷰 텍스트로 만들어져 있는 데이터셋이고 각각의 텍스트는 이 바이너리 클래시피케이션입니다.
这是一个由 5 万个电影评论文本组成的数据集,每个文本都是二分类的。


Attendees 1 44:37
与会者 1 44:37

positive냐 1 혹은 negative냐 제론 네 이거는 무비 리뷰 어떤 사이트에서 별을 가지고 평점을 한 결과들로부터 수집된 데이터라고 하는데 별점이 6개 이상 이면 이건 긍정이다라고 지금 판단을 하고 별점이 5개보다 적으면 이건 negative다 이렇게 판단을 해서 데이터셋을 만들어 놓은 겁니다.
是正面的还是负面的?这是从某个网站收集的电影评论数据,通过星级评分得出的结果。如果星级评分 6 个以上,就判断为正面评价;如果星级评分少于 5 个,就判断为负面评价。这样就建立了数据集。

또 하나는 네이버 센티멘트 무비 코퍼스라고 그래서 이거는 이제 한글로 된 무비 리뷰들을 모아놓은 건데 만 20만 개의 그런 리뷰를 모아놓은 거네요.
另一个是 Naver 情感电影语料库,这是收集了 2 万篇韩语电影评论的语料库。

네 이것도 positive negative로 표현돼 있는데 positive는 레이팅이 9에서 10까지인 것을 positive 그다음에 1에서 4까지인 것은 negative라고 해서 데이터셋을 만들어 놓은 겁니다.
是的,这个也用 positive 和 negative 来表示,positive 是评分在 9 到 10 之间的,接下来 1 到 4 之间的是 negative,这样就建立了数据集。

데이터셋을 직접 보면 이렇게 생겼습니다. imdb 같은 경우에 이제 영어로 된 리뷰들인데 이것이 하나의 데이터입니다.
直接查看数据集,它是这样的。比如 IMDB,这些是英语评论,这是一个数据项。

좀 여러 개의 문장으로 된 긴 텍스트죠.
这是一段由多个句子组成的较长文本。


Attendees 1 45:52
参会者 1 45:52

내용을 보면 빨간색으로 핵심적인 부분을 표시해 놨는데 여기 보면 내가 가비지 같은 이제 영화를 표현한 거겠죠.
从内容来看,关键部分用红色标记了,这里可能是我表达了一部垃圾电影。

가비지 같은 걸 내가 렌트를 했는데 돈 좀 돌려받았으면 좋겠고 내가 이 그레이드 f 짜리 여기에 2시간이나 투자한 시간도 돌려받았으면 좋겠어 이런 얘기를 썼습니다.
我租了一部垃圾电影,希望能退回一些钱,我还希望能退回我在这部 F 级电影上投资的 2 小时时间,我就写了这样的话。

굉장히 호평을 한 거겠죠. 이거는 클래식 제로 negative라는 거고 두 번째 리뷰는 살짝 더 짧은데 여기 보면 이 정말 훌륭한 영화를 본 모든 사람들 여러분들도 다 아마 나처럼 이걸 좋아했을 것이고 하면서 쭉 여러 가지 얘기를 했습니다.
这肯定是给予了很高的评价。这是经典的零负面评价,第二条评论稍微短一些,但可以看出,看过这部非常出色的电影的所有人可能和我一样都很喜欢这部电影,并且做了各种各样的讨论。

이거는 positive한 그런 리뷰에 해당된다.
这是属于正面评价的类型。

이것이 이제 우리의 데이터셋인 거죠. 텍스트로 표현된 x 그다음에 바이너리 클래스케이션하는 y가 주어진 거고 우리 이걸로부터 이제 예측을 하는 모델을 만들려고 하는 겁니다.
这就是我们的数据集。X 以文本形式表示,然后是用于二分类的 y,我们现在想从中创建一个预测模型。

두 번째 건 아까 네이버 리뷰인데 여기에 있는 건 주로 조금 짧은 문장들인 것 같습니다.
第二个是之前的韩国网页评论,看起来主要是一些较短的句子。


Attendees 1 47:01
与会者 1 47:01

이것도 예를 들어서 보면 지루하지는 않은데 완전 막장이다 이렇게 써 있으면 이거 이게 x고 이게 y인데 이제 y는 negative라는 거죠.
举个例子,虽然不会很无聊,但确实很糟糕。如果这样写着,这是 x,这是 y,现在 y 是负面的。

밑에 또 줄 쳐놓은 거. 예를 들어서 보면 눈에 보이는 반전이었지만 흡입력은 사라지지 않았다.
下面还画了一条线。举个例子,虽然是一目了然的转折,但吸引力并没有消失。

이건 뭔가 좋은 얘기를 하는 걸 것 같습니다. 이건 positive라고 지금 y 값이 주어져 있습니다.
这看起来像是在讲一些好事。现在给出的 y 值表明这是一个正面的情况。

이런 게 이제 데이터셋이라는 거고 그럼 이거를 가지고 우리가 머신러닝을 수행해서 텍스트를 주면 이거 긍정 부정 판단한 모델을 학습하기 위해서 앞서 얘기한 것들을 한번 진행해 보면 이렇게 되겠습니다.
这就是所谓的数据集,然后我们通过机器学习,当给定文本时,训练一个可以判断情感正负的模型,按照之前讨论的步骤进行。

네 백오워드 모델로 이제 표현을 할 건데 그래서 앞서도 우리가 봤던 TF IDF 벡터라이저를 썼습니다.
是的,现在将使用反向模型进行表达,因此我们之前使用了 TF-IDF 向量化器。

여러분들이 이거 API 가서 보면 굉장히 많은 파라미터 옵션들을 지정할 수가 있습니다.
当您访问此 API 时,您会发现可以指定非常多的参数选项。


Attendees 1 48:01
与会者 1 48:01

여기 몇 개만 지금 보면 앞서 우리가 얘기했던 어떤 프리 프로세싱 단계를 어떤 함수를 가지고 할 건지 이런 걸 지정할 수 있고, 토크나이징하고 스테밍하는 것을 또 어떤 함수를 쓸 건지 이런 걸 한다든지 스톱워드는 뭘 쓴다든지 이런 것도 다 지정할 수가 있게 돼 있습니다.
这里我们可以看到,我们可以指定之前讨论过的预处理阶段将使用哪些函数,可以指定使用什么函数进行分词和词干提取,还可以指定要使用的停用词等。

네 이런 파라미터들도 있는데 여기 보면 맥스 df라고 돼 있죠.
是的,这里还有一些参数,比如这里的最大文档频率(max df)。

의미는 뭐겠습니까? 맥시멈 다큐먼트 프리퀀시를 나타내는 거겠죠.
它的意义是什么?它表示最大文档频率。

그다음에 밑에는 미니멈 다큐먼트 프리퀀시입니다.
接下来下面是最小文档频率。

이게 실수로 0에서 1 사이에 실수로 표현돼 있으면 퍼센트를 나타내는 비율을 나타내는 거고 정수가 써 있으면 그냥 개수를 나타내는 겁니다.
如果这个小数以 0 到 1 之间的小数形式表示,则表示百分比或比率;如果是整数,则表示数量。

맥스 df가 0.1이라는 것은 무슨 뜻이냐 하면 내가 베터 라이트를 할 건데 이렇게 토큰으로 잘라져 나오는 것 중에 이 조건을 만족하는 것만 쓰겠다는 겁니다.
max df 为 0.1 意味着什么?就是我要做筛选,只使用满足这个条件的词元(分词)。

어떤 조건이냐 하면 다큐먼트 프리퀀시가 최대 10% 되는 것, 즉 0.1 10%를 넘어가는 다큐먼트 프리퀀시를 갖는 단어는 쓰지 않겠다는 거죠.
条件是文档频率最多为 10%,即不使用超过 0.1 或 10%文档频率的单词。


Attendees 1 49:16
与会者 1 49:16

그러니까 무슨 소리냐 하면 예를 들어서 천 개의 내가 데이터가 있으면 그중에 천 개의 텍스트가 있으면 10% 100개보다 더 많은 텍스트에 다 들어가 있는 그런 아주 자주 등장하는 단어는 사용하지 않겠다 이런 뜻입니다.
意思是说,比如说有一千个数据,其中有一千个文本,超过 10%,超过 100 个文本中都出现的非常频繁的词语,我们就不使用这些词语。

그러니까 너무 자주 등장하는 단어는 이런 클래시피케이션 이런 positive negative 의미를 구분하는데 별로 의미가 없을 거라는 거죠.
也就是说,那些出现非常频繁的词语在进行分类,判断 positive 或 negative 的意义时可能没有太大意义。

우리가 그런 걸 스타보드로 제거할 수도 있지만 그렇지 않은 경우에 이런 식의 어떤 다큐먼트 프리커스가 너무 높은 거를 제외하고 데이터를 전처리하는 방법도 있을 수 있겠습니다.
虽然我们可以通过舵板来删除这些,但在某些情况下,我们还可以通过预处理数据的方式,排除掉文档频率过高的部分。

아까 본 것처럼 극단적인 예는 더 같은 단어라든지 앤드 같은 단어 이런 것들은 의미를 구분하는 데 별 즉 다큐먼트 어디나 다 등장하는 그런 단어는 별로 의미가 없겠죠.
正如我们之前看到的极端例子,像"and"这样的词,这些在文档中普遍出现的词基本上没有什么区分意义。

밑에는 거꾸로 최소 이건 정수니까 10번입니다.
下面是倒序的,这至少是一个整数,所以是第 10 个。


Attendees 1 50:13
与会者 1 50:13

최소 10번 이상은 등장하는 것만 쓰겠다는 뜻인데 아까 우리가 tfidf 얘기하면서 너무 많이 등장하면 이게 별로 안 좋고 좀 적게 등장할수록 구분되는 의미를 갖는 것일 수 있다 그랬는데 이거는 그렇지만 또 너무 적게 등장하는 단어는 예를 들어서 어떤 게 있냐 하면 어떤 고유 명사 같은 것들 이런 것들은 굉장히 전체 데이터 중에 극히 일부에만 등장한다.
这意味着只写出现至少 10 次以上的词,就像我们之前讨论 TF-IDF 时说的,出现太多次不太好,出现较少的词可能具有更区分性的意义。但对于出现非常少的词,例如某些专有名词,它们在整个数据中只出现极少数。

이렇게 되면 전체 의미를 긍정 부정으로 이렇게 구분하는데 별로 역시 영향을 끼치지 않은 그런 단어일 수 있다는 거죠.
这样的话,在整体意义上用正负来区分,这些词可能并不会产生太大影响。

그런 것들을 제외하는 그런 옵션입니다. 네 그래서 앞에서 본 것과 같이 그 데이터들을 피 트랜스폼 해서 벡터로 만들고 또 테스트 데이터도 마찬가지로 트랜스폼에서 벡터로 표현했습니다.
这些是用于排除这些内容的选项。是的,就像我们之前看到的那样,这些数据通过特征转换转换为向量,测试数据也同样通过转换转换为向量。


Attendees 1 51:14
与会者 1 51:14

네 아까 잠깐 얘기한 것처럼 스파스 매트릭스 표현이기 때문에 논파의 행렬로 바꿔주기 위해서 투 어레이를 했고 네 이렇게 바뀌어진 예를 들어서 무비 리뷰 데이터 중에 아마 천 개만 지금 뽑아서 지금 한 것 같은데 쉐이을 보면 1 바이 1827이죠.
正如我之前简单提到的,这是稀疏矩阵表示,为了将其转换为非稀疏矩阵,我们进行了转换为数组的操作。例如,从电影评论数据中可能只提取了大约 1000 个,查看形状是 1 乘以 1827。

이건 뭐냐 하면 이제 얻어진 행렬은 천 개 데이터가 있다는 거고 그러니까 모비 리뷰가 각각 천 개 있다는 거죠.
这意味着得到的矩阵有 1000 个数据,也就是说每个电影评论有 1000 个。

그다음에 1827은 뭐겠습니까? 네 이 각각의 텍스트는 1827개의 단어들 각각에 대해서 있다 없다 또는 여기 같으면 tfidf웨이트가 얼마다로 표현되는 거죠.
那么 1827 是什么呢?是的,每一个文本对于 1827 个单词分别来说,是存在还是不存在,或者在这种情况下,tfidf 权重是多少。

그러니까 데이터 자체가 1827 디맨저널 데이터다 이렇게 볼 수가 있겠네요.
所以这个数据本身可以看作是 1827 维的数据。

네 그래서 아무거나 하나 프린트를 해보면 이것이 첫 번째 리뷰 리뷰 제로 이제 첫 번째 데이터죠.
是的,所以如果打印任何东西,这就是第一个评论,评论零,现在是第一个数据。

텍스트로 이렇게 표현된 걸 우리는 앞서 얘기한 그런 과정들을 거쳐서 요런 벡터로 표현한 거다.
我们通过之前讨论的那些过程,将这样用文本表达的内容转换成了这样的向量。

1827 디멘전에 1827개의 숫자로 이 전체 텍스트 데이터가 표현된 거고 0인 것은 그런 단어가 없다.
1827 维度中,整个文本数据由 1827 个数字表示,0 表示该单词不存在。


Attendees 1 52:41
与会者 1 52:41

숫자가 있는 것은 이런 단어들이 지금 있는 건데 각각에 대한 tfidf 가중치를 계산해서 서로 다른 어떤 값이 어사인 돼 있는 거죠.
这些数字是现有的单词,通过计算每个单词的 TF-IDF 权重,赋予它们不同的值。


Attendees 1 52:56
与会者 1 52:56

이렇게 표현되고 나면 이제는 우리가 앞서 와인 데이터다 혹은 어떤 브레스트 캔서 데이터다 이런 걸 다룰 때와 똑같겠죠.
一旦以这种方式表达,现在就像我们之前处理葡萄酒数据或乳腺癌数据那样。

물론 차원이 좀 크긴 하지만 그래서 우리가 이미 봤던 예를 들면 로지스틱 리그레션 모델 같은 걸 써서 이 텍스트에 positive negative 클래스를 예측하는 모델을 학습할 수 있겠습니다.
当然,维度可能有点大,但是我们已经看过的,比如逻辑回归模型,可以用来学习预测这些文本的正面和负面类别的模型。

네 지금 벡터로 표현된 이 텍스트 데이터를 가지고 실제 로지스틱 리게션을 한 결과 트레이닝 데이터에 대해서 96% 정도의 정확도를 보이는 모델을 얻을 수가 있었죠.
是的,现在使用向量表示这些文本数据,对于训练数据,我们可以得到一个大约 96%准确率的逻辑回归模型。

네 모델이 이제 얻어졌기 때문에 트레이닝 데이터 또 테스트 데이터에 대한 정확도를 우리가 측정해 볼 수 있고 그다음에 이제 새로운 텍스트에 대해서 프리딕션을 해볼 수가 있겠죠.
是的,由于模型已经获得,我们可以测量训练数据和测试数据的准确性,然后对新的文本进行预测。

예를 들면 여기 그냥 임의로 만든 간단한 텍스트를 가지고 테스트를 지금 해보려고 합니다.
例如,这里我现在想用随意创建的简单文本进行测试。

이 3개의 어떤 텍스트가 있습니다. 하나는 디스 무비이스 가비지 둘째는 아이 러브 베리먼지 세 번째는 테스티큘룸 이렇게 써 있는 거가 있습니다.
有这 3 个文本。一个是这部电影是垃圾,第二个是我爱小男人,第三个是睾丸,就是这样写的。


Attendees 1 54:04
参会人数 1 54:04

우리가 학습된 모델에 이걸 입력으로 넣어서 이제 예측을 하기 위해서 지금 요 새로운 데이터도 똑같이 벡터 형태로 트랜스폼 했고 트랜스폼 된 벡터를 학습된 로지스틱 리게이션 모델에 넣어서 프리딕션을 해봤더니 이런 결과가 즉 첫 번째 텍스트 는 negative다라고 예측을 한 거고 두 번째와 세 번째는 positive라고 예측을 한 결과를 보여주고 있네요.
我们将这个输入到学习过的模型中,以进行预测。现在,我们已经将新数据转换成了向量形式,并将转换后的向量输入到已训练的逻辑回归模型中进行预测。结果显示,第一个文本被预测为 negative,第二个和第三个文本被预测为 positive。


Attendees 1 54:49
与会者 1 54:49

네 우리가 이미 본 것 중에 디시전 트리 모델을 여기에 적용시킬 수도 있겠습니다.
是的,我们可以在这里应用我们已经看到的决策树模型。

디시전 트리 클래식 파이어를 여기는 맥스 뎁스를 한 20 정도로 잡아서 핏 해가지고 학습을 합니다.
在这里,决策树经典火焰的最大深度设置为大约 20,并进行学习。

디시션 트리 학습 결과 정확도만 우선 보면 트레이닝 데이터에 대해서 85% 정도의 정확도를 보이고 있습니다.
从决策树学习的结果来看,训练数据的准确率约为 85%。

앞에 것보다 조금 낮지만 이거는 맥스 뎁스를 20으로 제한했기 때문일 수도 있고 이 결과만 가지고 어느 쪽이 더 좋다고 보기 얘기하기는 힘들 수도 있겠습니다.
虽然比前面的略低,但这可能是因为将最大深度限制为 20,仅凭这个结果可能很难判断哪个更好。

다만 디시전 트리 같은 경우에는 우리가 이미 전에 살펴본 것처럼 장점은 뭐냐 하면 이 모델이 우리가 해석 가능하다는 거죠.
只是对于决策树来说,正如我们之前已经看到的那样,它的优点是什么呢?那就是这个模型是可解释的。

그래서 디시전 트리가 만들어지고 나면 예를 들면 우리가 이런 걸 볼 수가 있습니다.
因此,一旦决策树建立完成,我们就可以看到这样的情况。


Attendees 1 55:40
出席者 1 55:40

어떤 경우에 positive라고 우리가 결론을 내리게 되나 이거는 기본적으로 백오브 워드 모델로 지금 벡터 표현을 했기 때문에 다시 말하면 어떤 단어가 들어가면 positive 어떤 단어가 들어가면 negative라고 판정하게 되는구나라는 걸 우리가 볼 수가 있겠죠.
在什么情况下我们会得出 positive 的结论,这基本上是因为我们现在用词袋模型进行向量表示,换句话说,我们可以看到哪些词会被判定为 positive,哪些词会被判定为 negative。

전에 디시전 트리에서 본 것처럼 각 피처의 인포메이션 개인을 따지는 것이 이런 데서부터 우리가 확인할 수가 있었습니다.
正如我们在决策树中看到的那样,计算每个特征的信息增益,我们可以在这里确认。

피처 임포턴스 그래서 학습이 진행된 후에 피처 임포턴스를 따져서 그 결과를 가져와서 우리가 내림 차선으로 쭉 정렬해 보면 이런 걸 볼 수가 있는데 즉 positive negative 판정을 하는 데 있어서 가장 정보가 많은 단어들은 뭔가라는 걸 우리가 쉽게 이렇게 볼 수가 있는 거죠.
特征重要性,因此在学习进行后,通过计算特征重要性并获取其结果,我们可以按降序排列,这样我们就可以轻松地看到在判断正负类别时最具信息量的词语是什么。

예를 들면 여기 월스트 웨이스트 폴 볼링 테러블 이런 단어들이 결국은 positive냐 negative냐를 결정하는데 상당히 정보가 있는 단어들이다 이런 걸 우리가 이제 살펴볼 수가 있겠습니다.
例如,像"墙街浪费"、"保罗"、"可怕"这样的词最终会决定是正面还是负面,这些都是非常有信息含量的词。我们现在可以来仔细研究这些。


Attendees 1 56:56
与会者 1 56:56

네 지금 좀 전까지 우리가 살펴본 이제 메고 보드 모델에서는 단어들을 이제 등장하는 빈도를 기본으로 해서 포케비러리 사이즈의 벡터로 표현했죠.
在我们之前研究的模型中,我们是基于单词出现的频率,将词汇大小表示为向量。

이 벡터로 표현된 데이터들 사이에 유사도를 계산하기 위해서 우리가 텍스트에서 이제 많이 사용하는 이런 방법이 있습니다.
为了计算这些以向量表示的数据之间的相似度,我们在文本处理中有很多常用的方法。

코사인 시밀러리티 또는 벡터 시뮬러리티라고 하는데 이건 뭐냐면 두 벡터 사이에 각도를 계산해서 그 각도가 작을수록 시뮬리티가 높은 것으로 판정하는 그런 방법입니다.
余弦相似度或向量相似度,这是通过计算两个向量之间的夹角,夹角越小,相似度越高的一种方法。

즉 벡터로 표현된 두 개의 텍스트 혹은 두 개의 다큐먼트가 있을 때 이 둘 사이의 각도를 세터라고 하면 코사인 세터를 우리가 계산하는 거죠.
即当有两个以向量表示的文本或两个文档时,如果我们计算它们之间的夹角,就是余弦夹角。

어떤 두 벡터의 코사인 세터는 이렇게 표현됩니다.
两个向量的余弦角度可以这样表示。

위에 포인트가 찍혀 있는 건 이너 프로덕트를 얘기하는 거고 그래서 간단한 벡터를 가지고 우리가 예를 들어서 살펴보면 이런 겁니다.
上面标记的点是在讨论内积,所以如果我们以简单的向量为例,就是这样的。


Attendees 1 58:10
出席者 1 58:10

만약에 우리가 이렇게 3개의 단어만을 사용한다고 했을 때 어떤 텍스트 제로 다큐먼트 제로는 그 안에 보니까 AI라는 단어가 한 번, 서치라는 단어가 한 번 그다음에 러닝이라는 단어는 없었다.
如果我们只使用这 3 个单词,那么在文档中,AI 这个词出现了一次,搜索这个词出现了一次,但是学习这个词并不存在。

그다음에 두 번째 다큐멘트에 보니까 AI라는 단어가 두 번 서치가 한 번 그다음에 러닝은 없었다.
接着在第二个文档中,我看到"AI"这个词出现了两次,搜索出现了一次,而"学习"这个词没有出现。

세 번째는 서치라는 단어만 두 번 나타났다. 이렇게 한다면 벡터 공간에서 보면 이런 거죠.
第三个文档中只出现了两次"搜索"这个词。如果这样的话,在向量空间中看起来就像这样。

이게 세 번째 러닝은 다 없으니까 이게 투 디멘전에서 이렇게 한번 살펴볼 수가 있겠죠.
由于这是第三个学习,所以没有,我们可以在二维空间中这样看一看。

그러면 x축이 서치, y축이 ari라고 한다면 b 제로 다큐멘트 제로는 1 1이니까 여기 d1은 2 1이니까 여기 d2는 0이니까 여기가 될 테고 이 각각의 벡터 사이에 각도를 보면 d제로와 어느 게 가깝나 d제로와 d1의 각도는 이만큼 d제와 d2의 각도는 이만큼이니까 이거 두 개가 더 가깝다 이렇게 생각할 수가 있겠죠.
如果 x 轴是搜索,y 轴是 ari 的话,b 零文档零是 1 1,所以 d1 在这里是 2 1,d2 是 0,所以这里将会是这样。如果看这些向量之间的角度,哪个与 d 零更接近?d 零和 d1 的角度是这么多,d 零和 d2 的角度是这么多,所以这两个更接近,我们可以这样想。


Attendees 1 59:18
出席人数 1 59:18

그러면 d제로와 d1 사의 시밀러리티가 DJ와 d2보다는 더 높다 이렇게 이제 판단하는 게 벡터 시뮬러리티를 이용한 방법입니다.
然后,使用向量相似性来判断 d 零和 d1 的相似性比 DJ 和 d2 更高,这就是利用向量相似性的方法。

네 그래서 이런 것도 한번 우리가 살펴보려고 하는데 이제 영화에 대해서 다양한 정보가 있는 그런 데이터로부터 영화들의 시뮬러리티를 한번 따져보는 걸 예로써 보려고 합니다.
是的,我们想要通过这种方式来研究,从关于电影的各种信息数据中来计算电影之间的相似性。

여기 보면 무비 메타데이터라는 그 데이터를 가서 보면 4만 5천 개 정도의 영화에 대해서 24개의 피처 값이 주어진 그런 데이터가 있습니다.
在这里,如果查看电影元数据,会发现有关 4 万 5 千部电影的 24 个特征值的数据。

그래서 영화의 타이틀이 뭐냐 영화의 오버 뷰어는 이런 거다.
那么电影的标题是什么?电影的概述是这个。

릴리즈 데이트가 언제냐 이런 게 있죠. 그중에 이게 텍스트로 표현된 오버뷰라는 걸 우리가 가져와서 오버 뷰라는 게 어떤 영화의 내용 같은 것을 어쨌든 표현하는 그런 텍스트겠죠.
发行日期是什么时候?这是其中之一。我们把这个作为文本表示的概述带过来,概述是表示某部电影的内容的文本。

이걸 가지고 시뮬리티 비교를 예를 들어서 벡터 시뮬레이티로 한번 해보는 건데 tfidf 벡터 라이즈를 하게 되면 이 오버 뷰 데이터를 가지고 그러면 전체 데이터셋은 이런 행렬이 됩니다.
这是用来比较相似性的示例,例如使用向量相似性。如果进行 TF-IDF 向量化,那么这个概述数据将形成这样的矩阵。


Attendees 1 1:00:39
与会者 1 1:00:39

4만 5천 바이 7만 5천 이 사이즈가 갖는 의미는 뭐겠습니까?
4 万 5 千到 7 万 5 千之间的尺寸意味着什么呢?

총 4만 5천 개의 영화가 7만 5천 개의 단어들로 표현되는 거 있죠.
总共 4 万 5 千部电影可以用 7 万 5 千个词语来表达,对吧。

여기서는 아마 어떤 다큐먼트 프리퀀스나 또는 스토어보드 같은 걸 가지고 많이 제거를 안 해서 이쪽의 디멘전이 즉 보케비럴이 구분되는 토큰의 개수가 지금 좀 너무 많은 것 같긴 한데 이만큼의 사이즈가 된다는 거죠.
在这里,可能是因为没有删除太多文档序列或者故事板之类的,所以这边的维度,即词汇表区分的标记数量现在似乎有点太多,但就是这么大的尺寸。

그러면 각각의 영화에 대한 오버뷰는 7만 5천 디벤전의 벡터로 지금 표현된다는 얘기가 되겠습니다.
这样的话,每部电影的概述现在就用 7.5 万维的向量来表示。

그렇겠네요. 코사인 시뮬러리티는 사이클론에 이런 함수가 있습니다.
看来是这样。余弦相似度在旋风中有这样的函数。

그래서 이 각각의 벡터 영화를 표현한 영화의 오버 뷰를 나타내는 그 벡터들에 대해서 앞에서 정의한 것과 같은 코사인 시밀러티를 계산해 보면 네 이거 4만 5천 바이 4만 5천 각각의 4만 5천 개의 영화에 대해서 또 다른 4만 5천 개의 영화와 사인 시뮬리티를 계산한 결과를 이렇게 얻게 되죠.
所以对于这些表示电影的向量,每个电影的概览向量,按照之前定义的余弦相似度计算方法,你会得到一个 4.5 万乘 4.5 万的结果,即对于 4.5 万部电影,与另外 4.5 万部电影的余弦相似度计算结果。


Attendees 1 1:01:52
与会者 1 1:01:52

이걸 가지고 그냥 하나의 예로서 내가 특정한 영어와 비슷한 영어를 한번 찾아보려고 합니다.
我想以此为例,找一找类似的英语文本。

텍스트 데이터를 바탕으로 그래서 여기 보면 이 데이터의 타이틀 하고 인덱스를 가지고 여기 제목으로부터 인덱스를 얻을 수 있는 이런 데이터를 만들어서 지금 더 갓파더라는 타이틀이죠.
基于文本数据,从这里的标题和索引中,我们可以创建一个数据,从标题中获取索引,现在这是哥德父亲(Godfather)的标题。

이런 데이터를 검색해 봤더니 요거 영화의 아이디가 834 834번째 지금 영화입니다.
搜索这些数据后发现,这是第 834 部电影。


Attendees 1 1:02:32
参加者 1 1:02:32

이것과 즉 834번째인 덕 아파더라는 영화와 다른 모든 영화들에 대한 코사인 시뮬레이트를 계산해서 한번 보니까 4만 5천 개의 영화와 1대 1로 이제 계산을 했겠죠.
通过计算这个与第 834 个电影"鸭"以及所有其他电影的余弦相似度,我们发现已经与 4 万 5 千部电影进行了一对一的计算。

그럼 보면 0번 데이터와는 시뮬레이티가 제로 시뮬레이터가 제로라는 것은 아마도 겹치는 단어가 하나도 없다 그런 뜻이 되겠네요.
那么我们可以看到,与 0 号数据的相似度为零,这可能意味着两者之间没有一个重叠的词语。

오버뷰의 1번 약간 2번 그보다 조금 더 이런 시뮬리티를 가지고 있는 영화들이 있습니다.
有一些电影具有概述的第 1 和第 2,甚至更多类似性。

네 그래서 이걸 전부 다 우리가 시뮬리티를 계산한 다음에 내림차순으로 정렬을 해서 봤더니 이런 것들이 이렇게 나타났고 즉 자기 자신과는 시뮬리티가 1.0이고 그 밖에 시뮬리티가 높은 것이 이런 인덱스 번호를 가진 영화들이었다는 거죠.
是的,所以在我们计算了所有相似性并按降序排序后,出现了这些情况,即自身的相似性是 1.0,而其他高相似性的电影具有这些索引号。

가서 그 영화의 타이틀들을 한번 쭉 뽑아보니까 이런 것들이었습니다.
我去看了那部电影的标题,发现是这些。


Attendees 1 1:03:34
与会者 1 1:03:34

갓파더와 오버 뷰의 텍스트가 유사성이 높은 건 갓 파드와 파트 2 갓파드 트릴로지, 파트 3 블러드 타이 이런 건 이제 또 무슨 영화인지 모르겠지만 이런 것들이 비슷한 오버 뷰를 갖는 것이다.
教父和概述的文本相似性很高,这是因为教父第 2 部和第 3 部的血缘等,现在可能不知道是什么电影,但这些电影有相似的概述。

이렇게 볼 수가 있겠습니다. 이거는 해당 영화의 오버뷰 텍스트를 직접 이렇게 프린트를 해본 거.
可以这样看。这是直接打印出该电影的概述文本。


Attendees 1 1:04:03
参会者 1 1:04:03

네 그래서 지금까지 단어들 텍스트를 우리가 다루기 위해서 프리 프로세싱을 하는 여러 가지 내용들, 그다음에 이제 수치 데이터로 이것을 표현하는 한 가지 방법으로서 tfidf 웨이팅에 기반한 이제 백업 워드 벡터 표현을 살펴봤습니다.
是的,到目前为止,为了处理单词和文本,我们已经研究了各种预处理方法,然后作为将其转换为数值数据的一种方式,我们查看了基于 TF-IDF 权重的词袋向量表示。

이 마지막 부분에 우리가 살펴보려는 것은 이제 딥러닝 모델 같아서 이제 쓸 워드 임베딩이라는 것의 개념을 한번 살펴보려고 합니다.
在这最后部分,我们要看的是现在像深度学习模型,现在我们将探讨词嵌入的概念。

먼저 앞에도 어떤 벡터 수치로 표현되는 벡터로 텍스트를 표현했는데 그거하고 워드 임베딩은 어떻게 또 다른 건가를 이런 걸 한번 비교해서 살펴보려고 합니다.
首先,我们之前已经用向量数值表示文本,那么词嵌入与之有什么不同,我们将比较并探讨这一点。

우리가 지금까지 해왔던 것은 소위 말하는 원 핫 표현이라고 볼 수가 있죠.
到目前为止,我们所做的可以被称为所谓的独热表示。

그러니까 내가 보케뷰러리가 천 개든 만 개든 있으면 그중에 특정 단어를 나타낼 때는 거기에 몇 번째 단어 예를 들어서 이게 아이디가 100인 단어 150인 단어 이런 겁니다.
就是说,如果我有一千个或者一万个词汇表,那么要表示特定单词时,就是用它的序号,例如,这是 ID 为 100 的单词,或者 ID 为 150 的单词。

예를 들면 우리가 보케미로리 사이즈가 이렇게 이제 벡터의 디멘전이 되겠죠.
例如,我们的词向量尺寸现在将成为向量的维度。

독이라는 단어 캣이라는 단어 카라는 단어가 있다.
有"毒"这个词,"猫"这个词,"卡"这个词。


Attendees 1 1:05:23
出席者 1 1:05:23

그러면 이게 어떻게 나타나냐 하면 결국은 독이라는 단어는 자신의 아이디에 해당하는 부분이 1인 거 캣도 역시 자신의 아이디에 해당하는 부분 카드로 자신의 아이디에 해당하는 부분이 1입니다.
那么这是如何呈现的呢?最终,"毒"这个词在其 ID 对应的部分为 1,同样地,"猫"也在其 ID 对应的部分为 1,"卡"也在其 ID 对应的部分为 1。

그래서 어떤 텍스트가 이런 단어 여러 개로 만약에 나타난 어떤 문장들의 집합으로 텍스트 즉 다큐멘트가 표현된다면 네 어떤 단어가 나타났는가가 해당 자리에 1 혹은 tfidf 웨이트로 이제 표현된 벡터가 되는 거죠.
因此,如果一个文本表示为由多个单词组成的句子集合,那么每个单词在相应位置将以 1 或 TF-IDF 权重表示为向量。

네 이런 원화 표현은 각각의 단어의 어떤 의미를 우리가 표현해 주지는 못합니다.
是的,这种原始表示无法表达每个单词的具体含义。

무슨 얘기냐 하면 우리가 독이라는 단어가 있고 거기에 캣이라는 단어와 카라는 단어가 있다.
意思是说我们有"毒"这个词,还有"猫"和"卡"这些词。

그러면 이것들 사이에 의미상으로 좀 유사한 거 내지는 좀 관련성이 높은 건 뭔가라고 하면 우리는 생각하기에 독하고 캣은 이거 약간 둘 다 어떤 애완동물을 나타내는 거고 그러니까 좀 유사성 관련성이 있다.
那么对于这些词之间在意义上有些相似或者关联性较高的,我们会认为"毒"和"猫"这两个词都多少与某种宠物有关,所以它们之间存在一定的相似性和关联性。

독이랑 카는 스펠은 cat나 car이나 비슷하지만 이거는 별 관련성이 없는 단어다라고 볼 수가 있어.
尽管"cat"和"car"的拼写相似,但这些词实际上可以被视为没有太大关联的单词。


Attendees 1 1:06:39
与会者 1 1:06:39

네 그런 게 여기서는 표현되지 않습니다. 독과 캣도 전혀 다른 아이디어를 갖는 별개의 구분되는 단어일 뿐인 거죠.
是的,这里没有表达这种情况。狗和猫只是完全不同的、被区分的单词而已。

독과 카도 마찬가지고 임베딩이라는 것은 이렇게 우리가 원 하수로 표현하지 않고 각각의 단어를 분산된 어떤 특정한 n 차원의 벡터로 표현하는 겁니다.
狗和猫同样,嵌入是指我们不用原始方式表示,而是将每个单词表示为分散的特定 n 维向量。

예를 들면 여기 독이라는 것이 이 차원은 이제 보케비러리의 사이즈랑은 관계가 없습니다.
举个例子,这里的特征维度与词汇表的大小是没有关系的。

예를 들면 100 차원의 어떤 벡터로 내가 표현한다.
举个例子,比如用 100 维的某个向量来表示。

독이건 카건 캣이건 다 100차원의 벡터로 표현되는데 이것이 위에서처럼 원 핫 표현이 아니고 독도 100차원의 각 각각 어떤 값을 가진 벡터, 캣도 각 차원의 어떤 값을 가진 벡터, 카도 마찬가지 각각이 전부 다 100 디맨저널 스페이스의 어떤 포인트가 되는 그런 표현인 거죠.
无论是狗还是猫还是猫,都可以用 100 维的向量来表示,这不是像之前那样的 one-hot 表示,而是每个词(狗、猫、卡)都有一个 100 维向量,每个维度都有自己的值,每个词都成为 100 维空间中的一个点。

우리가 원하는 건 뭐냐 하면 이렇게 표현하면서 이 벡터 표현이 어떤 의미를 나타낼 수 있도록 하려고 하는 겁니다.
我们想要的是,在这种表示方法中,这个向量表示能够体现某种意义。


Attendees 1 1:08:00
参会者 1 1:08:00

무슨 얘기냐 하면 독이나 캔 혹은 독이나 칸은 위에 있는 원 핫 표현에서는 전혀 아무런 연관성이 없는 서로 다른 단어에 불과하지만 아래 표현에서는 100차원의 벡터 공간에서 이거 두 개가 더 가까우냐 혹은 이거 두 개가 가까우냐를 우리가 따져볼 수 있다는 거.
我想说的是,独毒或罐头,或独毒或堪在上面的 one-hot 表示中完全没有任何关联,只是不同的单词,但在下面的表示中,我们可以在 100 维向量空间中比较这两个词是否更接近。

네 지금 여기 있는 숫자만 가지고는 우리가 알 수는 없지만 일부러 이제 약간 비슷한 숫자를 내가 적어놨습니다.
虽然仅凭现在这里的数字我们无法知道,但我故意写了一些类似的数字。

보면 독이라는 벡터와 또 단어를 나타내는 벡터와 캣이라는 단어를 나타낸 벡터가 약간 좀 플러스 마이너스 크기랑 보니까 좀 비슷해 보이죠.
看起来,就像"独"这个向量和表示单词的向量,以及表示"猫"这个单词的向量,从加减的大小来看似乎有点相似。

카는 아마도 이 백 차원 공간에서 전혀 다른 위치에 있는 그런 팩터가 될 겁니다.
车可能是一个完全位于这个百维空间不同位置的因子。

그러면 이렇게 될 수 있다면 뭔가 도움이 될 것 같은데 이건 어떻게 우리가 찾으면 되나 기본적으로 대량의 텍스트로부터 이런 벡터를 우리가 얻을 수가 있습니다.
如果可以这样做,似乎会有所帮助,那么我们如何找到它呢?基本上,我们可以从大量文本中获取这些向量。


Attendees 1 1:09:05
与会者 1 1:09:05

요 밑에 있는 이 표현은 이게 뭐라고 돼 있냐 하면 어떤 단어에 대해서 우리가 알려고 하면 그 단어의 주변 그 단어와 같이 쓰이는 단어들을 보면 된다 그런 표현인 것 같은데 jr 폴스라는 영국의 유명한 언어학자가 이야기한 것 단어의 의미를 우리가 사전에 이렇게 꼭 풀었어야 되는 게 아니라 일상적으로 우리가 사용되는 많은 텍스트에서 그 단어가 어떤 단어가 같이 등장하나를 보면 그 단어의 의미나 쓰임새를 우리가 알 수 있다는 거죠.
如果我们想知道某个词的含义,就要看这个词周围常用的词语。这是根据英国著名语言学家 J.R. 弗斯的说法,他认为我们不必总是用字典精确地解释一个词的意思,而是可以通过观察这个词在日常使用的大量文本中与哪些词一起出现,来了解它的意义和用法。

거꾸로 우리가 특정 단어가 들어갈 자리에 빈칸을 놓고 생각해 보면 예를 들어서 밑에 이 샘플에 히 레더 그리고 괄호가 있고 프람허 이렇게 돼 있으면 여기 들어갈 단어를 우리가 어느 정도 떠올릴 수가 있습니다.
反过来,如果我们考虑特定单词应该填在哪里,比如在下面这个示例中有"he"、"letter"和括号,以及"prom her",我们可以在一定程度上想象出应该填入的单词。

그렇죠 메시지라든지 레터라든지 그런 단어가 이렇게 들어가겠죠.
对的,像"message"或"letter"这样的词可能会这样填入。

그 이유는 옆에 리드라든지 프럼 허라든지 이런 것들로부터 우리가 전체적인 맥락 컨텍스트 하에서 단어들을 유추할 수 있다는 겁니다.
这个原因是因为从旁边的引导或者提示等方面,我们可以在整个语境下推断单词的意思。


Attendees 1 1:10:17
与会者 1 1:10:17

그래서 앞서 말한 이런 의미상 뭔가 표현을 담고 있는 이런 벡터 표현을 우리는 대량의 우리가 사용하는 텍스트들로부터 이걸 학습을 통해서 얻어낼 수가 있습니다.
因此,我们可以通过学习使用大量我们使用的文本来获得这种承载语义表达的向量表示。

네 그런 걸 하는 다양한 알고리즘들이 있는데 그중에 대표적인 한 가지로서 우리가 워드 투 백이라는 걸 한번 살펴보려고 합니다.
是的,有许多不同的算法可以实现这一点,其中我们将探讨一个代表性的算法,称为词袋模型(Word to Bag)。

워드 투백은 소위 말하는 뉴럴렛 랭귀지 모델이라고 그래서 우리가 아직 뉴럴렛 신경망 모델은 이제 아직은 다루지 않았죠.
词嵌入是所谓的神经语言模型,因此我们目前还没有涉及神经网络模型。

이제 다음 주부터 아마 다루게 될 텐데 이런 확률을 우리가 이제 얻어내는 걸 이 랭기즈 모델이라고 할 수가 있습니다.
现在从下周开始可能会开始涉及,这种概率我们称之为语言模型。

우리가 쉽게 얘기하면 어떤 단어 뒤에 어떤 단어가 나타날 확률이 얼마가 되는 혹은 어떤 컨텍스트 상에서 특정한 단어가 나오는 확률이 얼마나 되나 네 요 확률 값들을 얻으면 우리가 그걸 랭귀지 모델이라고 할 수가 있는데 이런 걸 대량의 데이터를 가지고 신경망을 학습해서 얻겠다 하는 게 뉴럴렛 랭기즈 모델이죠.
我们简单地说,某个词后面出现另一个词的概率,或者在某个特定语境下特定词出现的概率是多少。这些概率值,我们称之为语言模型,通过大量数据训练神经网络来获得这种模型,就是神经语言模型。


Attendees 1 1:11:35
与会者 1 1:11:35

두 가지의 대표적인 알고리즘으로 구성되는데 그중에 하나가 시보라는 겁니다.
由两种代表性的算法组成,其中之一是西博。

컨티뉴어스 백 오브 월 네 이거는 이제 다음과 같이 우리가 어떤 학습을 진행합니다.
连续背包,这是我们接下来将如何进行学习。

일단 우리가 대량의 코퍼스 대량의 샘플 텍스트들을 가지고 있어야 됩니다.
首先,我们需要拥有大量的语料库和大量的样本文本。

대량의 샘플 텍스트들을 가지고 마치 우리가 슈퍼바이스 러닝을 하듯이 네 x로부터 y를 예측하는 그런 모델을 이제 학습을 합니다.
有了大量的样本文本,我们就像进行监督学习一样,从 x 预测 y,然后训练这样的模型。

이때 x는 뭐냐 하면 y부터 얘기할까요? y는 뭐냐 하면 특정한 단어입니다.
那么 x 是什么呢?要不要从 y 开始讲?y 是什么呢?是一个特定的单词。

x는 뭐냐 하면 컨텍스트 주변의 단어입니다. 이 모델이 우리가 학습하는 모델이 하는 일은 뭐냐 하면 x로부터 y를 예측하는 겁니다.
x 是什么呢?是上下文周围的单词。这个模型,我们学习的模型在做的事情是什么呢?是从 x 预测 y。

즉 주변에 몇 개의 단어 여기서 몇 개 여기서는 c라고 지금 표현했는데 그 개수는 우리가 정할 수 있습니다.
也就是说,周围的单词数量,这里的几个,在这里用 c 表示,这个数量是我们可以自己设定的。

예를 들어서 c가 이라면 전 후에 두 개씩의 단어가 바로 컨텍스트가 되는 거고 그 x로부터 나는 중심 단어 y를 예측하는 모델을 학습하려고 하는 거예요.
例如,如果 c 是这样的,那么前后各两个单词就是上下文,我想从这个 x 中预测中心词 y 的模型。


Attendees 1 1:12:58
参会人员 1 1:12:58

즉 위 드링크 어쩌고 주스 4 어쩌고 나오면 여기에 들어갈 만한 단어는 오렌지 이런 걸 예측하게끔 하겠다는 거죠.
即是说,在这里会预测类似可以加入的单词,比如橙汁等。

대량의 단어로 우리가 그레디언티 센터를 통해서 학습을 수행합니다.
通过大量的单词,我们通过梯度中心进行学习。

요 모델 안에 어떤 계산을 하는지를 우리가 조금만 자세히 살펴보면 네 15에서의 학습은 이렇게 됩니다.
如果我们仔细查看这个模型内部的计算,那么在 15 中的学习就是这样进行的。

인풋 x는 원 핫 벡터로 주어집니다. 원 핫 벡터니까 우리가 앞서 했던 내용을 살펴보면 네 차원은 아마 v 케이비러리가 v에 있다고 하면 v 차원일 거예요.
输入 x 以一热向量的形式给出。由于是一热向量,如果我们查看之前的内容,可能是四维,假设词汇量为 v,那就是 v 维。

얘가 예측하는 y는 역시 보케비러리 원핫 표현 보케비러리 차원의 원화 표현을 이제 예측을 합니다.
它预测的 y 仍然是词汇表的一热表示,即词汇表维度的一热表示。

그러니까 부위계의 좀 다르게 표현하자면 부계의 서로 다른 단어들 각각에 대해서 값을 예측하는 거죠.
换句话说,对于部位层次的不同单词,我们分别预测每个单词的值。

중간에 한 단계가 있어서 그걸 우리가 v라고 했습니다.
中间有一个步骤,我们将其称为 v。

v는 내가 정의한 m 차원 네 벡터로 정의됩니다.
v 被定义为我定义的 m 维四维向量。


Attendees 1 1:14:23
参会人员 1 1:14:23

이제 컨텍스트가 주어진다 그랬으니까 2 곱하기 식의 원 핫 벡터인 x들이 주어지겠죠.
既然现在给出了上下文,那么就会有 2 乘以原热向量 x 的形式。

그거로부터 m 차원인 중간 벡터 v는 이런 w를 곱해서 얻어집니다.
从那里得到的 m 维中间向量 v 是通过乘以这样的 w 获得的。

네 우리가 전에 로지스틱 리그레이션 같은 거 할 때 생각해 보면 지라는 것은 더블 제로 x 제로 플러스 w 1 x 1 거기로부터 y는 시그머이드 이렇게 해서 y의 예측 값을 확률을 계산했죠.
如果我们回想之前使用逻辑回归时,Z 就是双重零乘以零加上 W1 乘以 1,从那里计算 Y 的值,然后通过 Sigmoid 函数得到 Y 的预测概率。

네 이걸 우리가 행렬 벡터 폼으로 쓰게 되면 x 곱하기 w가 될 텐데 바로 이 파라미터로 표현되는 w가 여기 정의돼 있어서 x에다가 w를 곱한 것들이 m 중간 v라는 벡터 표현을 계산하게 됩니다.
是的,当我们用矩阵向量形式表示时,它将是 X 乘以 W,这里定义的参数 W 可以用来计算 X 乘以 W,得到中间的向量表示 V。

이 시계의 x로부터 각각 계산된 벡터들을 평균 내서 그것이 이제 최종적인 사이즈 m의 벡터를 얻게 됩니다.
从这个时钟的 x 计算出的向量求平均,从而得到最终大小为 m 的向量。

네 그거로부터 y 예측 값은 m으로부터 v로 가는 또 다른 w 프라임이라는 파라미터들에 의해서 y 값이 예측이 됩니다.
是的,从那里通过从 m 到 v 的另一个参数 w'来预测 y 值。


Attendees 1 1:15:57
出席者 1 1:15:57

네 학습은 어떻게 일어나냐면 주변 단어들 가지고 현재 예를 들면 인슈 파라미터로 예측을 수행한 다음에 여기 지금 한 가지 말을 빼먹은 것은 y 예측은 v에다가 w 프라임 곱한 거의 소프트 맥스를 계산하게 되죠.
学习是如何发生的呢?通过周围的单词,举例来说,使用保险参数进行预测,然后在这里我遗漏了一点:对 y 的预测是将 v 乘以 w',然后计算 softmax。

소프트 맥스를 계산하니까 각각의 보케별의 확률을 얘가 계산하게 됩니다.
计算 softmax 时,它会计算每个类别的概率。

처음에 이니셜 파라미터로부터 어쨌든 y h이라는 걸 계산하고 나면 학습은 어떻게 이루어지냐 하면 대량의 텍스트를 가지고 우리가 학습을 하니까 y라는 건 이제 주어져 있습니다.
从最初的初始参数开始计算 yh 后,学习是如何进行的呢?因为我们使用大量文本进行学习,所以 y 现在已经是给定的。

y 정답에 해당하는 단어의 주변의 단어들을 x에 놓고 이게 예를 들면 오렌지를 맞추도록 하고 싶은 거죠.
将与正确答案对应的单词周围的单词放在 x 中,例如想要猜测橙子。

그러니까 정답 값이라는 것은 오렌지에 해당하는 원 핫 팩터가 됩니다.
所以正确值就是对应橙子的 one-hot 向量。

그럼 학습은 어떻게 할 거냐 하면 이게 정답 이거는 내 모델의 예측 값 이 둘 사이의 에러를 최소화하는 방향으로 그레디언트를 가지고 학습을 수행하면 되겠죠.
那么关于学习的方法是,如果这是正确答案,这是我模型的预测值,我们就可以通过梯度下降,朝着最小化这两者之间误差的方向进行学习。

그레디언 디센트를 이 사이의 차이 즉 로스는 크로스 엔트로피로 정의해서 학습이 진행되도록 합니다.
使用梯度下降,定义两者之间的损失为交叉熵,以这种方式进行学习。


Attendees 1 1:17:12
参会人员 1 1:17:12

네 그래서 대량의 데이터로 학습을 하면 학습이 잘 된다면 나중에 컨텍스트 x를 가지고 즉 주변 단어들로부터 중심 단어 y를 잘 예측할 수 있는 그런 모델 즉 그런 파라미터들이 얻어지게 되겠죠.
是的,如果用大量数据进行学习并且学习效果很好,那么最终可以从上下文 x 中,即从周围单词中很好地预测中心词 y,从而得到这样的模型,或者说获得这样的参数。

그러면 이게 우리가 얻어진 그 파라미터 를 나타내는 w인데 그럼 특정한 학습이 다 끝난 다음에 특정한 단어에 대한 벡터 표현이라는 건 어떻게 얻어지느냐 그 단어 에다가 학습된 파라미터를 곱하면 이거는 지금 케이비리 차원의 원 핫 표현인데 학습된 w 파라미터를 곱하면 이것은 이 중간 단계에 있는 m 차원의 베타값이 얻어지게 될 거고 이게 우리의 김 대리
那么这是我们获得的参数 w,那么在特定学习结束后,如何获得特定单词的向量表示呢?将学习好的参数乘以那个单词,现在是 KB 维度的 one-hot 表示,乘以学习好的 w 参数,这将得到中间阶段 m 维度的 beta 值,这就是我们的金代理


Attendees 1 1:18:12
与会者 1 1:18:12

네 학습이 되면 어떻게 되는지를 한번 우리가
如果学习成功,我们将看看会发生什么


Attendees 1 1:18:19
与会者 1 1:18:19

라이브러리를 가지고 수행한 걸 한번 보도록 하죠.
让我们一起看看使用这个库完成的操作。

여기서 우리가 사용할 라이브러리는 젠심이라는 라이브러리입니다.
在这里,我们将使用一个名为"젠심"的库。

여기에 바로 지금 간략히 설명한 워드 투 백이 이제 제공되고 예컨대 아까 우리가 모비 리뷰 데이터 중에 일부를 가져와서 워드 투 백으로 학습을 수행합니다.
我在这里简要解释的词袋模型现在已经提供,例如,我们之前从莫比评论数据中取出的一部分,并使用词袋模型进行学习。

여기 보면 여러 가지 여기 옵션들이 있는데 이 벡터 사이즈 이게 앞서 우리가 m이라고 했던 것이죠.
在这里,你可以看到有多种选项,这个向量大小就是我们之前称为 m 的那个。

즉 중간 단계 표현을 몇 차원으로 할 거냐를 지정합니다.
即指定中间表示的维度。

10으로 지정했으니까 이제 모든 단어는 학습이 되고 난 후에 wa에서 m 차원 벡터로 매핑이 될 겁니다.
由于设置为 10,所以在学习之后,所有单词都将映射为 m 维向量。

모델에서 특정한 단어의 벡터를 보기 위해서 이런 함수가 제공돼서 예를 들면 학습이 진행된 이후에 맨이라는 단어에 벡터를 보면 이런 벡터가 얻어지는 10차원에 실수 값으로 표현된 벡터가 얻어졌죠.
为了在模型中查看特定单词的向量,提供了这样的函数,例如在学习完成之后,查看"man"这个词的向量,可以得到一个由 10 个维度的实数值表示的向量。


Attendees 1 1:19:30
与会者 1 1:19:30

이 벡터가 그래 무슨 의미가 있는 건가를 보기 위해서 우리가 몇 가지를 볼 텐데 예를 들면 이 워드 투 백으로 얻어진 모델에서 모스트 시밀러 같은 메소드를 쓰면 지금 m이 10이니까 10차원 공간에서 이 맨을 표현하는 요 벡터와 가장 유사한 가장 가까이 있는 벡터들을 찾아서 보여주는 건데 여기 보면 이런 단어들이 나왔다는 걸 알 수가 있습니다.
为了看这个向量到底意味着什么,我们将查看几个方面,例如在这个从词袋模型获得的模型中,使用最相似的方法,现在 m 是 10,所以在 10 维空间中表示这个"男人"的向量,找出最相似或最接近的向量。从这里可以看到出现了这些词。

맨과 가장 유사한 단어는 이 벡터 표현에서 파더라는 단어 영 라이프 우먼 이런 것들이 있는데 썬 패밀리 네 지금 이게 무비 리뷰를 한 텍스트들로에서부터 얻어진 보케비럴이기 때문에 굉장히 다양한 어떤 보케비럴들이 있을 텐데 대개 남녀 사람 가족 관계 이런 것과 관련된 단어들이 굉장히 유사도가 높은 단어로 이제 찾아진다는 걸 볼 수가 있죠.
在这个向量表示中,与"男人"最相似的单词是"父亲"、"生活"、"女人"等。因为这是从电影评论文本中获得的词汇,所以会有非常多样的词汇,通常可以发现与男女、人、家庭关系相关的词语具有很高的相似度。

조금 몇 가지를 더 보겠습니다. 지금 워드 투 백 모델을 가지고 우리가 기본 원리를 잠깐 살펴봤는데 이 이외에도 다양한 이런 인베딩하는 알고리즘 또 임베딩하는 라이브러리들이 있습니다.
让我们再看几个。我们刚刚使用词袋模型看了基本原理,除此之外还有各种嵌入算法和嵌入库。


Attendees 1 1:20:48
参会人员 1 1:20:48

대표적인 것으로서 글로브라는 것을 보면 컨셉은 유사하고 대량의 데이터로부터 코 어커런스 단어들이 동시에 등장하는 그런 빈도 를 기반으로 해서 이런 단어 임베딩 즉 벡터 표현을 찾는 그런 알고리즘입니다.
以全球(Glove)为代表,其概念相似,基于大量数据中同时出现的共现词的频率,寻找这种词嵌入,即向量表示的算法。

프리 트레인드 모델들이 제공이 됩니다. 그래서 다양한 말하자면 임베딩된 결과들을 제공하는 모델들이 있는데 예를 들어서 그중에서 글로브 이런 이름을 가진 어떤 임베딩 벡터들을 여러분들이 만약 다운로드에 쓴다면 가서 설명을 보면 이렇게 돼 있습니다.
提供了预训练模型。因此有多种可以说是已嵌入的结果的模型,例如,其中包括以全球(Glove)命名的嵌入向量,如果您下载并查看说明,就会发现是这样的。

이거는 글로브 알고리즘으로 학습된 임베디드 벡터들이고 뭐로부터 학습됐냐 하면 2014년에 위키피디아 텍스트와 기가 워드의 텍스트로부터 됐는데 학습에 사용된 전체 토큰이라고 돼 있는데 하여튼 단어의 개수라는 건 5.6빌리언이 사용됐고 그다음에 구분되는 보케이브로의 총 수는 40만 개의 보케이브러리가 있다는 거죠.
这些是使用全球算法学习的嵌入向量,从什么地方学习的呢?是从 2014 年的维基百科文本和 Giga Word 文本学习而来的。根据学习使用的全部标记显示,总共使用了 56 亿个标记,接下来,独特的词汇总数是 40 万个词汇。

여기 100이라고 돼 있는 것이 임베딩 벡터의 디멘전을 아마 나타내는 걸 겁니다.
这里显示的 100 可能表示嵌入向量的维度。


Attendees 1 1:22:04
与会者 1 1:22:04

그러니까 모든 40만 개의 서로 다른 버케미러리 워드들이 100차원의 벡터로 지금 표현돼 있는 인베 벡터라는 거죠.
所以现在所有 40 万个不同的词汇都用 100 维的向量表示,这就是嵌入向量。

네 그래서 그거를 다운로드 받아서 앞서와 같이 한번 살펴보면 이렇습니다.
是的,所以你可以下载它并像之前一样查看它。

각 단어는 어떻게 표현되냐면 배차원의 벡터로 표현되고 그래서 예를 들면 카라는 단어는 어떻게 생겼나 가서 보면 백 차원의 벡터로 표현돼 있다라는 걸 볼 수가 있습니다.
每个词都用一个百维向量来表示,例如,如果你去看"car"这个词,你可以看到它被表示为一个百维向量。

이거 갖고 뭘 할 수가 있느냐 앞에서와 마찬가지로 카라는 단어와 독이라는 단어를 한번 가서 보면 카라는 단어의 가장 유사한 단어는 뭐냐 보면 이렇게 돼 있습니다.
这到底能干什么?和之前一样,看看"卡拉"这个词和"毒"这个词,如果查看"卡拉"这个词最相似的词,就是这样的。

베이클 트럭, 커스 드라이브 이런 게 있죠 독이라는 단어와 가장 유사한 단어들은 어떤 게 있냐 캣 녹스 캣 커피 이런 게 있죠.
有贝克车、定制驾驶等。至于"毒"这个词最相似的词有哪些?比如猫毒、猫咖啡之类的。

딱 보면 우리가 이 나열된 단어들 몇 개만 봐도 이것이 어느 정도 관련성 있는 단어들을 지금 보여주고 있다는 걸 알 수가 있습니다.
只要看一眼,我们就能从这些列出的单词中了解到这些是相关性较高的词语。


Attendees 1 1:23:14
参会者 1 1:23:14

아까 처음에 시작할 때 얘기한 것처럼 원화 표현에서는 우리가 알 수 없는 단어 사이의 어떤 연관 의미적 연관성을 표현하는 그런 벡터들이라는 거죠.
正如之前开始时提到的,在原语表达中,这些向量表示了我们无法知道的单词之间的某种语义关联性。

그리고 이건 어디서부터 나왔냐 대량의 텍스트로부터 학습된 결과라는 겁니다.
这是从哪里来的呢?这是从大量文本中学习得到的结果。


Attendees 1 1:23:36
与会者 1 1:23:36

네 이걸 가지고 와서 우리가 시각적으로도 한번 살펴볼 수가 있겠습니다.
是的,我们可以带着这个来进行可视化的观察。

배차원을 시각적으로 보기는 어려우니까 2D 스페이스로 3D인 것 같은데 오타가 있는 것 같네요.
由于难以直观地看到维度,似乎是二维空间,但这里可能有一个错别字。

네 3D 스페이스에서 이걸 시각적으로 보기 위해서 PCA를 적용했습니다.
是的,为了在 3D 空间中直观地查看这个,我们应用了主成分分析(PCA)。

네 그래서 지금 앞에 카와 유사한 단어들, 독과 유사한 단어들을 한번 쭉 시뮬레이티를 뽑아봤는데 네 이걸 시각적으로 보기 위해서 맞네요.
是的,所以我现在提取了与"卡"相似的单词,与"独"相似的单词,并进行了模拟。是的,这是为了以视觉方式查看。

3차원으로 PCA를 돌리고 그러면 각각의 100차원 벡터가 지금 3차원으로 표현됐겠죠.
进行了 3 维 PCA 降维,那么原来的 100 维向量现在就表示为 3 维了。

그래서 거기에 따라서 모든 인베리드 벡터들을 트랜스폼 한 다음에 3차원에서 플롯을 해본 겁니다.
因此,根据这一点,在将所有的固有向量转换后,我在三维空间中绘制了图形。

글자가 좀 작긴 한데 여기 보면 카라는 벡터는 여기에 위치하고 독이라는 벡터는 여기에 위치한다 볼 수가 있죠.
字体确实有点小,但如果你看这里,可以看到卡拉向量位于这里,毒向量位于那里。

카란 벡터에 가까이 있는 단어들을 보면 비히클 트럭 드라이빙 이런 것들이 가까이 있는 거고 독이라는 단어에 좀 인접한 것들은 캔 펜 커피 이런 것들이 가까이 있다는 걸 볼 수가 있습니다.
查看卡兰向量附近的单词,可以看到诸如车辆、卡车、驾驶等词语靠近它。而与"毒"这个词相邻的词语则包括罐头、笔、咖啡等。


Attendees 1 1:24:55
与会者 1 1:24:55

네 그래서 우리가 앞서 로지스틱 리그레션이나 디시전 트리 같은 우리가 이미 봤던 머신러닝 알고리즘들은 원화 그러니까 즉 백오보드 표현으로 벡터로 표현한 그런 이제 텍스트는 텍스트 표현을 가지고 우리가 그런 머신러닝 알고리즘들을 적용시켜봤고 이런 워드 임베딩을 통해서 얻은 벡터 표현을 가지고도 물론 할 수가 있겠죠.
是的,因此我们之前已经看过的逻辑回归或决策树等机器学习算法,现在我们可以将文本表示为向量,即使用词嵌入得到的向量表示来应用这些机器学习算法。

그런데 이런 것들은 이런 걸 이용해서 우리가 어떤 텍스트를 분류하든지 혹은 텍스트에서 이걸 다른 텍스트로 번역을 하든지 혹은 어떤 질문 텍스트에서 답변 텍스트를 생성하든지 네 그런 것들의 이런 임베딩을 기반으로 한 여러 모델들을 우리가 적용할 수 있는데 그런 부분은 아까 처음에 시작할 때 얘기한 것처럼 딥러닝에 대해서 좀 살펴본 이후에 나중에 다시 이 주제로 돌아오도록 하겠습니다.
但是,我们可以利用这些方法来分类文本,或者进行文本翻译,甚至是从问题文本生成答案文本。这些基于嵌入的模型可以应用,但是正如我们之前讨论的,我们将在深入学习之后再回到这个主题。

네 오늘 텍스트를 가지고 머신러닝을 수행하는 어떤 내용과 관련된 여러 가지 주제들을 한번 살펴봤습니다.
是的,今天我们一起看了关于使用文本进行机器学习的各种主题。


Attendees 1 1:26:14
参会人员 1 1:26:14

오늘 강의는 여기까지 하고 다음 주에는 다시 원래 슈퍼바이스 러닝 주제로 돌아가는데 딥러닝으로 가기 위해서 우리가 신경망 모델에 대해서 먼저 살펴보도록 하겠습니다.
今天的讲座到此为止,下周我们将返回到原来的监督学习主题,为了进入深度学习,我们将首先查看神经网络模型。

오늘 강의는 여기까지로 마치도록 하겠습니다.
今天的讲座到此结束。



clovanote.naver.com