Машинное обучение без учителя для определения смысла слов: open source инструмент от Google

В блоге Google Open Source Blog появилось сообщение о новом open source инструменте word2vec. Исследователи Google утверждают, что при его помощи можно получить смысл слов, лишь прочитав огромные массивы данных. Инструмент применяет «распределённые представления» текстовых данных для обнаружения связей между концептами — и всё это при помощи машинного обучения без учителя (unsupervised machine learning) на основе нейронных сетей (neural networks).

Интересно, что модель помещает близкие страны рядом, как и близкие столицы. Похожие связи возникают автоматически во время тренировки алгоритма.

У исходного кода хорошая лицензия: Apache License 2.0, которая позволяет менять его без опубликования изменений и встраивать его в том числе в коммерческие приложения.

В статье также упоминается ставший популярным в последнее время метод Deep Learning, дающий результаты, лучшие на порядок предыдущих методов. Кстати, большинство победителей конкурсов по машинному обучению на kaggle (ваш покорный слуга также имел честь участвовать) применяет либо ансамбли методов на Decision Trees, либо методы Deep Learning.

// ./demo_word.sh
Enter word or sentence (EXIT to break): machine translation

Word: machine  Position in vocabulary: 799

Word: translation  Position in vocabulary: 1206

                                              Word       Cosine distance
------------------------------------------------------------------------
                                              mmix              0.485542
                                        translator              0.484659
                                              msil              0.483476
                                            manual              0.479708
                                            turing              0.462978
                                      introduction              0.458771
                                          readable              0.449272
                                        unabridged              0.448343
                                          machines              0.447570
                                           rosetta              0.443270
                                          compiler              0.438949
                                        dictionary              0.437040
                                      translations              0.436334
                                        translated              0.429008
                                     specification              0.422286
                                        typewriter              0.422246
                                               awk              0.420415
                                           version              0.417623
                                       interpreter              0.415583
                                            itrans              0.414944
                                             tools              0.413505
                                         annotated              0.413150
                                            lincos              0.411448
                                          abridged              0.411152
                                              text              0.407197
                                          language              0.404664
                                            freedb              0.403896
                                           vulgate              0.402863
                                             xpath              0.401687
                                        calculator              0.397689
                                            enigma              0.394239
                                           klingon              0.394041
                                           opencyc              0.393687
                                           systran              0.391636
                                           multics              0.391623
                                               kli              0.389196
                                               apl              0.386948
                                          editions              0.383799
                                            skybox              0.383791
                                             algol              0.383730
Enter word or sentence (EXIT to break): weather

Word: weather  Position in vocabulary: 2693

                                              Word       Cosine distance
------------------------------------------------------------------------
                                              warm              0.634004
                                          humidity              0.611526
                                             humid              0.605240
                                           summers              0.594220
                                     thunderstorms              0.591256
                                          snowfall              0.590065
                                     precipitation              0.582246
                                           climate              0.580110
                                           winters              0.577238
                                          rainfall              0.570583
                                             rainy              0.566492
                                    below_freezing              0.566140
                                      rainy_season              0.561857
                                            cooler              0.558795
                                             winds              0.558283
                                            colder              0.557494
                                      cold_winters              0.545980
                                               wet              0.545650
                                            frosts              0.539969
                                             drier              0.539645
                                          climatic              0.537766
                                            warmer              0.535417
                                            winter              0.532653
                                      warm_summers              0.530857
                                             el_ni              0.530692
                                      temperatures              0.528191
                                 relative_humidity              0.527605
                                            summer              0.527042
                                      mild_winters              0.526249
                                           monsoon              0.524260
                                       trade_winds              0.523211
                                           daytime              0.523093
                                          seasonal              0.520377
                                               dry              0.519703
                                        hurricanes              0.517527
                                         subarctic              0.514771
                                        visibility              0.514740
                                         snowfalls              0.513660
                                         monsoonal              0.513538
                                       hot_summers              0.513050

Об авторе Dmitry Kan

CEO компании SemanticAnalyzer (language intelligence)
Запись опубликована в рубрике Ресурсы/Софт с метками , , , . Добавьте в закладки постоянную ссылку.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *