我参加了今天开始的人工智能与机器学习 Meetup

从今天开始的人工智能 × 机器学习交流会

由于我迟到了,所以希望能够中途加入并且对内容的理解有些困惑,如果我说了谎,请温柔地指出来……。

参与者非常认真。

对不起,我无法评估和翻译您提供的信息,因为您未提供准确的输入。请提供标题或具体的句子,我将竭尽全力帮助您。

石野明氏是ワークスアプリケーションズ公司的人。

开始学习机器学习后,很难得到期望的结果。需要一些技巧。

余弦相似度

    比率が一緒なら出てくる類似度も一緒

库尔巴克-莱布勒散度

总结

    • Analysis and Feature Engineering データをちゃんと見る

 

    • Skewed Data かたより。headとtailを切る

 

    • Smoothing

 

    Metrics

因为我事先参加了,所以在途中我开始回顾TL。

    • データが多いと誤差範囲が狭まるので良い

 

    • データが多すぎると性能的に処理できなくなるので減らす

ただしサンプリング(無作為抽出)は低頻度要素がなくなるのでダメ、headとtailを切り落とす

データの特徴に応じてデータをキレイにする

ただし答えがわからないと出来ないという鶏卵問題
短期間でやるならディープラーニングよりもワイドな機械学習のほうが精度が出る場合がある

我理解能力太低了,所以不能夠完全理解……or

(错过了标题幻灯片)

Opt社的加藤尊先生

在广告技术中的机器学习。

    • A/Bテスト

 

    • バンディット戦略

A/Bテストに対して、最大効率の「比率」を探す
ε-Greedyアルゴリズム

確率εで現時点で最適を選び、確率(1-ε)でより良いものを探す

Softmaxアルゴリズム

ε-Greedyに対して、最悪と思われるものは避ける

UCBアルゴリズム
オライリーのBanditAlgorithmsの付録コードがGitHubに上がっている

通过将点击率和广告展示次数优化为UCB值,改善效果超过40%。

游戏AI的机器学习

在游戏中,决定每一步棋的过程由“搜索”和“评估”组成。

将棋是日本的一种棋类游戏,围碁是中国的一种棋类游戏。

    • 将棋

全探索ベース
手数が限られる、初期探索30ほど
「技巧」など

囲碁

モンテカルロ探索
手数が多い、初期探索361

原始モンテカルロ法
モンテカルロ木探索

通过增加模拟步数来增强(Alpha Go每步耗时4.8毫秒,因此无法充分利用模拟步数,但仍然强大)。

最近的游戏人工智能

    • value network

 

    policy network

Alpha Go正在使用两种方法进行处理

让学生学习科学。似乎可以在业余3级左右进行强化训练。

深度Q网络(DQN)
逆强化学习
从奖励中进行学习
近期趋势

参考资料:从零开始深入学习学科知识

Puyopuyo AI竞赛

“四连珠AI游戏的挑战性”

    • 考慮時間が短いので探索と評価ができない

 

    貪欲探索したいがうまくいかない

实践性!人工智能与机器学习结合在ietty的情况下

ietty社中的大浜毅美先生

服务概述
在聊天中决定房间
寻找房间的网站

为什么要将人工智能引入到”不动产xIT”中?

    • Amazonで買えない10のもの

不動産が買えない
なぜECで売れないのか

高すぎてポチれない
規制がある(宅建業法)
検索、レコメンデーションといった要素技術が未発達

固有の困難さがあるので流用しにくい

房地产推荐的挑战

    • 通常1顧客1購入

 

    • 在庫は常に1個

 

    商品点数は世帯の数と同数以上

所以,

    • 商品詳細ページの作成単価が高くなる

 

    購買バースの共起計測ができない

房地产行业的现状

    • 集客のみのIT化

 

    • 詳細情報の提供・内見は電話とメールと店舗

品切れがあり得る

存在しない物件をおいてもわからない

店舗での「接客」

人力マッチング

得出了以下結論

考虑到传统的方法似乎无法解决这个问题,因此正在考虑使用人工智能来解决。

参考例:如何使用Ietty

    条件を入れると日々AIや人間が選んだ物件が送られてくる

与一般搜索的差异

    • 客は高望みする

 

    • 現実的な検索条件にして(条件緩和)納得感のある提案を行う

譲って貰えそうな条件を勘ではなくAIで行う

现在是基于规则的阶段,接下来将挑战机器学习。

由于购买数据无法用作教师数据,因此我们将销售员的提案数据用作教师数据。

集群协同过滤
混合集群协同过滤

算法评估

    • 学術的には分割法などがある

 

    • さっさと導入したいのでプロ営業員の直感との差異を確認

実戦投入までの時間を短くしたい

关于WACUL技术和特征转换

WACUL社中的伊藤真央先生

运用技术

    • Scala

 

    • Mesos

 

    • Spark

 

    • Cassandra

 

    • commons.math

DL4j

時系列解析、リカーデングニューラルネットワーク?

Breeze (Matlabっぽい感じ)
JLAPACK

解析要素技术的示例

    • 最小2乗

 

    • DL

 

    • 回帰

 

    • 時系列解析

 

    • 統計的検定

 

    Baysian Network

特征提取是指

事件→数据化·标签化→特征提取→机器学习

深度学习只需输入数字即可吗?
是在进行特征提取后再进行输入。

    • Domain Specific(SIFTとか)

 

    General

表征学习

自动编码器

    • 次元削減

 

    • 半教師ありとして?

 

    • Domain Adaptationへの1つの回答として使える?

違う分布に対しての解を求める方法として

学习效率的提高

    • GPU

 

    分散学習

分析方法

    • TopologicalDataAnalysis

 

    • Persistent Homology

 

    • Rips Complex

Vietoris-Rios

ユークリッド空間上で距離を計算
filteringでトポロジを形成?

实践

我尝试使用自编码器实践了MNIST。

    • 手書き文字の特徴抽出

RELU -> RELU -> RELU -> RELU -> Sigmoid
AutoEncoderで30次元にしてSigmoid -> Sigmoid -> Sigmoid -> Softmax

95%くらい

大数据与安全-签名与模型混合平台。

赛博安全云公司的渡边洋司先生

基于并行分布式流处理技术,进行基于机器学习模型的异常检测研究开发和偏向评估攻击检测研究开发。

提供云端式WAF服务。

    • 攻撃遮断くん

 

    攻撃見えるくん(無料)

用基于签名的方法来进行检测的方式

    • 入力データ

HTTPサーバログ
syslog
40億件/月くらいが蓄積

検出数

100万件/月

处理日志和检测数据的行动

    • 月ごとの検知レポート自動生成

今はルールベースだが、置き換えていく

ゼロデイ検知
誤検知の改善

reCapcha 良質な教師ありデータを収集できる

建立用于零日检测的模型构建任务。

    • 最適な特徴量と手法の選択がキモ

パス、リファラ、UA
パラメータ、値
呼び出し順序
HTTPヘッダ、ステータス
どれを使えばよいのか

そもそもどうやって正解を判断するか(ゼロデイだから答えが用意できない)

Slowアタックとかどうなるのか

教師あり学習でアプローチ

過去の検知データはある、ただしご検知が含まれている(Grand Truthがない)

既知の亜種なら見つけやすい

目標はそこじゃない

検証の難しさ

検出対象は「未知」のもの

教師なし学習でアプローチ

特徴量の発見の難しさ

そもそも集めているログで十分なのか(feature engineeringの分野)

検証の難しさ

教師ありよりも更に難しい
検知したと思ったらアプリバージョンアップでパラメータが増えただけだったり

シグネチャ型

検知ルールが明確
シグネチャにない攻撃は検知できない

モデル型

未知の攻撃を検知できる可能性
検知の理由が不明確

Apache METRON can be paraphrased as “Apache METRON” in Chinese.

对于大数据网络安全分析

Cisco的OpenSOC已成为代码的基础。目前正进行第二个技术预览的公开。

    • リアルタイム検知の処理をMETRONを中心に

 

    Hadoop / Spark周りでモデルの構築、リファインを行う

在深度学习中的异常检测

Skymind公司的首席技术官Adam Gibson。

《深度学习》(O’Reilly)这本书的作者。
这是一本为实际应用而写的书。

DL4j的创始人。

客户集中在通信和金融行业。

异常是一种情况。

異常なデータパターン

Networkへの侵入検知
データセンターでの機器故障

ネットワーク侵入検知はCanonicalと開発

深度学习是指一种机器学习方法

    • Googleが先行していて、アドテクによく使われいていた

 

    手法を流用して異常検知にも使える

无导师的自主学习
有导师的监督学习

自动编码器

如果没有教师,我们可以采用AutoEncoder机制来解决。通过计算元素之间的距离,可以检测出正常与异常(异常数据距离较大,即离群值)。

RNN/时间序列
在很多情况下可以看到多对一的情况(在一定时间段内获得正常/异常等的一个解)。

使用Apache Nifi来演示控制系统之间的数据流。

印象

    • なんだかんだで現状はルールベースが多い

課題を感じてモデルベースの検討を進めている様子
今までの経験があった上でのモデル構築、でも結構大変そう

学術的な方面どこまでやるか
apache nifi便利そう

广告
将在 10 秒后关闭
bannerAds