【統計分析】機械学習・データマイニング【集合知】at TECH
【統計分析】機械学習・データマイニング【集合知】 - 暇つぶし2ch2:デフォルトの名無しさん
10/10/04 23:08:23
このスレはアイちゃんです

3:デフォルトの名無しさん
10/10/04 23:15:13
関連スレ

人工知能を作ろうver0.0.6
スレリンク(tech板)

4:デフォルトの名無しさん
10/10/04 23:24:00
このスレッドは天才チンパンジー「アイちゃん」が
言語訓練のために立てたものです。

アイと研究員とのやり取りに利用するスレッドなので、
関係者以外は書きこまないで下さい。

                  京都大学霊長類研究所

5:デフォルトの名無しさん
10/10/04 23:43:14
ニューラルネットワークもこのスレでいいの?

6:デフォルトの名無しさん
10/10/05 01:32:52
何か、くだらない事に使えそうな気がする。

7:デフォルトの名無しさん
10/10/05 08:47:51
スレタイに集合知、とあるだけで厨スレにしか見えなくなっている件

8:デフォルトの名無しさん
10/10/06 01:02:05
機械学習やデータマイニングの初心者なら
最初に集合知プログラミングを読むだろ?

集合知プログラミング
URLリンク(www.amazon.co.jp)

9:デフォルトの名無しさん
10/10/08 05:53:59
機械学習とデータマイニングって同じものなの?

10:デフォルトの名無しさん
10/10/08 06:12:53
起源が違うしようともアルゴリズムも違うものが多いが、
数学的にいえばどちらもデータ縮約の一種なので似た一つのグループとして扱われる

JPEGの不可逆圧縮も実は機械学習やデータマイニングと同じグループに入る。

11:デフォルトの名無しさん
10/10/09 07:27:22
縮約は要素技術の1つにすぎないだろ。
データマイニングは実データからモデルを構築するための技術群と手法。
機械学習は観測データから外挿的推定をするための技術群。
共通した要素技術は多いが、目的と得られる出力がまるで違う。

12:デフォルトの名無しさん
10/10/11 05:42:11
サポートベクトルマシン

13:デフォルトの名無しさん
10/10/14 05:50:06
次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる
URLリンク(www.publickey1.jp)

グーグルやマイクロソフト曰く、
「統計分析こそ次の10年でもっとも魅力的な職業になる」そうです。

いま、大量のデータを指す「Big Data」という言葉が多くの場面で使われるようになってきました。
ITの発展に、さまざまなビジネスの現場で、いままで以上に詳細な販売データ、ネット広告に対する反応、
オンライン上での自社の評判など、ビジネスに関連するデータが詳細かつ膨大になってきたためです。

IBMもデータの分析ができる人材を4000人増やすと記事で触れられています。

これまで、IT分野の中心的な役割は、さまざまな目的に応じたシステムを構築することでした。
ITの専門性とは主に、ソフトウェアとハードウェアを使って構築するためのものでした。

しかし、そうして構築したシステムからどんどんとデータが送られてくるようになってくると、次の時代のITの役割として、
このITによって生成されたデータを活用するために分析、加工することの比重が高くなってくるのでしょう。

そしてITエンジニアに求められる専門性もそれに従って、統計や確率、集合や演算といった数学的な専門性の上で、
それを実装するためのプログラミング技術が重視される時代になるのかもしれません。


14:デフォルトの名無しさん
10/10/14 22:52:54
同じBlog上のこの記事読んで絶対計算の本を思い出した。

URLリンク(www.publickey1.jp)
グーグル、世界中のショッピングデータから独自の景気動向指数を算出。
カルビーは降雨量や気温からジャガイモの品質を算出。「これがデータの威力」

15:デフォルトの名無しさん
10/10/16 04:08:38
データ分析の応用的手法が商業的に最も熱い分野になるだろうというのは、
実際やっている人間からするとものすごくよく分かるのだが、
プログラマ かつ 統計の専門教育を受けている人が少ないからなあ。
このスレの過疎っぷりを見てもそうだが。
A4で5枚くらいのパンフレットを書いて分野を盛り上げたほうがいいんだろうか。

16:デフォルトの名無しさん
10/10/16 04:21:51
ageて宣伝してみる

プログラマの皆さん。
「スパムフィルタの学習」説明できますか?
「google IMEのクローン」ぱっと骨組みだけでも考えられますか?
「天候から品質や売上を予測する」穀物メジャーからコンビニまで使っています。

インターネットを使って日々膨大なデータを低コストで集めることができるようになりました。
そして今、湯水のように溢れるデータから価値のある情報を引き出す技法、
データマイニング、機械学習、各種の統計は一番ホットな分野となっています。
今後10年はこれで戦うことができ、20年後にはただの常識となっているでしょう。


プログラマの皆さん。
統計を覚えて、プログラマからコンサルタントになりませんか。

17:デフォルトの名無しさん
10/10/16 06:22:57
>>16
いや、俺はプログラマとして機械学習を応用したプログラムを作り続ける。
つーか、こんな面白い仕事、他人に渡せるかってのw

18:デフォルトの名無しさん
10/10/23 21:20:07
>>16
仕事紹介してよ・・・
基礎統計が分かってて
プログラム組めればいいの?


19:デフォルトの名無しさん
10/10/24 06:35:49
>>18
やっぱ、ノンパラメトリック・ベイジアンぐらい鼻歌まじりに実装できないと・・・

20:デフォルトの名無しさん
10/10/24 11:36:58
ベイジア~ン♪

21:デフォルトの名無しさん
10/10/24 18:17:24
>>18
SASとSPSS必須

22:デフォルトの名無しさん
10/10/24 18:27:41
>>21
Rじゃだめですか?
SPSSはともかく、SASは高い。

23:デフォルトの名無しさん
10/10/24 19:29:20
統計は「流派」ができちゃってるからな。
ウチはR(37)、ウチはSPSS、ウチはSAS(18)って感じで。
ウチはMatlab(19)でとかウチはLabViewでみたいに。

24:22
10/10/24 21:38:47
>>23
そのライブラリにバグないの? と聞かれたときに、このソフト使ってるから大
丈夫です。と印籠のように使えるからね。

25:デフォルトの名無しさん
10/10/25 02:42:14
統計系
・SPSS
・SAS
・R

機械学習系
・Octave
・Matlab
・Weka

最近は自分で実装しなくてもツールが沢山あるからねぇ。
使いたい手法の概要とツールの使い方だけ覚えておけばいい。


26:デフォルトの名無しさん
10/10/25 03:21:52
SASってむずかしいの?
何とか統計で働きたい

27:デフォルトの名無しさん
10/10/25 06:06:24
難しいのはツールでもプログラミングでもなく、統計の理論そのものだろ

28:デフォルトの名無しさん
10/10/25 07:54:47
難しいのはツールでもプログラミングでも統計の理論でもなく、適用対象分野の性質の理解だろ

29:デフォルトの名無しさん
10/10/25 08:35:27
そうなってくると完全に板違いだな

30:デフォルトの名無しさん
10/10/25 08:36:57
SASは文法?が気持ち悪い。便利だけど。
Rのほうがまし。SPSSはしらない。

31:デフォルトの名無しさん
10/10/25 18:13:19
>>25
マイニング屋ならそうだね。あと研究主体の人達。
ML応用系のシステム屋は、地道にシコシコと実装。でも楽しい。

32:遠隔地からの電磁波による思考盗聴は現段階では不可能
10/10/25 19:23:56
『思考盗聴』には少なくとも
①脳に電極を埋め込む手術が必要である。
②通信媒体は電波(電磁波)である。
ということが2009年段階で言われているようです。(下記参照)

『脳を読み取る最新技術(前半) 20090209 』
URLリンク(www.youtube.com)

『脳を読み取る最新技術(後半) 20090209 』
URLリンク(www.youtube.com)

したがって、「脳に電極を埋め込まれるような手術を受けていない人」や
「遠隔からの電磁波による思考盗聴を危惧している人」は思考盗聴される
ことはありえないと判断してよいのではないでしょうか。

皆さんの個人情報やプライバシー情報の漏洩・流出と『思考盗聴』とよばれる
現象には関連性があるのではないでしょうか。
『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
URLリンク(infowave.at.webry.info)

遠隔地から電磁波を送って思考を盗聴する「思考盗聴装置」という機器があるわけではないと思うのですが
どうでしょうか。



33:遠隔地からの電磁波による思考盗聴は現段階では不可能(2)
10/10/25 19:25:04
『Wikipedia』の「ブレイン・マシン・インターフェイス」(下記)
URLリンク(ja.wikipedia.org)
でいう「非侵襲式」という方式です。実用面の説明として(以下引用)
「手軽にセンサーの取り外しが出来ることから実用面でリードしているものの、
頭蓋骨などの影響で脳波が変化してしまい(体積伝導)、侵襲式と同じように正確に情報を読み取れるかどうかは課題として
残っている。」(以上引用)
と述べています。①脳に電極を埋め込む手術が必要である。ような侵襲式でない場合は正確な脳波を測ることは 現段階では不可能
なようです。脳波を測るのに②電波(電磁波)を使う。と考えるとして、遠隔地からどのような電波 を対象者(ターゲット)に照射
して脳波を読もうとするのでしょうか。指向性電波でしょうか。対象者だけに電波(電磁波)を照射できる 保証はあるのでしょうか。
携帯電話の電磁波でも長時間浴びると脳に障害がでると言われていますが、どれくらいの間対象者に電波 (電磁波)を照射するので
しょうか。長時間の電磁波照射は人体に有害である可能性が高いですよね。結局、遠隔地からの電磁波照射では対象者の脳波や
脳の血流を正確に読むことはできないと考えられます。



34:遠隔地からの電磁波による思考盗聴は現段階では不可能(3)
10/10/25 19:26:19
『NEWTON(ニュートン)』の3月号(記参参照)
URLリンク(www.newtonpress.co.jp)
の『脳研究の今』P42~P43に「fMRI」についての情報がのっています。日本では
>>33で述べられているような脳に電極を埋め込まない「非侵襲式」の研究が盛んなよう
です。興味があれば読んでみてはいかがでしょうか。「fMRI」については下記の
『Wikipedia』の「fMRI」を参照してください。
URLリンク(ja.wikipedia.org)

脳波を測定するにしても、脳も血流を測定するにしても、遠隔地からの電磁波による
思考盗聴は現段階では不可能なようです。 したがって、>>32で述べているように
「脳に電極を埋め込まれるような手術を受けていない人」や 「遠隔からの電磁波
による思考盗聴を危惧している人」は思考盗聴される ことはありえないと判断して
よいのではないでしょうか。

皆さんの個人情報やプライバシー情報の漏洩・流出と『思考盗聴』とよばれる
現象には関連性があるのではないでしょうか。
『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
URLリンク(infowave.at.webry.info)

遠隔地から電磁波を送って思考を盗聴する「思考盗聴装置」という機器があるわけではないと思うのですが
どうでしょうか。



35:遠隔地からの電磁波による思考盗聴は現段階では不可能(4)
10/10/25 19:30:41
『Newton』6月号(右記)URLリンク(ime.nu)
 サイバーワールド『脳波から意志を読み取る装置が実用化へ』(12ページ)の
「持ち運び可能な無線脳波計」の項目に次のような記載があります。
(以下引用)
「これまでの認知型BMIは、装置が大きく高価で、操作もむずかしいなど、
実用性にもとぼしいものが多かった。そんな中、産業技術総合研究所の研究
グループは、認知型BMIシステムを用いた、より実用性の高い意志伝達装置
「ニューロコミュニケーター」を開発した。BMIには、脳に電極を刺して
脳活動を読み取る「侵襲型」と、脳に電極を刺さない「非侵襲型」がある。
ニューロコミュニケーターは、より安全性の高い「非侵襲型」で、ヘッド
キャップをかぶり、頭皮上の脳波(電位変化)から脳活動を計測する方法
を採用している。そして、コア技術の一つとして開発されたのが、持ち運
び可能な「超小型脳波計」である。この脳波計は、コイン型電池で長時間
稼動し、外部機器とは無線で通信するため、ケーブルからのノイズの混入
もなく、ユーザーの動きも制限しない。(以上引用)
『このニューロコミュニケーターでも頭部に脳波を測るヘッドキャップを常時装着しています。
その測定結果を電波で送信するのです。脳波を測定するにしても、脳も血流を測定するにしても、
遠隔地からの電磁波による 思考盗聴は現段階では不可能なようです。 したがって、>>32
で述べて いるように 「脳に電極を埋め込まれるような手術を受けていない人」や 「(自分の意思で脳波測定の
ヘッドキャップをつけていないのに)遠隔からの電磁波 による思考盗聴を危惧している人」は思考盗聴
される ことはありえないと判断して よいのではないでしょうか。

皆さんの個人情報やプライバシー情報の漏洩・流出と『思考盗聴』とよばれる
現象には関連性があるのではないでしょうか。 『ライフログ集合体と個人情報・プライバシー問題
(『思考盗聴』とよばれる現象の一種について)』 URLリンク(infowave.at.webry.info)
遠隔地から電磁波を送って思考を盗聴する「思考盗聴装置」という機器があるわけではないと思うのですが
どうでしょうか。



36:『アメリカ経由の通信情報ローンダリング手法』の確立可能性あり
10/10/25 19:34:03
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
URLリンク(infowave.at.webry.info)

盗聴法改正案が来年提出され、もし成立すれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。

37:警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して
10/10/25 19:37:35
『警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して(Nシステム運用法律の立法の重要性)』
URLリンク(infowave.at.webry.info)の参照お願いします。



38:デフォルトの名無しさん
10/10/25 19:54:20
思考盗聴という言葉から一瞬キチガイさんかと思ったが、
Webブラウジング履歴やユビキタス/Augmented Realityにおける個人情報データの蓄積に対する抗議文か。

まあその危惧は分からないでもない。

39:デフォルトの名無しさん
10/10/25 20:37:42
思考盗聴はまだ先の技術っぽいね。

google等の情報集積の危険性は同意。。

40:デフォルトの名無しさん
10/10/25 22:42:58
たしかにgoogleはデータ集めすぎ
androidでさらに加速するだろうしね

41:デフォルトの名無しさん
10/10/26 04:58:31
危険なのはgoogleよりもISPだろ。
日本の総務省はDPIを認める方向で動いているし。

42:デフォルトの名無しさん
10/10/26 19:16:33
俺の性癖まるわかりになっちゃうしな

43:デフォルトの名無しさん
10/10/27 00:55:36
カード会社が最強

44:デフォルトの名無しさん
10/10/27 12:23:35
google危険だよ。
たまに出てくるGoogle Ads見てみ
見事に最近の検索結果と一致してるから。

まあDPIも危険だろうけど。

歴史上独占が進んでおかしくならなかったケースなんて
ほとんど無いからね。


45:デフォルトの名無しさん
10/10/27 22:23:55
それは売る側のプログラムに既に書いてあるよ

46:デフォルトの名無しさん
10/10/28 20:51:54
>>44
> たまに出てくるGoogle Ads見てみ
> 見事に最近の検索結果と一致してるから。

それのどこが危険なの?

47:デフォルトの名無しさん
10/10/29 11:18:23
ああ、アフォがいる

48:デフォルトの名無しさん
10/10/29 18:28:17
よそで見たページの語彙とか、自宅の近所に貼ってあった選挙ポスターとか、
そういうのが検索結果やアドに反映されてたら怖いけどさ、
ググルで検索した履歴がググルのアドに反映されても何の不思議も怖さもないんだけど。

49:デフォルトの名無しさん
10/10/30 00:34:03
( ´_ゝ`)フーン

50:デフォルトの名無しさん
10/11/06 06:39:42
とうけい!


51:デフォルトの名無しさん
10/11/06 22:47:40
HMMが実装できない・・・

52:デフォルトの名無しさん
10/11/07 20:27:44
かくれ☆まるこふ!

53:デフォルトの名無しさん
10/11/07 21:03:12
ばうむ☆うぇるち!

54:デフォルトの名無しさん
10/11/08 01:06:54
M・R・F!!M・R・F!!

55:デフォルトの名無しさん
10/11/08 01:10:52
クラスタリング結果を評価する時
どういう評価方法を採るのが一般的ですか?

56:デフォルトの名無しさん
10/11/08 03:56:05
クラスタリングなどの教師無し学習は、
そもそも教師データが無いので評価できないのでは?
クラスタリングの目的は潜在変数の予測だしね。
評価の基準(教師データ)があるなら教師付き学習を使うだろ。


57:デフォルトの名無しさん
10/11/08 17:13:59
評価というか結果の解釈のことじゃね?

58:デフォルトの名無しさん
10/11/09 04:58:42
>>51
とある過程の動的計画法(ダイナミックプログラミング)

59:デフォルトの名無しさん
10/11/09 04:59:53
>>56
凝集度を計測したり、色々な評価尺度があるが?

60:デフォルトの名無しさん
10/11/10 00:24:15
MAPとMLEって,どう違うの?

61:デフォルトの名無しさん
10/11/10 10:41:29
CやJavaでガリガリコーディングする分野じゃないよね?

62:デフォルトの名無しさん
10/11/10 12:08:14
>>61
JavaならWekaとかあるよ
ガリガリは書かないだろうけど

63:デフォルトの名無しさん
10/11/10 15:37:52
集合知プログラミングのクラスタリングのプログラムロジックをPerlに移植した上で、
過去半年の英米圏で発表された科学論文系のプレスリリース約12000件のクラスタリングを
やってみたところ、プログラムがまったく動作しなかった。

元テキストで使われている英単語から辞書を作成したところ、辞書の大きさは約6万件。
これを元に記事ごとの単語頻出度を抽出させたんだが、1記事6万件の単語フィールドだと
普通のプログラムだと処理しきれないみたい。

集合知プログラミングのサンプルデータだとちゃんと処理できたのだが、
URLリンク(kiwitobes.com)

64:デフォルトの名無しさん
10/11/10 21:52:51
bayonで処理してみたが、100件のデータ処理でも5分以上かかり、全件データの処理は無理があるということが判明しました。
単語頻出度の出現率リストから作り直す必要があるみたいなので、今、元データを見直してみたところ、
全テキストに出現するユニークワードは67769。この内、1度しか出現しないワードは全体の48%。
反対にもっともよく出現するワードはこれ、とりあえず、上と下のワードを削ってみます。

1 6703 research
2 6442 study
3 6297 university
4 5410 researchers
5 4182 journal
6 4071 published
7 4049 found
8 3467 professor
9 3088 years
10 2910 health
11 2862 time
12 2819 results
13 2694 team
14 2688 patients
15 2687 scientists
16 2687 data
17 2635 author
18 2623 disease
19 2581 people
20 2578 findings


65:デフォルトの名無しさん
10/11/10 23:11:42
この分野を学ぶのに,無料で読めるpdfのオヌヌメないですか?

66:デフォルトの名無しさん
10/11/11 00:45:30
現時点ではオライリーの集合知プログラミングが唯一に入門書。
日本語のブログ記事もそこそこあるが、ほとんどは、他のサイトでこういうことが紹介されていました、という
伝聞記事で、実際にテキストマイニングをやったことはない人が書いたもの。実際に自分で試して記事は
ベイジアン分類はそこそこあるが、クラスタリングになるとほとんどない。非負値行列因数分類とかになると
そもそも入門レベルでの解説は不可能で、自然言語系の専門教育を受けた人じゃないとかなり難解。

集合知プログラミングの作者のブログによるとこの本(原書)は1500部売れたとか書いてあるけど、
1500部というと多分、初版で終わりのレベル。英米圏でも1500というのはオライリーの専門書のなかでも
かなり専門的な分野だと思う。



67:デフォルトの名無しさん
10/11/11 01:37:55
いちいち上げんな

68:デフォルトの名無しさん
10/11/11 15:22:25
ageとく

69:デフォルトの名無しさん
10/11/11 22:25:58
>>65
URLリンク(www.dl.kuis.kyoto-u.ac.jp)

70:デフォルトの名無しさん
10/11/12 01:54:30
>>66コードがpythonの時点でダメダメ

71:デフォルトの名無しさん
10/11/12 16:23:58
この話題プログラム板より学問板のがいんじゃね。

72:デフォルトの名無しさん
10/11/12 16:29:20
今時、理論は分からなくても、LibSVM呼ぶだけじゃん。
もっと応用に使うべき。

73:デフォルトの名無しさん
10/11/12 16:30:09
>>70
どうして?

74:デフォルトの名無しさん
10/11/12 17:11:05
>>71
シミュレート板に関連スレがいくつかありました。
しかし9月上旬にkamomeが飛んだ時にログが2ch.netから失われました。
過疎板の上に今は書き込み規制が乱発されているので再建は難しそうです。
URLリンク(kamome.2ch.net)

kamome移転前のログが下記ページにあります。
URLリンク(www.unkar.org)

75:デフォルトの名無しさん
10/11/12 18:15:26
>>70
あの本で載っているPythonのサンプルはアルゴリズムを説明するため使っているもので、
プログラム例ではないよ。現にそもまま打ち込んでも動かないというか、多分、著者は、
実行系で動かしたものを掲載したんではなく、ワープロでそもまま直感的に打ち込んだもの
を掲載しているんじゃないかと思う。つまり、アルゴリズムの表現としてただ単に平易な言語
を使っただけではないかと思う。

76:デフォルトの名無しさん
10/11/12 19:25:28
自分で打たなくても動くやつDLできるだろ

77:デフォルトの名無しさん
10/11/12 22:40:37
確かにダウンロードはできるのだが、ダウンロード提供されているプログラムは書籍に載っているプログラム例と異なる。
アマゾンのコメントとかには、プログラムを打ち込んでも全然動かないとか、そもそもシンタックスがおかしくおかしいとか、
果ては演算子のxが書籍内ではx(エックス)が使われており、著者は四則演算もできないバカとか、完全に的外れのコメントまで書かれている。


78:デフォルトの名無しさん
10/11/13 16:21:37
融通きかんやつだな

79:デフォルトの名無しさん
10/11/16 12:55:31
Googleがやってるのも要はデータマイニング。

80:デフォルトの名無しさん
10/11/16 13:29:46
>>75
そうは言うけど、自分の知らないプログラミング言語だとわかりにくいよ
サンプルコードはC系の言語(C,C++,C#,Java)当たりにしとくべき

81:デフォルトの名無しさん
10/11/16 14:34:35
>>80
それこそ、向かないでしょう。

82:デフォルトの名無しさん
10/11/16 14:44:42
600ページの本になっちゃう。


83:デフォルトの名無しさん
10/11/16 19:33:51
あの本を読んで、単純ベイジアン分類器とデータクラスタリングの2章分の機能をサイトに移植したのだが、
データクラスタリングの章は、根本的なところで、テキストから抽出する単語の頻出度データの構造が悪い。
セガランのクラスタリング実装では、Big brown fox jumps over the lazy dogとNow is the time all the good men stand for America.
という2つのテキストがあった場合、出現する全部単語で列を作って
1 -> 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0と
2 -> 0 0 1 0 0 0 1 0 1 1 1 1 1 1 1 1
のようなテーブルを作ってクラスタライングを実行することになる。ところが、大量の文章を元にこのデータ
構造を作ろうとなると、それこそ、普通の辞書に載っているだけの単語が出現することになって、
元データの1行の列数が数万とかとんでもないことになって処理が困難になる。

その後でBayonを使ってみてBayonのデータ構造がかなり違っていることに気づいたのだが、Bayonの場合、入力データは
Big 1 brown 1 fox 1 jumps 1 over 1 the 1 lazy 1 dog 1
Now 1 is 1 the 2 time 1 all good 1 men 1 stand 1 for 1 America 1
みたいな記述になっていてデータが単純。あの本の批判には、Pythonのシンタックスがおかしいという他に
Pythonによる実装例だとスケーラブルな処理ができなくなるというのがあるんだけど、まあ、その批判も
実際に試した結果から言っているものではないな。上のデータ構造はセガランはベイジアン分類器でも
使っているが、そもそもスケーラブルな処理をこなすためにはこのデータ構造そのものが問題でPython
云々の問題ではない。ただし、まあ、あのレベルの本だとそこを含めて判って当然なんだろうと思う。


84:デフォルトの名無しさん
10/11/18 16:14:31
>>83
データ構造の考え方としては間違えてないと思う。
実際、疎行列に最適化した実装なんていくらでもあるよ。

85:デフォルトの名無しさん
10/11/19 10:51:52
>>80
Javaに関してだけのコメントだけど、
「Javaによる知能プログラミング入門」なんかを読んでみると
この手の本にJavaは向かない気がする。プログラムの一単位が
大きく、説明文とコードを1ページに詰めようとすると、文字も
細かくなり読みにくい。やはりこういうレベルのアルゴリズム
記述は記号処理言語だけで構成することが望ましいのではないか。

86:85
10/11/19 12:56:02
そうは書いてみたものの、「集合知プログラミング」の中で、アルゴリズムの
説明箇所は少ないね。データ構造と実行例ばかり。

87:デフォルトの名無しさん
10/11/19 17:01:43
そもそもこれ以外に包括的に書かれた入門書ってあるの?


88:デフォルトの名無しさん
10/11/20 08:05:27
>>87
集合蜘 in action

89:『尖閣ビデオ』流出問題に垣間見る通信の秘密の法律・傍聴法の無力化
10/11/22 06:40:29
興味深い事に、今日(2010年11月22日現在)、インターネットの検索エンジン(たとえば、Google、Yahoo! など)
で「警察・盗撮」というキーワードで検索すると、警察官による盗撮事件が複数検索できます。もちろん、盗撮行為をした
警官は逮捕されています。一方、「警察・盗聴」というキーワードで検索すると、警察官による盗聴事件はほとんど検索結果
がでません。これにはいくつかの可能性が考えられると思うのです。

①本当に警察官は傍聴法にもとづいたと傍聴以外の違法な盗聴を行って
いないから事件にならない。
②「検察が法的根拠なしでも開示要請すれば、ほいほいと従うという暗黙の慣例」にしたがって、
実は傍聴法にもとづかない違法・越権盗聴を行っているが、日本国内のプロバイダーや通信業者の
協力で問題が表面化せずにごまかせている。

『尖閣ビデオ』流出問題に垣間見る通信の秘密の法律・傍聴法の無力化』(下記参照おねがいします)
URLリンク(infowave.at.webry.info)

90:デフォルトの名無しさん
10/11/22 07:40:10
「○○は俺が知らないから駄目!俺の知ってる言語で書け!」とか言われるなら
既存のどの言語にも平等に似てない擬似言語を使うしかないんじゃないか

いや件の本が良いか悪いかは別として

91:デフォルトの名無しさん
10/11/29 08:26:36
>>86
そのアルゴリズムを何を使ってどうやって説明するかは難しいよ。
例えばGoogleのページランクのアルゴリズムを説明するには、最終的には方程式でも示さなければダメになる。
それでもいいけど、そこまでいくともう論文でしょ。
オハイリーで出版できる本じゃなくなる。


92:デフォルトの名無しさん
10/11/29 10:52:54
関連記事検索システムのために作ったデータクラスタリングのプログラムに画像データのカラーヒストグラムマップの数値
情報を与えて分類させたらちゃんと動くと思う?



93:デフォルトの名無しさん
10/11/29 11:27:11
ここの記事読んで、カラーヒストグラムを使った類似画像検索システム作ってみたんだが、K平均法のデータクラスタリングの
プログラムにデータを与えたらちゃんと分類したよ。

これはちょっとおもしろい。
URLリンク(d.hatena.ne.jp)

94:デフォルトの名無しさん
10/11/29 16:17:36
ああおもしろそうだ

95:『2ちゃんねる』:海外からのデータマイニング?
10/11/29 23:03:28
『【ネット】2ちゃんねる、“言論なき日本”を見捨てた?…2ちゃんねる、ひろゆき氏の手を離れてシンガポール共和国の法人へ譲渡[1/2]』
(下記参照)
スレリンク(news4plus板)
(以下引用)『譲渡先は「PACKET MONSTER INC. 」とされており、これについての詳細な説明はない。・・・(中略)・・・
また、書き込みを保存するサーバー自体はアメリカ合衆国にあり、従来、2ちゃんねる
ガイドに添えられていた「書き込み削除の最終責任は管理人ひろゆきにあります。 」という表現自体も削除されている・・・
(中略)・・・今回の“外国への譲渡”が、
書き込みをめぐる名誉棄損訴訟や法務省、警察庁など“ネットを取り締まる”官庁にも相当の影響を与えると思われる。』
(以上引用)

以上を読んでいただ後、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
URLリンク(infowave.at.webry.info)

盗聴法改正案が来年提出され、もし成立すれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。



96:デフォルトの名無しさん
10/12/01 10:59:12
>>93
あたりまえだけど
色しかみてないのが良くわかるね

97:デフォルトの名無しさん
10/12/01 12:40:01
エロ画像と水着画像の識別はできなさそうだな

98:デフォルトの名無しさん
10/12/01 23:04:18
機械学習全般についてかかれてるいい教科書ない?
できれば日本語で

99:デフォルトの名無しさん
10/12/02 02:03:08
オライリーの集合知本ブックオフに売っちゃったんだよなあ
このスレ見てたらまた読みたくなってきた

100:デフォルトの名無しさん
10/12/02 03:39:03
一回読んだのなら、ソースコード眺めれば大体思い出すだろ。

101:デフォルトの名無しさん
10/12/02 07:05:18
オクにでも出せばよかったのに
あそこだと400円ぐらいだろうww


102:デフォルトの名無しさん
10/12/03 07:06:17
>>98
【超初心者向け】
集合知プログラミング
URLリンク(www.amazon.co.jp)

フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで
URLリンク(www.amazon.co.jp)


【初心者向け】
統計的機械学習―生成モデルに基づくパターン認識
URLリンク(www.amazon.co.jp)

わかりやすいパターン認識
URLリンク(www.amazon.co.jp)


【中・上級者向け】
パターン認識と機械学習 上 - ベイズ理論による統計的予測
URLリンク(www.amazon.co.jp)


103:デフォルトの名無しさん
10/12/06 17:22:20
ちぃ、モンティー・ホールおぼえた!

104:デフォルトの名無しさん
10/12/15 03:15:59
集合知プログラミングって尼で内容が薄いって酷評されてるのもあるけど実際とうですか?

105:デフォルトの名無しさん
10/12/15 09:51:05
中学の英語の教科書見て、「こんな簡単な本じゃ役に立たん!」という類の池沼さん。

106:デフォルトの名無しさん
10/12/15 15:53:22
少なくともこの分野の全くの初心者からすると読み応えあるはず
多少かじってる人なら中身をちょっと見れば自分に適してるかどうか判断できるっしょ

107:デフォルトの名無しさん
10/12/15 16:36:38
>>105-106
どうもありがとうございます。
アメリカの尼の評価は非常に高かったしデータマイニングは初学なので読んでみようと思います。

108:デフォルトの名無しさん
10/12/16 18:23:01
>>104
良い本だと思いますよ。
題材も、掲載されているアルゴリズムも、わかりやすいと思う。

ただ、プログラム例に怪しいものもあるので
ネットで検索しながら読んだ方がいいかもね。
あと、数学的な背景を知りたければこの本の後に別な本を読むべし。


109:デフォルトの名無しさん
10/12/16 22:35:37
特徴ベクトルの次元30くらいで、
windows版のliblinearのL2正則化付きロジスティック回帰で学習させると、
学習例が10億を超えたくらいからエラーが出ます
(正確にはVisual Studioのデバッガが出る)。
心当たりのある人いますか?

本当は自分でliblinearをコンパイルして調べないといけないのだけど・・・。

110:デフォルトの名無しさん
10/12/17 05:08:12
使用できるメモリの容量を上げろ

111:デフォルトの名無しさん
10/12/17 10:22:37
まさか32bit OSじゃないよね?

112:デフォルトの名無しさん
10/12/17 11:27:21
なにそれ卒論?

113:デフォルトの名無しさん
10/12/17 14:43:08
スタックトレースの見かたもしらないの?

114:デフォルトの名無しさん
10/12/17 23:10:42
機会学習ってなかなか面白いな

115:デフォルトの名無しさん
10/12/20 09:29:05
美人とセックスできる機会を学習させたい

116:デフォルトの名無しさん
10/12/20 15:14:25
学習に利用できるデータがありません!

117:デフォルトの名無しさん
10/12/20 19:39:46
美人とのセックスの回数と年収の相関係数は1.0。

118:デフォルトの名無しさん
10/12/21 14:09:10
母集合に韓国産を含めてもダメかい?

119:デフォルトの名無しさん
10/12/21 15:52:43
しょうもな

120:デフォルトの名無しさん
10/12/23 02:37:50
>>108
皆さんの意見により買わせて頂きました。
とても楽しい本で導入として買って見ましたが非常に良かったと思います。
とりあえず>>102を参考にして順次レベルアップしていこうと思います。
回答頂いた方本当にありがとうございました。

121:デフォルトの名無しさん
10/12/23 04:55:28
sqliteとかlibsvmのバージョン違いでAPIが変わっているので
そのへんは少し自分で調べて変更が必要だった。

122:デフォルトの名無しさん
10/12/23 23:10:11
WebAPI多用し過ぎだろww
アルゴリズムの記述も少ないし内容的にも表面なぞってるだけでなんでこんなに褒められてんだかわからんww

123:デフォルトの名無しさん
10/12/24 03:05:34
概要が分かればいいんだよ。
どんな問題に適用できるのかさえ知っていればね。

SVMだって使うだけならカーネル法なんか知らなくても問題無い。


124:デフォルトの名無しさん
10/12/24 06:55:49
>>122
なら100万件のデータセットを手で打ち込め。

125:デフォルトの名無しさん
10/12/24 22:38:01
>>122
車輪の発明しないようにね

126:デフォルトの名無しさん
10/12/26 23:17:51
フリーソフトでつくる音声認識システムと集合知プログラミングのどっちにしようかかなり悩んでます。
フリーソフトでつくる音声認識システムの本のほうの利点みたいな所を紹介してもらえないでしょうか。

127:デフォルトの名無しさん
10/12/26 23:50:39
「集合知プログラミング」はいくつかのデータマイニングの手法の概要がわかるだけ。
・各手法がどのような問題に適用できるのか
・各手法の長所と短所
とかね。

各手法の詳しいアルゴリズムは載ってないので自分で実装は出来ないけど、
どの問題にはどの手法が適しているとかは分かるようになるし、
WebAPIなどのツールを使って問題を解く事は出来るようになる。


「フリーソフトでつくる音声認識システム」の方は機械学習やパターン認識寄りで、
各手法のアルゴリズムを数式を使って詳しく説明している。

「集合知プログラミング」よりは多少難しいが、
これくらいの内容は理解してないと色々困る。


128:デフォルトの名無しさん
10/12/27 00:01:32
>>127
なるほど自分の用途だと後者の本が良かったのでこれで心配せずに買えそうです。
迅速な回答ありがとうございました。

129:デフォルトの名無しさん
10/12/28 20:55:13
俺には教科書的な感じでしょうもなかったな

130:デフォルトの名無しさん
10/12/29 11:09:26
教科書最強

131:デフォルトの名無しさん
10/12/29 11:15:49
機械学習を卒論で発表するぜ

132:デフォルトの名無しさん
10/12/31 20:23:09
機械学習とデータマイニングの両方勉強してる人っているの?

133:デフォルトの名無しさん
10/12/31 21:57:35
いるよ、俺とか。

134: 【小吉】 【1041円】
11/01/01 01:39:02
本の話で申し訳ないんですが>>102みたいなデータマイニングについての本で良い本はありますでしょうか?
機械学習とはどうやら違うようなので。

135: 【豚】 【251円】
11/01/01 19:19:24
データマイニングの分野の本はそんなにないから調べてみ。

136:デフォルトの名無しさん
11/01/02 01:55:06
問1.機械学習、データマイニング、パターン認識の違いを述べよ (30点)


137:デフォルトの名無しさん
11/01/02 02:38:08
>>136
>>11

138:デフォルトの名無しさん
11/01/02 15:17:57
機械学習 ⊃ データマイニング

139:デフォルトの名無しさん
11/01/02 15:39:08
>>138
それは違うだろ・・・

140:デフォルトの名無しさん
11/01/02 18:49:42
株価予想とかはデータマイニング?

141:デフォルトの名無しさん
11/01/02 19:06:56
株価予想の一部はデータマイニング

142:デフォルトの名無しさん
11/01/02 19:53:52
データマイニングも機械学習もおんなじようなもんだろ。


143:デフォルトの名無しさん
11/01/02 21:28:40
無知乙

144:デフォルトの名無しさん
11/01/03 14:56:41
>>142
機械を使わなくてもデータマイニングはできる
機械で実装できていないデータマイニングがある

145:デフォルトの名無しさん
11/01/04 01:59:30
データマイニングの良書
URLリンク(www.tokyo-tosho.co.jp)

146:デフォルトの名無しさん
11/01/04 18:41:51
R言語とかあんのか

147:デフォルトの名無しさん
11/01/07 18:11:27
地雷っぽい本だな

148:デフォルトの名無しさん
11/01/10 00:57:17
【R言語】統計解析フリーソフトR 第4章【GNU R】
スレリンク(math板)

149:デフォルトの名無しさん
11/01/10 14:12:35
テキストマイニングって本が少し高目だけどお薦め。

150:『2ちゃんねる』:海外からのデータマイニング?
11/01/21 05:48:32
『【ネット】2ちゃんねる、“言論なき日本”を見捨てた?…2ちゃんねる、ひろゆき氏の手を離れてシンガポール共和国の法人へ譲渡[1/2]』
(下記参照)
スレリンク(news4plus板)
(以下引用)『譲渡先は「PACKET MONSTER INC. 」とされており、これについての詳細な説明はない。・・・(中略)・・・
また、書き込みを保存するサーバー自体はアメリカ合衆国にあり、従来、2ちゃんねる
ガイドに添えられていた「書き込み削除の最終責任は管理人ひろゆきにあります。 」という表現自体も削除されている・・・
(中略)・・・今回の“外国への譲渡”が、
書き込みをめぐる名誉棄損訴訟や法務省、警察庁など“ネットを取り締まる”官庁にも相当の影響を与えると思われる。』
(以上引用)

以上を読んでいただ後、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
URLリンク(infowave.at.webry.info)

盗聴法改正案が来年提出され、もし成立すれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。



151:遠隔地からの電磁波による思考盗聴は現段階では不可能
11/01/21 05:58:20
『思考盗聴』には少なくとも
①脳に電極を埋め込む手術が必要である。
②通信媒体は電波(電磁波)である。
ということが2009年段階で言われているようです。(下記参照)

『脳を読み取る最新技術(前半) 20090209 』
URLリンク(www.youtube.com)

『脳を読み取る最新技術(後半) 20090209 』
URLリンク(www.youtube.com)

したがって、「脳に電極を埋め込まれるような手術を受けていない人」や
「遠隔からの電磁波による思考盗聴を危惧している人」は思考盗聴される
ことはありえないと判断してよいのではないでしょうか。

皆さんの個人情報やプライバシー情報の漏洩・流出と『思考盗聴』とよばれる
現象には関連性があるのではないでしょうか。
『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
URLリンク(infowave.at.webry.info)

遠隔地から電磁波を送って思考を盗聴する「思考盗聴装置」という機器があるわけではないと思うのですが
どうでしょうか。



152:遠隔地からの電磁波による思考盗聴は現段階では不可能(2)
11/01/21 05:59:36
『Wikipedia』の「ブレイン・マシン・インターフェイス」(下記)
URLリンク(ja.wikipedia.org)
でいう「非侵襲式」という方式です。実用面の説明として(以下引用)
「手軽にセンサーの取り外しが出来ることから実用面でリードしているものの、
頭蓋骨などの影響で脳波が変化してしまい(体積伝導)、侵襲式と同じように正確に情報を読み取れるかどうかは課題として
残っている。」(以上引用)
と述べています。①脳に電極を埋め込む手術が必要である。ような侵襲式でない場合は正確な脳波を測ることは 現段階では不可能
なようです。脳波を測るのに②電波(電磁波)を使う。と考えるとして、遠隔地からどのような電波 を対象者(ターゲット)に照射
して脳波を読もうとするのでしょうか。指向性電波でしょうか。対象者だけに電波(電磁波)を照射できる 保証はあるのでしょうか。
携帯電話の電磁波でも長時間浴びると脳に障害がでると言われていますが、どれくらいの間対象者に電波 (電磁波)を照射するので
しょうか。長時間の電磁波照射は人体に有害である可能性が高いですよね。結局、遠隔地からの電磁波照射では対象者の脳波や
脳の血流を正確に読むことはできないと考えられます。



153:遠隔地からの電磁波による思考盗聴は現段階では不可能(3)
11/01/21 06:01:31
『NEWTON(ニュートン)』の3月号(記参参照)
URLリンク(www.newtonpress.co.jp)
の『脳研究の今』P42~P43に「fMRI」についての情報がのっています。日本では
>>152で述べられているような脳に電極を埋め込まない「非侵襲式」の研究が盛んなよう
です。興味があれば読んでみてはいかがでしょうか。「fMRI」については下記の
『Wikipedia』の「fMRI」を参照してください。
URLリンク(ja.wikipedia.org)

脳波を測定するにしても、脳も血流を測定するにしても、遠隔地からの電磁波による
思考盗聴は現段階では不可能なようです。 したがって、>>151で述べているように
「脳に電極を埋め込まれるような手術を受けていない人」や 「遠隔からの電磁波
による思考盗聴を危惧している人」は思考盗聴される ことはありえないと判断して
よいのではないでしょうか。

皆さんの個人情報やプライバシー情報の漏洩・流出と『思考盗聴』とよばれる
現象には関連性があるのではないでしょうか。
『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
URLリンク(infowave.at.webry.info)

遠隔地から電磁波を送って思考を盗聴する「思考盗聴装置」という機器があるわけではないと思うのですが
どうでしょうか。




154:遠隔地からの電磁波による思考盗聴は現段階では不可能(4)
11/01/21 06:02:49
『Newton』2010年6月号(右記)URLリンク(ime.nu)
 サイバーワールド『脳波から意志を読み取る装置が実用化へ』(12ページ)の
「持ち運び可能な無線脳波計」の項目に次のような記載があります。
(以下引用)
「これまでの認知型BMIは、装置が大きく高価で、操作もむずかしいなど、
実用性にもとぼしいものが多かった。そんな中、産業技術総合研究所の研究
グループは、認知型BMIシステムを用いた、より実用性の高い意志伝達装置
「ニューロコミュニケーター」を開発した。BMIには、脳に電極を刺して
脳活動を読み取る「侵襲型」と、脳に電極を刺さない「非侵襲型」がある。
ニューロコミュニケーターは、より安全性の高い「非侵襲型」で、ヘッド
キャップをかぶり、頭皮上の脳波(電位変化)から脳活動を計測する方法
を採用している。そして、コア技術の一つとして開発されたのが、持ち運
び可能な「超小型脳波計」である。この脳波計は、コイン型電池で長時間
稼動し、外部機器とは無線で通信するため、ケーブルからのノイズの混入
もなく、ユーザーの動きも制限しない。(以上引用)
『このニューロコミュニケーターでも頭部に脳波を測るヘッドキャップを常時装着しています。
その測定結果を電波で送信するのです。脳波を測定するにしても、脳も血流を測定するにしても、
遠隔地からの電磁波による 思考盗聴は現段階では不可能なようです。 したがって、>>33
で述べて いるように 「脳に電極を埋め込まれるような手術を受けていない人」や 「(自分の意思で脳波測定の
ヘッドキャップをつけていないのに)遠隔からの電磁波 による思考盗聴を危惧している人」は思考盗聴
される ことはありえないと判断して よいのではないでしょうか。

皆さんの個人情報やプライバシー情報の漏洩・流出と『思考盗聴』とよばれる
現象には関連性があるのではないでしょうか。 『ライフログ集合体と個人情報・プライバシー問題
(『思考盗聴』とよばれる現象の一種について)』 URLリンク(infowave.at.webry.info)
遠隔地から電磁波を送って思考を盗聴する「思考盗聴装置」という機器があるわけではないと思うのですが
どうでしょうか。



155:デフォルトの名無しさん
11/01/21 06:06:39
今度はここか

156:デフォルトの名無しさん
11/01/21 06:27:17
何回同じ質問してんだよ
池沼か?

157:警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して
11/01/21 07:29:33
>>156

「池沼」とはどのような意味ですか。池と沼ですか。

158:警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して
11/01/21 07:31:21
興味深いことに、インターネットで「警察・盗聴」で検索するとほとんど事件らしい事件は
見当たりません、目立つ事件と言えば『日本共産党幹部宅盗聴事件』くらいです。下記『Wikipedia』
「日本共産党幹部宅盗聴事件」を参照してください。
URLリンク(ja.wikipedia.org)
一方、「警察・盗撮」で検索すると多くの盗撮事件があることがわかります。これは、警察の盗聴と盗撮に対する
「令状主義」の差がでているのではないかと考えられます。下記参照おねがいします。

『警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して(Nシステム運用法律の立法の重要性)』
URLリンク(infowave.at.webry.info)の参照お願いします。


159:警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して2
11/01/21 07:32:38
今まで起きた警察による盗撮事件はコメント欄に記載されています。
参照してください。

160:『尖閣ビデオ』流出問題に垣間見る通信の秘密の法律・傍聴法の無力化
11/01/21 07:36:33
興味深い事に、今日(2011年1月21日現在)、インターネットの検索エンジン(たとえば、Google、Yahoo! など)
で「警察・盗撮」というキーワードで検索すると、警察官による盗撮事件が複数検索できます。もちろん、盗撮行為をした
警官は逮捕されています。一方、「警察・盗聴」というキーワードで検索すると、警察官による盗聴事件はほとんど検索結果
がでません。これにはいくつかの可能性が考えられると思うのです。

①本当に警察官は傍聴法にもとづいたと傍聴以外の違法な盗聴を行って
いないから事件にならない。
②「検察が法的根拠なしでも開示要請すれば、ほいほいと従うという暗黙の慣例」にしたがって、
実は傍聴法にもとづかない違法・越権盗聴を行っているが、日本国内のプロバイダーや通信業者の
協力で問題が表面化せずにごまかせている。

『尖閣ビデオ』流出問題に垣間見る通信の秘密の法律・傍聴法の無力化』(下記参照おねがいします)
URLリンク(infowave.at.webry.info)



161:デフォルトの名無しさん
11/01/21 19:57:10
頼むからこういう奴は規制してくれよ
掲示板的には右翼左翼よりもある意味性質が悪い

162:デフォルトの名無しさん
11/01/21 20:02:04
通報しました

163:内閣府HPにおける個人情報保護法
11/01/21 21:26:40
興味深いことに、インターネットで「警察・盗聴」で検索するとほとんど事件らしい事件は
見当たりません、目立つ事件と言えば『日本共産党幹部宅盗聴事件』くらいです。下記『Wikipedia』
「日本共産党幹部宅盗聴事件」を参照してください。
URLリンク(ja.wikipedia.org)
一方、「警察・盗撮」で検索すると多くの盗撮事件があることがわかります。これは、警察の盗聴と盗撮に対する
「令状主義」の差がでているのではないかと考えられます。下記参照おねがいします。

『警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して(Nシステム運用法律の立法の重要性)』
URLリンク(infowave.at.webry.info)の参照お願いします。


『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
URLリンク(infowave.at.webry.info)にも記載させていただきましたが、
内閣府(HP管理は消費者庁に移動したようです。)の『個人情報保護法に関する疑問と回答』
(下記参照してください)URLリンク(www.caa.go.jp)
このページのQ1-3には「個人情報保護とはどういうことですか。プライバシー保護とは違うのですか。」
という質問がのっています。

その回答の一部に「個人情報保護法は、個人情報取扱事業者が個人情報の適正な
取扱いのルールを遵守することにより、プライバシーを含む個人の権利利益の侵害を未然に防止することを狙いとしています。」
という内容があることを確認できます。

つまり、内閣府ではプライバシーを含む個人の権利利益の侵害を未然に防止することを
目的にして、 とくに個人特定に関わる情報を個人情報として守るべきであるということを明示しているということです。



164:元総務省顧問の意見
11/01/21 21:30:56
『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
URLリンク(infowave.at.webry.info)にも記載させていただきましたが、
「自己情報コントロール権の銘記」に関しては必要があるという判断をしている元総務省顧問の人がいます。
『個人情報保護法改正の議論を始めよう』(下記参照してください、発言時は現職です。)
URLリンク(blog.goo.ne.jp)
(以下引用)

「個人情報保護法とは、その名の通り「国民の個人情報」を保護するのではなくて、
「個人情報」を行政機関(警察・検察など捜査機関を含む)が自由自在に使える状態
となってしまっていて、行政機関がどのように「個人情報」を扱っているのかについては、
当事者である個人がアクセスしようにも、「個人情報だから教えられません」という倒錯が起きている。
「自己情報コントロール権」が銘記されなかったせいだ。」 以上引用)

とにかく、個人情報やプライバシー情報が本人の一回ごとの認証なしに一方的に入手・利用されるような
状況は避けるべきではないでしょうか。



165:『2ちゃんねる』:海外からのデータマイニング?
11/01/21 21:33:23
(>>95再)

『【ネット】2ちゃんねる、“言論なき日本”を見捨てた?…2ちゃんねる、ひろゆき氏の手を離れてシンガポール共和国の法人へ譲渡[1/2]』
(下記参照)
スレリンク(news4plus板)
(以下引用)『譲渡先は「PACKET MONSTER INC. 」とされており、これについての詳細な説明はない。・・・(中略)・・・
また、書き込みを保存するサーバー自体はアメリカ合衆国にあり、従来、2ちゃんねる
ガイドに添えられていた「書き込み削除の最終責任は管理人ひろゆきにあります。 」という表現自体も削除されている・・・
(中略)・・・今回の“外国への譲渡”が、
書き込みをめぐる名誉棄損訴訟や法務省、警察庁など“ネットを取り締まる”官庁にも相当の影響を与えると思われる。』
(以上引用)

以上を読んでいただ後、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
URLリンク(infowave.at.webry.info)

盗聴法改正案が来年提出され、もし成立すれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。



166:Tea and Coffee Time
11/01/21 21:46:38
掲示板等の匿名性は保たれているのでしょうか、暗に言語統制をしようとするための情報
漏洩ルートはないのでしょうか。個人情報保護法や「通信の秘密」を守る法律が軽視、無視されて、
掲示板などのインターネット上の匿名性がなくなると、最近話題の集団ストーカー行為等が引き起こされる
可能性があると考えられます。(下記参照)
URLリンク(infowave.at.webry.info)
掲示板やホームページ、あるいはブログの意見を消去せずに言語統制や集団ストーカー
の関係を調べるよい方法がいくつか考えられると思うのですがどうでしょうか。



167:デフォルトの名無しさん
11/01/22 03:06:05
そんなことよりシステムトレード実装したいな

168:デフォルトの名無しさん
11/01/22 19:51:31
スレチ
【自動】株式トレーディングシステム Part6【売買】
スレリンク(tech板)

169:デフォルトの名無しさん
11/01/23 13:50:17
トレーディングシステムに機械学習は必須じゃないし

170:デフォルトの名無しさん
11/02/05 03:31:35
あげ

171:デフォルトの名無しさん
11/02/05 14:28:21
【工学】インターネット上の大量な情報を分析・整理し信頼性判断を支援する技術を開発 
スレリンク(scienceplus板)

172:デフォルトの名無しさん
11/02/12 14:48:46
15パズルを強化学習で説かせたいのですが
状態数が多すぎて評価値を保存しきれません
何か良い方法はありますか?

173:デフォルトの名無しさん
11/02/13 22:21:53
そもそも状態数が多すぎるものは強化学習に向いてない

174:デフォルトの名無しさん
11/02/14 18:13:54
TokyoCabinetでも使えば?

175:Tea and Coffee Time
11/02/24 07:12:59.52
>>166(再)

掲示板等の匿名性は保たれているのでしょうか、暗に言語統制をしようとするための情報
漏洩ルートはないのでしょうか。個人情報保護法や「通信の秘密」を守る法律が軽視、無視されて、
掲示板などのインターネット上の匿名性がなくなると、最近話題の集団ストーカー行為等が引き起こされる
可能性があると考えられます。(下記参照)
URLリンク(infowave.at.webry.info)
掲示板やホームページ、あるいはブログの意見を消去せずに言語統制や集団ストーカー
の関係を調べるよい方法がいくつか考えられると思うのですがどうでしょうか。



176:『2ちゃんねる』:海外からのデータマイニング?(再)
11/02/24 07:46:57.50
『【ネット】2ちゃんねる、“言論なき日本”を見捨てた?…2ちゃんねる、ひろゆき氏の手を離れてシンガポール共和国の法人へ譲渡[1/2]』
(下記参照)
スレリンク(news4plus板)
(以下引用)『譲渡先は「PACKET MONSTER INC. 」とされており、これについての詳細な説明はない。・・・(中略)・・・
また、書き込みを保存するサーバー自体はアメリカ合衆国にあり、従来、2ちゃんねる
ガイドに添えられていた「書き込み削除の最終責任は管理人ひろゆきにあります。 」という表現自体も削除されている・・・
(中略)・・・今回の“外国への譲渡”が、
書き込みをめぐる名誉棄損訴訟や法務省、警察庁など“ネットを取り締まる”官庁にも相当の影響を与えると思われる。』
(以上引用)

以上を読んでいただ後、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
URLリンク(infowave.at.webry.info)

盗聴法改正案が来年提出され、もし成立すれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。



177:デフォルトの名無しさん
11/02/24 12:20:50.48
TCと他map実装の比較(全部memcopy時)
URLリンク(fallabs.com)
なんとかなるかな

178:デフォルトの名無しさん
11/02/26 12:41:48.45
吉本ってこれ使ってネタ作ってる

話聞いてておかしいと思ったよ
なんかエキサイト翻訳的な日本語で話しかけられてるから意味が通じないって
言う、ハーフの友人の母なんかエキサイト翻訳の英文の意味が本国では通じな
いって言ってたけどな。

何度も何度も「子供たち」「子供たち」って聞こえて明らかに30過ぎたおっさんが
何言ってんだ?と思ったがな。

179:デフォルトの名無しさん
11/02/26 14:21:45.10
単語を適当にマルコフ連鎖でつなげれば、
100に1つくらいは使えるネタが作れそう。

180:デフォルトの名無しさん
11/02/27 09:35:17.93
ガンダムって教育型タイプコンピュータだったんだな。
URLリンク(www.youtube.com)
の13分あたり

181:デフォルトの名無しさん
11/02/27 09:48:05.76
常識だろ
ガンダムはSVMでNT判別するんだぜ?

182:デフォルトの名無しさん
11/02/28 12:03:48.96
その当時にSVMが(ry

183:デフォルトの名無しさん
11/02/28 15:09:44.04
なんか人口無脳作って喋らしたいんだけどフリーの喋らせるソフトってない?

184:デフォルトの名無しさん
11/02/28 16:29:55.90
>>183
作りたいのか拾いたいのかどっちなんだ?

185:デフォルトの名無しさん
11/02/28 17:45:19.38
拾いたいです

186:デフォルトの名無しさん
11/02/28 19:30:38.70
>>185
作れよ。

187:デフォルトの名無しさん
11/02/28 19:43:50.89
伺か

188:デフォルトの名無しさん
11/02/28 22:20:08.98
作るのは人工無能で、拾うのは人工有声

189:デフォルトの名無しさん
11/03/01 00:30:57.35
>>188
そうです。
喋らせる言葉はテキストマイニングで決める予定なので欲しいのは人工有声です。

190:デフォルトの名無しさん
11/03/01 12:56:32.13
タミーの買ってやれよ

191:デフォルトの名無しさん
11/03/01 13:45:39.26
ニコニコで人工有声使ってる人いなかったっけ?

192:デフォルトの名無しさん
11/03/01 13:53:37.87
テキストマイニングの分野で入門自然言語処理ってどう?

193:デフォルトの名無しさん
11/03/01 15:11:23.18
別に

194:デフォルトの名無しさん
11/03/01 16:16:24.39
>>193
だったら書き込まないでください

195:デフォルトの名無しさん
11/03/01 21:11:40.43
>>189
じゃ、お前って結局何もする気ないってことじゃん。
帰れよ。

196:デフォルトの名無しさん
11/03/01 23:17:24.54
なぜそうなるのか、よく分からん。
音声エンジンは作らないけど、AI作るんじゃないのか?

197:デフォルトの名無しさん
11/03/02 11:19:10.31
このスレじゃ人工有声も作るのがデフォらしい

198:デフォルトの名無しさん
11/03/02 20:05:55.59
単純パーセプトロンって入力層と出力層だけの構成のもの?
それとも出力層ニューロンが1つだけのものをいうの?


199:デフォルトの名無しさん
11/03/03 21:48:14.53
出力層ニューロンが1つだけのもの。
層の数は関係ない。

200:デフォルトの名無しさん
11/03/09 23:51:17.98
SIで機械学習使った仕事が出来るのってどんな分野ですか?情報家電とか?

201:デフォルトの名無しさん
11/03/10 00:44:07.42
SIで情報家電って、そのSIは何だろう。

202:デフォルトの名無しさん
11/03/10 00:45:50.16
BIなど分析系の業務なら使えるのでは。

203:デフォルトの名無しさん
11/03/10 02:01:00.06
Web系企業はどこでもHadoop使ってデータマイニングやってるけどね


204:デフォルトの名無しさん
11/03/10 19:44:03.64
>>200
そこら辺のメーラーにも機械学習が使われているから、
機械学習を使ってない仕事を探す方が難しい。

205:デフォルトの名無しさん
11/03/10 19:52:49.00
いや、直接ML実装するのは末端パートナー
SIerは末端パートナーから買い叩いたMLをポンと繋げるだけ
もちろん、SIerのSE様はMLなんて理解できてないから、
使えねえゴミシステムができあがるわけだがw

206:デフォルトの名無しさん
11/03/10 20:23:15.40
実際つくるのは、SIerだと研究所ぐらいだよな

207:デフォルトの名無しさん
11/03/20 22:21:37.03
パターン認識もここでいいの?

208:デフォルトの名無しさん
11/03/21 01:39:02.32
>>16
批判思考、論理思考(広範囲の可能性から根拠に基づき対策を確定)、
人の気持ちを察する。これが出来なきゃコンサルは無理。
データをインフォメーションに変えるのは人間だからな。

209:デフォルトの名無しさん
11/04/01 20:07:40.61
機会学習、データマイニングを勉強して幸せになれるようなことって何?
具体的にどんなことが出来るようになるの

210:デフォルトの名無しさん
11/04/01 20:19:39.67
>>209
論文を書ける

211:デフォルトの名無しさん
11/04/01 21:23:29.19
そんなしょうもないこと聞いてないです。
もう結構です

212:デフォルトの名無しさん
11/04/01 22:13:30.65
>>209
女にモテる

213:デフォルトの名無しさん
11/04/01 22:17:02.11

ジ  ハ ,,ハ
デ (;゚◇゚)z
!?

214:デフォルトの名無しさん
11/04/02 06:03:59.97
ヒルズ勤務になれる

215:デフォルトの名無しさん
11/04/02 06:46:22.60
カネがもらえる

216:デフォルトの名無しさん
11/04/02 11:03:44.70
ここまで自演

217:デフォルトの名無しさん
11/04/02 15:46:18.69
機会学習の勉強の本教えて~

218:デフォルトの名無しさん
11/04/03 22:54:49.03
マンガでわかる統計学ってどうすか

219:デフォルトの名無しさん
11/04/04 00:37:16.22
意外に良書だけどスレチ

220:デフォルトの名無しさん
11/04/04 09:54:07.28
>>219
統計もあながちスレチではないと思ったんですが関係ないんでしょうか?

221:デフォルトの名無しさん
11/04/04 16:30:37.69
統計は帰納学習だから機械学習といえなくもない
ベイズ統計までくると完全に機械学習と区別できなくなってくる

222:デフォルトの名無しさん
11/04/04 18:24:54.79
つうか線形回帰の時代から機械学習は統計無しに語れんだろ。

223:デフォルトの名無しさん
11/04/04 22:49:09.47
ベイズって今でもAIとかに使われてるの?
エキスパートシステムよりニューラルネットワークスの方が優れている事がわかった時点で
終わってると思ってた

224:デフォルトの名無しさん
11/04/05 00:58:38.84
ネットワークスw

別に優れているわけじゃないでしょ。
得意分野が違うだけで。

225:デフォルトの名無しさん
11/04/05 11:19:38.43
わかりやすいパターン認識って今でも良書

226:デフォルトの名無しさん
11/04/05 18:36:38.21
です

227:デフォルトの名無しさん
11/04/05 20:01:59.13
西日本も福島原発の放射能に曝される。

4/7 予測 URLリンク(up3.viploader.net)
発表はドイツ気象庁 URLリンク(www.dwd.de)

228:デフォルトの名無しさん
11/04/05 22:56:27.28
ベイズネットは今も最前線で活躍してる
スパム分類はほとんどベイズネットが入ってる

229:デフォルトの名無しさん
11/04/05 23:34:03.69
ベイズネットは、計算が高尚な割りに、
大した性能がでてないけどね。。
因果関係に自分で縛られて過学習を起こしやすいような希ガス

230:デフォルトの名無しさん
11/04/05 23:41:09.44
このスレ的にラフ集合ってどうなん?

231:デフォルトの名無しさん
11/04/06 04:37:59.39
ベイジアンネットワークとナイーブベイズぐらい区別つけようぜw

232:デフォルトの名無しさん
11/04/08 11:43:56.09
フリーソフトでつくる音声認識システムすら難しいんだがフーリエ級数展開とか出来て当然なの?

233:デフォルトの名無しさん
11/04/08 19:39:22.78
フーリエ級数程度でどうにかなるチョロい時代はとっくに終わった

234:デフォルトの名無しさん
11/04/08 20:27:15.77
最低限大学数学ぐらい出来てもらわないと

235:デフォルトの名無しさん
11/04/08 20:31:04.04
>>232
音声認識であればフーリエ級数は必要だと思うけど。
分野によって必要になる数学は違ってくるよ。

236:デフォルトの名無しさん
11/04/08 22:37:48.90
フーリエ級数というより、周期を拡大したフーリエ変換ね

237:デフォルトの名無しさん
11/04/09 01:59:14.96
フーリエ急須自体は高校数学レベルでも理解可能

238:デフォルトの名無しさん
11/04/09 11:07:22.43
質問者ですがどうもありがとう。
わかりやすいパターン認識も立ち読みしてみたんですがとりあえず数学の勉強が必須みたいなので最低限どんな分野を勉強したら良いでしょうか?
微積と線形あたりは勉強し直そうかと思ってるんですが

239:デフォルトの名無しさん
11/04/09 12:31:32.85
統計学は必須

240:デフォルトの名無しさん
11/04/09 20:33:34.16
AIなら統計学じゃなくて確率論の方だと思う

241:デフォルトの名無しさん
11/04/09 20:39:11.13
三次の非線形モデルだろう

242:デフォルトの名無しさん
11/04/10 01:37:58.06
>>239-241
とりあえずフリーソフトでつくる音声認識システムの分からない所は読み飛ばしながら最後まで読んでみようと思います。
アドバイスありがとうございました。

243:デフォルトの名無しさん
11/04/13 02:12:55.66
数式理解できないんじゃ仕方がない気もするが・・・まぁいいか

244:デフォルトの名無しさん
11/04/13 02:19:50.00
数式だけじゃなくて「ε」などに配慮したアルゴリズムも知る必要があるぞ
だが、そうしたライブラリーも出回っているので、
それなりに勉強すれば、細かいところまで押さえなくても、なんとかなるかも?

245:デフォルトの名無しさん
11/04/13 23:31:51.13
組み合わせ論
ベイズ理論(事前確率と事後確率の式の理解)
行列・ベクトル演算
指数関数・対数関数
英語

この辺が得意な人なら大抵の本は読めると思う


246:デフォルトの名無しさん
11/04/14 05:38:16.49
あとは、
偏微分
テイラー展開
ぐらいなもんだね、楽チンだw

247:デフォルトの名無しさん
11/04/15 12:24:12.12
ずいぶん敷居が高いのな

248:デフォルトの名無しさん
11/04/15 12:53:55.30
集合知プログラミング買ったぜ~
これから始めてみよう

249:デフォルトの名無しさん
11/04/15 21:00:35.17
高3+程度と言うと、英検で言えば2級か

250:デフォルトの名無しさん
11/04/16 11:11:05.84
ラグランジュ法ぐらいはあらかじめ理解してないとしんどいだろ

251:デフォルトの名無しさん
11/04/16 18:38:58.94
確率統計のいい本ない?
東大出版の統計学入門読み終わったくらいのレベルなんだけど

252:デフォルトの名無しさん
11/04/16 22:45:52.32
>>251
「図解でわかる」レベルの本を読み終えたら、そのまま機械学習の本に入ればいいよ

253:デフォルトの名無しさん
11/04/16 22:59:52.49
「マンガでわかる」じゃダメですか?

254:デフォルトの名無しさん
11/04/17 23:34:57.42
標本となるデータってどっから調達してるの?

255:デフォルトの名無しさん
11/04/17 23:52:10.55
要するに機械学習で用いられるアルゴリズムの数式を理解出来るようになれば良いんだなお前ら。


256:デフォルトの名無しさん
11/04/18 21:07:31.51
>>254
国際大会とか学会が金融や交通の架空のコンテスト用のデータを公開してる

あとはWEBサーバのログとか

257:デフォルトの名無しさん
11/04/18 22:35:53.61
なるほど
いわゆる「お客様の声」とか、評判分析に使えるようなテキスト・データ無いかな?
自動車だと国交省のクレームシステムがあるけど、基本的にネガティブ系に偏ってるし。
件数として100万件オーダーであるとうれしい。2ちゃんのログは勘弁。

258:デフォルトの名無しさん
11/04/18 22:51:02.80
>>257
架空のヤツしかない
実在のヤツが欲しければ、企業に就職するか、企業と共同研究してる大学の研究室に入るしかない


259:デフォルトの名無しさん
11/04/19 19:20:45.54
企業の中の人ですが、
近頃はプライバシー保護がどうので、
なかなか思うように使わせてもらえません。

情報収集時にエンドユーザに見せる文言も
法務がやたらと保守的な文章にするし、
現場がよほど協力的じゃないと難しいっす。

260:デフォルトの名無しさん
11/04/19 23:22:31.83
>>258-259
サンクス。やっぱ難しいみたいだね。自分も口コミ系サイト (kakaku.com等)、オンラインショップの
リコメンド (amazon等)、blog、facebook、twitter、2ch など探してみたけど、ゴミが多くて所望の情報を
選り分けるのが大変という印象。数100件程度ならともかく、それ以上は現実的じゃないと分かりました。

おっしゃるとおり企業に入るか、データを買ってくるしか、大量データをそろえるのは難しい感じですね。

261:デフォルトの名無しさん
11/04/20 09:50:37.18
こんなのあるね
URLリンク(xtori.blogspot.com)
お客様の声じゃないけど、データマイニングや機械学習はめっちゃ適用できそう


262:デフォルトの名無しさん
11/04/20 23:02:53.27
論文書くときは、実在のデータを探すのが一番難しい

263:デフォルトの名無しさん
11/04/20 23:23:46.00
WebAPIとかないの?

264:デフォルトの名無しさん
11/04/21 19:20:29.88
>>262
そうか?
どうせ比較評価するために学術系公開データを使わざるを得ないから、
特に論文書くためのデータで困ったことはない。

265:デフォルトの名無しさん
11/04/21 22:05:34.20
>>264
企業の中の人だが、実際のデータだと迫力が違ってくると思うよ。もっとも、扱いが制限されるので
結果が外に出ることはないのだけど、どうしても見たいとかならインターンシップとかで中に入ればOK。

266:デフォルトの名無しさん
11/04/21 23:43:52.33
査読や追試されない論文もあるんだよ

267:デフォルトの名無しさん
11/04/21 23:45:42.93
Googleとかインフラとかの社内統計データでの論文発表多いよね。

268:デフォルトの名無しさん
11/04/21 23:47:09.78
データマイニングの基礎ってアルゴリズムの手法を詳しく解説してる見たいだけど
入門向けとしてはどう?

269:デフォルトの名無しさん
11/04/22 04:26:07.85
>>267
まあ、それはググルだから聞いてもらえるわけだがなw

270:デフォルトの名無しさん
11/04/24 21:21:50.60
ベキ分布でリスク管理のすすめ
URLリンク(f.blogos.livedoor.com)

271:デフォルトの名無しさん
11/04/25 02:27:15.48
重み空間だとか重みベクトルは特徴ベクトル+1次元だとかマジ難しい

272:デフォルトの名無しさん
11/04/26 13:27:29.85
データマイニングで効果や利益でるの?

273:デフォルトの名無しさん
11/04/26 17:52:28.64
>>272
マイニング対象、入手可能データ、マイナーの技量、顧客の能力とやる気、そして運による。

274:デフォルトの名無しさん
11/04/26 21:29:12.32
デジコンより在庫の回転率が上がる物販のが効いてくるのか?

275:デフォルトの名無しさん
11/04/30 17:01:08.53
「はじめての機械学習」って本が出たね。
プログラム例がC言語で書かれてるらしいからちょっと興味ある。

276:デフォルトの名無しさん
11/04/30 19:51:37.78
CかよせめてPythonにしてくれ・・・

277:デフォルトの名無しさん
11/04/30 23:22:36.99
アラヤダ、ゴミ本でおなじみの小高知宏じゃない
こんなのポイよポイ


278:デフォルトの名無しさん
11/05/02 11:22:22.60
>>276
実務家用向けの本というより手法指向の本で
書いてる人もこの分野に長けた人じゃないんで
アルゴリズムの勉強書籍として使ったらいいね。
だったら、確かにCの必要性はないんだけど、
Pythonを知っている人が多いかと言うと、
むずかしいね~

279:デフォルトの名無しさん
11/05/04 02:28:37.07
この分野の数学的知見を得ようと思うんだけどこれなら分かる最適化数学って本って
どうでしょう?
結構ビンゴな内容だと思うんだけど

280:デフォルトの名無しさん
11/05/04 06:29:55.07
古典的な内容だと思う。
一通り知っていた方が良いけど、機械学習とは直接関係ない。
どうしてビンゴな内容だと思ったのか、わけがわからないよ。

281:デフォルトの名無しさん
11/05/04 06:43:26.38
ラグランジュ法ぐらい、初学者になるための前提知識だろ…

282:デフォルトの名無しさん
11/05/04 12:35:22.61
>>279
機械学習から得られた複数の結果から
(その中で)何かを最適化するという時には考えられるけど。
280が行っているように直接関係はない。
もともと最適化できるんなら、機械学習いらないし。

283:デフォルトの名無しさん
11/05/04 14:56:02.13
ん?
MLなアルゴリズムには凸最適化を始めとする最適化問題に帰着できるものが多いのは事実だぞ。


284:デフォルトの名無しさん
11/05/04 15:50:43.08
どっちにしろ局小値問題が出てくる

285:デフォルトの名無しさん
11/05/04 16:00:35.03
カーネル関数なりラグランジュなり主成分分析なりはアルゴリズムを理解する上で必要だろ

286:デフォルトの名無しさん
11/05/04 16:05:10.41
FOILでも局小問題が出てくる

287:デフォルトの名無しさん
11/05/04 21:35:25.93
直接は関係なかったようで・・・
とりあえず一度立ち読みしてから判断しようと思います。

288:デフォルトの名無しさん
11/05/04 22:10:12.63
ラグランジュ法すら知らないレベルなら買っても良いかもね

289:デフォルトの名無しさん
11/05/04 22:45:12.40
>>287
そだね
応用で考えると、なんでも絡んでくるから。
本質を見失っちゃ意味ないし。

290:「コンピューター監視法案」が閣議決定
11/05/06 02:55:07.75
『iPhoneが密かに蓄積する位置情報履歴の目的は? F-Secureが推測 』(下記URL)を参照してください。
URLリンク(internet.watch.impress.co.jp) この内容に関連してです。
『データマイニング、マインドコントロールと電波首輪理論の関連性』(下記URL)
URLリンク(infowave.at.webry.info)
(以下引用)
『通例の携帯電話でも電源を入れている状態では定時的に基地局と通信を続けていることは明らかです。
この定時通信によって携帯電話所持者や基地局(携帯電話会社)は個人位置情報(非固定位置情報)を
把握する事になります。もちろん、データマイニングを使って個人位置情報のような非固定位置情報から
個人の住所などの固定位置情報を入手する事も可能です。さらに、データマイニングから得られた膨大な
データに基づくアルゴリズムがなかったとしても、非固定位置情報のうちの一つである「定期的に長時間
電波を発信している場所」がわかれば、調査員を使って個人の住所・勤め先などを特定する事は簡単なのです。』
(以上引用)
(ライフ)ログの60日保存によって個人の住所・勤め先等の固定位置情報を特定することは比較的容易です。
スマートフォン(PC)に地域情報などを入手するように設定している場合はなおさらのことです。「監視されるのは嫌
だが監視しないと気がすまない人」たちが個人情報保護に関するガイドライン26条を回避しながら入手しようとする魂胆
(こんたん)なのです。
参考: 『ユビキタス・クラウドコンピューティング時代の情報セキュリティと電波首輪理論』(下記URL)
URLリンク(infowave.at.webry.info)


291:デフォルトの名無しさん
11/05/06 04:30:43.44
>>290
RFタグが流行ってたときからある話題だから今さらって感じ


292:デフォルトの名無しさん
11/05/07 02:25:41.57
パーセプトロンの学習規則を用いた2クラス間での判別は分かったんだけど
3クラス以上になったらどうなるの?
g(x)=g1(x)-g2(x)=WX>0 || WX<0の判定が出来なくないですか?
多分とんちんかんなことを言ってると思いますが(^_^;)

293:デフォルトの名無しさん
11/05/07 09:41:32.12
>>292
出力のセルを3つ(log_2 3以上の整数)にすればいいだけじゃね?

294:デフォルトの名無しさん
11/05/07 18:13:30.94
>>293
まだ修行不足でした。
もうちょっと考えて見ます

295:デフォルトの名無しさん
11/05/07 20:30:14.99
2値分類器を3つ用意するべし。


296:デフォルトの名無しさん
11/05/10 02:00:19.96
フリーソフトでつくる音声認識システムとデータマイニングの基礎だとどっちが難しい?

297:デフォルトの名無しさん
11/05/10 14:48:28.40
おまえがどの程度の基礎知識を持っているかによるんじゃない?

298:デフォルトの名無しさん
11/05/10 19:32:43.28
どっちも対して変わらんけどどちらかといえば前者の方が平易に書かれている。

299:デフォルトの名無しさん
11/05/10 19:41:18.06
なんと、書籍のタイトルだったのか。

300:デフォルトの名無しさん
11/05/10 21:42:29.35
>>298
ありがとうございます。
データマイニングに興味があるのでデータマイニングの基礎買おうと思います

301:とうとうばれた「美しくない国」日本・・・安倍元首相の嘘
11/05/15 11:44:58.59
『量子暗号化技術の進展と電波首輪理論「共謀罪と傍聴法・個人情報保護法の無力化」』
下記URLを参照おねがいします。URLリンク(infowave.at.webry.info)
量子暗号化技術が実用化されることによって、通信回路に介在して行う技術的な盗聴行為
は理論上不可能であると想定できます。通信回路上の盗聴可能性が皆無であるということは
位置情報を含めた通信情報を盗聴できないということです。一般的に、通信者に探知されず
に盗聴をすることは10年(2006年段階)のうちに不可能になるということが予測されて
いました。今後は「人的漏洩」の危険性が注目されていきます。実際に、警視庁でもテロ情報が
「人的漏洩」されています。下記『テロ情報流出経緯に関する考察』の参照おねがいします。
URLリンク(infowave.at.webry.info) 漏洩されたと考えられる情報の現状と
調査経緯に関してはコメント欄に記載されています。



302:「コンピューター監視法案」内閣決議は菅内閣統合失調症の表れ
11/05/15 11:46:28.19
「人的情報漏洩」が問題なることは量子暗号化理論が今後実用化される
のがわかってきていたにもかかわらず、小泉元首相とともに「個人情報保護法案」
を可決し、小泉路線と言われた安倍元首相が日本を「美しい国」を主張しながら
「インテリジェンスという横文字を使った諜報能力の向上」を狙った時点で一般
庶民の私にもわかりました。つまり、安部元首相が「美しい国」発言をした時点で、
「人的漏洩」と「監視社会」がどんどん問題化する「美しくない国」になることを
証明することになっていたのです。今後も「人的情報漏洩」と「監視社会」、成文化
した情報保護を無視した「違法・越権調査」、「情報漏洩現象」の再現性がどんどん出
てきます。そのような「人的情報漏えい」を一種の『世間』と考えるならはじめから
「国民の情報を守ったふりの八百長」である個人情報保護法(場合によっては通信の秘密の法律も)
成文化しなければよかったののです。「成文化」するから調査がやりにくくなるのです。
いままで個人情報保護法違反で摘発された会社は「八百長法律」と自分の秘密情報も守らない、
冤罪も行いそうな「いかさま(警察??)調査隊の犠牲」になったといえます。 内閣府のHP
『個人情報保護法に関する疑問と回答』』(下記URL)
URLリンク(www.caa.go.jp)
などは完全に内閣府からの国民に対するガセ回答になってしまっていることになります。
また、国会で2回も否決された「コンピューター監視法案」の菅内閣における内閣決議は
内閣が過去の国会における重大事項との整合性を認めずに一方的に「監視法案」決めて
しまう「内閣統合失調症」の表れであると考えられます。



303:デフォルトの名無しさん
11/05/15 19:51:14.64
企業と一般人との情報格差は開く一方だな。

304:デフォルトの名無しさん
11/05/21 16:55:14.87
集合知プログラミングのナイーブベイズでフィルタリング作るやつ
特定の単語が含まれるドキュメント数/全ドキュメント数で確立求めるより
特定の単語数/全単語数のほうが感覚的にも正確にも出るんじゃなかろうか?

305:デフォルトの名無しさん
11/06/06 01:34:48.23
スタッキングって別々の学習アルゴリズムに同じ訓練データを用いて分類器作った後に、それぞれの分類器に訓練データと違うテストデータを与えてその出力結果を属性とするデータをもう一つの分類器で出力するであってますか?
多分日本語でおkって言われそうなんですがググッても出なかったのでお願いします。

306:デフォルトの名無しさん
11/06/06 09:56:14.94
機械学習の勉強のはじめ方
URLリンク(diary.overlasting.net)

機械学習 はじめよう
URLリンク(gihyo.jp)

機械学習の勉強を始めるには
URLリンク(blog.broomie.net)

307:デフォルトの名無しさん
11/06/06 11:17:30.72
>>306
URLリンク(diary.overlasting.net)
よりもechizen_tmさん本人の解説を直接読む方が良いと思います。

機械学習超入門 ~そろそろナイーブベイズについてひとこと言っておくか~
URLリンク(d.hatena.ne.jp)
これからはじめる人のための機械学習の教科書まとめ
URLリンク(d.hatena.ne.jp)

308:デフォルトの名無しさん
11/06/06 22:16:24.22
>>306-307
非常にありがたいです。願わくば、現場で行われているテキストマイニングによる
大量データの活用での場面のような、実践的な話題を紹介してくれるとうれしいです。

自分が読んだ範囲では那須川 哲哉 氏による「テキストマイニングを使う技術/作る技術」
が実践で培われたノウハウに富んでいて役立ちました。

309:デフォルトの名無しさん
11/06/10 21:46:39.09
出会い系サイトで相性の良い相手を推薦するのはクラスタリング?

310:デフォルトの名無しさん
11/06/11 23:39:07.95
回帰分析

311:デフォルトの名無しさん
11/06/12 08:56:19.86
協調フィルタリング

312:デフォルトの名無しさん
11/06/12 09:11:07.72
一様分布ベースの統計推論モデル

313:デフォルトの名無しさん
11/06/12 10:28:10.02
色んな方法があるんだね

314:デフォルトの名無しさん
11/06/12 10:39:19.69
みんな聞いたことある単語並べてるだけだぞ

315:デフォルトの名無しさん
11/06/13 11:33:59.34
!(◎_◎;)

316:312
11/06/13 18:17:39.50
誰もツッコんでくれない…

317:デフォルトの名無しさん
11/06/14 04:40:20.97
この分野で読んでためになるOSSのコードありません?

318:デフォルトの名無しさん
11/06/14 17:00:03.38
協調フィルタリングって最近傍法?

319:デフォルトの名無しさん
11/06/14 17:24:27.96
kkベースのアルゴリズムもあれば、そうでないものもある。

320:デフォルトの名無しさん
11/06/16 18:17:14.47
スタッキングとかカスケードとか解説してるサイトないかな

321:デフォルトの名無しさん
11/06/20 00:03:44.47
サポートベクトルマシンとニューラルネットワークまじ難しい

322:デフォルトの名無しさん
11/06/22 17:22:24.47
その数学が戦略を決めるって本面白いね

323:デフォルトの名無しさん
11/06/22 17:22:57.88
教師は馬鹿って内容の本だったっけ?

324:デフォルトの名無しさん
11/06/22 18:27:29.25
何かの専門家よりも絶対計算が常に勝るって本。
人間の予想は最低の回帰分析にすら劣る、みたいな感じ

325:デフォルトの名無しさん
11/06/22 18:52:27.46
翻訳が山形浩生なので買うの躊躇してる。

326:デフォルトの名無しさん
11/06/22 23:04:19.09
おまえら、どの言語でプログラム書くの?
状態遷移もつし、この分野はhaskellやocamlで書けんよね?

327:デフォルトの名無しさん
11/06/22 23:14:39.23
行列がプリミティブな言語ならなんでもいいよ

328:デフォルトの名無しさん
11/06/22 23:55:27.68
R,matlab,python,c++,java,ocamlあたりで
意見が分かれてくれたら面白そうなんだがなー

329:デフォルトの名無しさん
11/06/23 00:25:53.87
もっと新しい選択肢もあります。

Incanter: Statistical Computing and Graphics Environment for Clojure
URLリンク(incanter.org)
ScalaLab: Matlab-like scientific computing in Scala
URLリンク(code.google.com)

330:デフォルトの名無しさん
11/06/23 00:49:40.00
>>329
速度は出るのかな?
この分野、cpuやメモリがまだまだ非力だと実感する場面が多いし。

331:デフォルトの名無しさん
11/06/23 00:54:47.73
F#もなんかあったっけ?

332:デフォルトの名無しさん
11/06/23 01:01:44.29
>>330
URLリンク(swik.net)
>The scripting code is extremely fast, close to Java,
>and about 20-40 times faster from equivalent Matlab .m scripts!

ScalaLab(ScalaSci) は、Javaと同等でMatlab mスクリプトより 20~40倍速いそうです。
これはScalaがJavaと同等の速さだから当たり前ですね。

Incanterは動的型付言語のClojureで書かれているので
Rには勝てても静的型付言語には太刀打ちできないでしょう。

333:デフォルトの名無しさん
11/06/23 01:58:33.82
この分野はPythonでしょ。
数理計算得意だし分かりやすい

334:デフォルトの名無しさん
11/06/23 02:28:49.47
浮動小数点演算のバグやSTLとテンプレートのエラー、
ポインタ周りのバグ取りに疲れたので、
型推論してくれるocamlを試してみたいといった銀の弾丸を探しをしたい気分
pythonなんて、統計処理専門のRともoctaveともつかない
半端モノのグルー言語で、しかも遅いだろうから使ってみようという意欲がわかない

335:デフォルトの名無しさん
11/06/23 12:29:46.78
「python 使ったことがない」まで読んだ

336:デフォルトの名無しさん
11/06/23 12:37:55.97
銀の弾丸を探してるのもむべなるかな

337:デフォルトの名無しさん
11/06/23 21:38:51.28
>>335
matplotlibやnumpyだったり、あれこれライブラリ入れないとダメで面倒だし
特別に速いわけでもなく行列演算に特化したリテラルがあるわけでもないし、
この領域がpythonの得意な分野だなんて、釣りにしか聞こえない

338:デフォルトの名無しさん
11/06/23 21:42:03.61
おれはc#使うけどね。

339:デフォルトの名無しさん
11/06/23 21:45:28.60
c#に統計処理とか機械学習周りのライブラリなんてあったっけ?
javaなら、まだwekaだとかcoltだとか、
数値計算周りのライブラリが充実してた気がするけど

340:デフォルトの名無しさん
11/06/23 22:28:07.54
糞遅いJavaは論外です。

341:デフォルトの名無しさん
11/06/23 22:29:23.34
R使ってる奴はいないのか~

342:デフォルトの名無しさん
11/06/23 23:33:20.80
URLリンク(en.wikipedia.org)
.Netに、機械学習もあるよ

343:デフォルトの名無しさん
11/06/24 01:51:27.78
話が発散してきたぞ

344:デフォルトの名無しさん
11/06/24 03:33:28.60
>>337
外国人研究者のPython好きは異常(俺の周りだけか?)

345:デフォルトの名無しさん
11/06/24 09:20:25.85
ライブラリ入れないと云々なんてこまけーことを言っているようではな

windows なら pythonxyとかあるのにね

346:デフォルトの名無しさん
11/06/24 09:28:05.64
c# + SQLServerが最強だろ。

347:デフォルトの名無しさん
11/06/24 21:22:58.54
SQL Server 2008 - Analysis Services データ マイニング
URLリンク(msdn.microsoft.com)

348:デフォルトの名無しさん
11/06/24 22:12:43.15
戦略的データマイニング

349:デフォルトの名無しさん
11/06/24 22:19:46.93
Micro$oft製のツールはこの種の用途に向かないと思う。
理由はドキュメントが貧弱だし、技術サポート情報も手に入れづらく障害切り分けに難儀する。
基幹系に乗せるのにも苦労する。実験室ならいいかもしれんが。

350:デフォルトの名無しさん
11/06/24 22:31:35.21
困ったらふつうにサポートに丸投げするだろ。
昔、PM8:00にメール投げても、AM2:00に回答メールが返ってきたぞ。

351:デフォルトの名無しさん
11/06/24 22:39:32.32
MSのドキュメントが貧弱ってw
MS以上に技術ドキュメント公開してるところなんてないだろ。

352:デフォルトの名無しさん
11/06/24 23:05:37.61
ソース以上のものはないので、
F#流の文化が浸透するのを待っている。

353:デフォルトの名無しさん
11/06/24 23:24:17.06
MSがソース公開したらMSの製品を使うのは辞めるね。
質問したら犬板みたいにソース嫁って言われるのやだし。

354:デフォルトの名無しさん
11/06/24 23:38:07.19
実際MSDNに書いてあることを質問すりゃ同じように扱われるだろ

355:デフォルトの名無しさん
11/06/24 23:52:53.47
高い金払ってMSDNに書かれてる程度のことを質問する馬鹿はいないだろ。
MSDNに書かれてないことや、書かれてる仕様外の動きをしたときに質問するんだよ。

356:デフォルトの名無しさん
11/06/25 09:09:21.13
MSのソフトウェアで困るのは、たとえば機能仕様が見当たらないとか、文書では説明できない問題
に突き当たって後にも先にも進めなくなる。 MSDN を利用すれば解決するのかな?

自分の経験の範囲でいえば Oracle の技術情報が一番マシだったと思う。興味があれば読んで
見て欲しい。

たとえば、機能仕様はリファレンスマニュアルとして無償で参照できるし、
開発者向けのライセンス制度を使えば製品と同じソフトウェアやマニュアルをダウンロードして、
実機で評価したりアプリケーション開発することもできる。
無償でこれだけできるのは個人ととしては助かる。

有償のサポート契約を前提になるが、技術ノウハウ、未解決のバグ情報、修正ソフト、バージョン
アップ版が参照できる。 インシデントは何件でもサポート契約内に含まれるのは開発者は助かる。

しかしOracleは高いのが難点。保守料金はライセンス料の一定額 (たとえば22%) が毎年かかる。
全てのパッチもバージョンアップもサポート依頼も有償でないと入手できない。 研修もかなり高額。
それでも金さえ払っていればメインストリームから落ちても最低限のサポート (=回避策) が
得られるのは企業としては助かる。

余談だが、Oracle製品については日本語の対応にばらつきがあるので十分に検証した方がいい。
主力のデータベース製品や、買収した会社に由来する製品はいいが、Oracle由来のソフトは
日本語の下ではタコなものもあるし、突然ターミネートしたりとリスキ-。
ドキュメントを日本語訳してくれることは評価するが、翻訳の品質のばらつきは大きい。

357:デフォルトの名無しさん
11/06/25 09:34:45.17
oracleは対応が遅すぎ。バグや詳細書くと訴えられるし。話にならない。

358:デフォルトの名無しさん
11/06/26 11:14:20.91
卒論のための良いアイデア教えてくれ

359:デフォルトの名無しさん
11/06/26 11:27:46.40
>>358
2chのログでなんかやる

360:デフォルトの名無しさん
11/06/26 15:54:38.84
名門大学に入るための独立変数の相関関係を見つけるとかどうよ

361:デフォルトの名無しさん
11/06/26 15:56:50.73
親の収入だな

362:デフォルトの名無しさん
11/06/26 16:02:04.19
何番煎じって感じだな

363:デフォルトの名無しさん
11/06/26 23:03:03.89
>>362
機械学習は結論よりも方法論の方が重要だから、結論が分かってることから始めるべき

364:デフォルトの名無しさん
11/06/26 23:49:42.90
>>358
非線形SVMを10倍速くする

365:デフォルトの名無しさん
11/06/27 01:32:07.07
ロジスティック回帰で有名大学に入れる確率求めるとか楽しそうじゃん

366:デフォルトの名無しさん
11/06/27 02:20:52.38
新しくパターン認識のためのサポートベクトルマシンって本が出てるぞお前ら

367:デフォルトの名無しさん
11/06/27 23:35:43.41
質問です。
サポートベクターマシンは計算に時間がかかるとの話ですが、
確かに最初に訓練データを使って分類モデルを構築する際は、
計算時間がかかると思うのですが、
一度構築した分類モデルを使ってなにかを認識する際はそこまで
時間がかからない気がするのですが、、、
この認識って間違ってますか?

368:デフォルトの名無しさん
11/06/27 23:49:09.29
あってる

369:デフォルトの名無しさん
11/06/28 12:12:50.63
また、質問なのですが、
特徴量選択(SFS, SBS, SFFS)というのと主成分分析は、
どちらも特徴量を減らすことを目的にしているのですが、
2つの違い(メリット、デメリット)を
教えていただけないでしょうか?

370:デフォルトの名無しさん
11/06/29 16:30:13.17
線形前提かどうか

371:デフォルトの名無しさん
11/06/30 06:44:53.77
スレリンク(math板:235番)
>パターン認識の話になると思うのですが、
>特徴量選択でSFS、SBS、SFFSについてご存知の方いらっしゃらないでしょうか?
>これらのアルゴリズムについて簡単に説明してほしいのですが、、、

公知のアルゴリズムの説明は、検索した方が早いです。
「SFS、SBS、SFFS」でググるとこんなページが見つかりました。

『多クラスサポートベクターマシンにおける各SVMモジュールの独立特徴選択』
URLリンク(asnugroho.net)
「3.特徴選択」でSFSとSBSのアルゴリズムを簡単に説明、
SFFSとSFBSより計算量が少ないSBSを選択

『時間構造分割特徴量に基づく感情発声の自動分類』
URLリンク(www.slp.k.hosei.ac.jp)
「3 多クラスSVMによる分類器の構築」でSFFSのアルゴリズムを簡単に説明、
SFSとSBSより性能が優れているSFFSを選択

Feature Selection using Matlab
URLリンク(www.mathworks.de)
>Code covered by the BSD License
>The DEMO includes 5 feature selection algorithms:
>  Sequential Forward Selection (SFS)
>  Sequential Floating Forward Selection (SFFS)
>  Sequential Backward Selection (SBS)
>  Sequential Floating Backward Selection (SFBS)
>  ReliefF
ForwSel_main.mがSFSとSFFSのコード、
BackSel_main.mがSBSとSFBSのコードです。

372:デフォルトの名無しさん
11/06/30 22:49:58.74
下記の本が全部じゃないけどプレビューできる。7560円もする本だから事前に見られるのはいいね。

テキストマイニングハンドブック
著者: ローネンフェルドマン,ジェイムズサンガー
URLリンク(books.google.co.jp)

373:デフォルトの名無しさん
11/07/02 01:23:28.59
色々やってみてどうしても分からないので質問させてください。
Wekaのニューラルネットワークって、複数の入力に対して複数のアウトプットを
設定することってできないんですか。

374:天使 ◆uL5esZLBSE
11/07/02 11:48:30.59
>>368
気持ち悪い

375:デフォルトの名無しさん
11/07/02 13:40:50.30
ニューラルネットワークの良書教えてください

376:デフォルトの名無しさん
11/07/02 13:43:43.70
やだ

377:大天使 ◆uL5esZLBSE
11/07/05 12:57:25.29
ゴミなんかに話しかけないほうがいいいよ

どうせ>>376 こういうゴミしかいないんだからさ

378:デフォルトの名無しさん
11/07/11 12:42:13.24
実際のデータ集めるときにhtmlをパースしてデータセット作ってる人っている?
データセットいちいち手入力じゃ死んじゃうしかといって仮想データで予測しても仕方なくて困ってるんだよね、、

379:デフォルトの名無しさん
11/07/12 10:42:05.14
ここム板なんだけど?

380:デフォルトの名無しさん
11/07/12 12:11:45.20
コーヒーを?

381:デフォルトの名無しさん
11/07/12 12:52:23.65
>>379
午後ティー買ってこい

382:デフォルトの名無しさん
11/07/12 12:57:27.00
>>378
Webからデータを集める方法を知りたいのなら、
「スクレイピング」でググってください。


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch