【統計分析】機械学習・データマイニング30

【統計分析】機械学習・データマイニング30at TECH

【統計分析】機械学習・データマイニング30 - 暇つぶし2ch949:デフォルトの名無しさん
21/08/14 10:10:41.67 7G/MQzi80.net
pytorch使ってるけど
fcに繋げるときに次元計算するの大変

950:デフォルトの名無しさん
21/08/14 10:15:40.32 owqwTzAL0.net
LazyLinearがある�

951:ﾅしょ

952:デフォルトの名無しさん
21/08/14 10:58:01.55 .net
テンソルといえば、Python (つーかNumpy) の多次元配列が使いやすい上に速過ぎる
まあNumpyの線形代数ライブラリがC++とかでビルドされてるってだけだが、それにしても速い
問題が全部線形代数の言葉で記述される限りは、並のプログラマC++とかFortranでコード書くメリットほぼないね

953:デフォルトの名無しさん
21/08/14 22:58:37.25 gYaerU7s0.net
NumPyは生のCPythonでの演算に比べて高速だけど、それでもボトルネックになり得るから、精度は落ちるがPyTorchのテンソルでGPUに計算させるね
CuPyというものも一応あるが

954:デフォルトの名無しさん
21/08/15 14:28:35.97 Qb5ISoeor.net
CPUよりGPUの方が速いっていうのはそりゃそうだろとしか
 >>925とはレイヤの違う話

955:デフォルトの名無しさん
21/08/15 15:47:17.10 si7Mpb2N0.net
＞　お前は毎朝起きるたびに俺に負けたことを思い出すよ＾＾
あー、ホンッとに思い出すなあ（笑）
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い！」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君！
クソチョンw

956:デフォルトの名無しさん
21/08/15 20:53:39.40 HtCgJxPe0.net
cupyはサイズが小さいテンソルだとcpuより遅いみたいだけど

957:デフォルトの名無しさん
21/08/20 12:10:40.90 MQrCwhW/a.net
方策勾配法で学習させたら累積報酬が伸びなくなったんだけどどうしたらいい？
URLﾘﾝｸ(i.imgur.com)

958:デフォルトの名無しさん
21/08/20 12:49:52.15 FbVOze5U0.net
>>930
状態の保持が間違っていたりする？
変な曲線になるんだよね。

959:デフォルトの名無しさん
21/08/20 20:03:47.74 /LFG2LNja.net
>>931
ありがとう角度を三角関数で分解したり無理矢理スケーリングしたらなんとか学習進んでそうな感じする

960:デフォルトの名無しさん
21/08/22 04:03:30.28 0Cz6ueFz0.net
Rustのメモリ安全性はボローチェッカーによって担保されているが、
Nimと比較してRustはタイプ量が多い事により限りなく低い生産性と
C++のような高い難読性、超巨大なバイナリ生成性能を兼ね備えています
Nimはバージョン1.5.1でRustのボローチェッカーに似た「View types」が実装されれば、
GC無しのView typesで参照の有効性を検証することによってメモリ安全性を保証しつつ
限りなく抑え込まれたタイプ量で高速化したCのソースコードを吐き出せます
Nimソースコード ==nimコンパイラ==> Cソースコード ==Cコンパイラ==> バイナリ
なので、nimコンパイラが通った時点でメモリ安全性が担保されませんか？
Nimの実験的特徴
著者：アンドレアス・ルンプ
バージョン： 1.5.1
URLﾘﾝｸ(nim-lang.github.io)

Nimは限りなく抑え込まれたタイプ量で高い生産性とPythonのような高い可読性を実現し
ているにもかかわらず、高速なCのソースコードを吐き出せるのでC言語でリモートワーク
されている方は割り振られた仕事が早く終わっても終わってないふりをして怠けることができる
「怠け者とはこうあるべきだ！」と言うとても大事な事を Nim は我々に教えてくれます

961:デフォルトの名無しさん
21/08/22 09:13:36.46 ofqTG56L0.net
>>1
kaggleやり始めた
全然順位上がらない😭

962:デフォルトの名無しさん
21/08/22 18:24:57.02 GHDNHuGz0.net
東京都のコロナ感染者数の予測をやっている人いませんか？
もしいるとして、どれくらいの精度ですか？

963:デフォルトの名無しさん
21/08/22 18:56:17.98 zdGxm9qc0.net
測定データに大きな偏りがあるため予測�

964:s能なんか数字が出たとしても、誤差さえも見積もり不能

965:デフォルトの名無しさん
21/08/22 19:08:22.91 J4tnnXpD0.net
カコ習慣の平均とを使用するとか工夫すればある程度できるんでね？
でも予測ってどんなん？
出せても感染者の予想分布かな

966:デフォルトの名無しさん
21/08/22 19:09:10.38 J4tnnXpD0.net
過去1週間の平均等

967:デフォルトの名無しさん
21/08/22 19:12:35.97 zdGxm9qc0.net
統計の基本中の基本だけど
偏ったサンプルデータを分析に使うと
まともな結果は導けない

968:デフォルトの名無しさん
21/08/22 19:19:46.61 J4tnnXpD0.net
実務でまともなデータなんてあまり無いよ
そんなデータからなんらかの成果を出すのが腕の見せ所なんだけどね

969:デフォルトの名無しさん
21/08/22 21:24:36.63 zwA+sbGKd.net
そうだけど糞データではどうしようもない
後々面倒なことになる

970:デフォルトの名無しさん
21/08/22 21:47:00.98 0Cz6ueFz0.net
Rustのメモリ安全性はボローチェッカーによって担保されているが、
Nimと比較してRustはタイプ量が多い事により限りなく低い生産性と
C++のような高い難読性、超巨大なバイナリ生成性能を兼ね備えています
Nimはバージョン1.5.1でRustのボローチェッカーに似た「View types」が実装されれば、
GC無しのView typesで参照の有効性を検証することによってメモリ安全性を保証しつつ
限りなく抑え込まれたタイプ量で高速化したCのソースコードを吐き出せます
Nimソースコード ==nimコンパイラ==> Cソースコード ==Cコンパイラ==> バイナリ
なので、nimコンパイラが通った時点でメモリ安全性が担保されませんか？
Nimの実験的特徴バージョン1.5.1
URLﾘﾝｸ(nim-lang.github.io)
第二プログラミング言語として Rust はオススメしません Nim をやるのです
URLﾘﾝｸ(wolfbash.hateblo.jp)

Nimは限りなく抑え込まれたタイプ量で高い生産性とPythonのような高い可読性を実現し
ているにもかかわらず、高速なCのソースコードを吐き出せるのでC言語でリモートワーク
されている方は割り振られた仕事が早く終わっても終わってないふりをして怠けることができる
「怠け者とはこうあるべきだ！」と言うとても大事な事を Nim は我々に教えてくれます

971:デフォルトの名無しさん
21/08/23 11:25:28.32 KpLgmN1yM.net
optunaユーザーいる？
いまいちじゃないコレ？

972:デフォルトの名無しさん
21/08/24 14:58:57.23 Hl9oAnl10.net
>>935
コロナ感染者の予測を出したいなら、用いられた検査方法と検査キットの情報は不可欠
測定誤差が大きすぎ

973:デフォルトの名無しさん
21/08/24 16:23:56.10 IgUjDL9R0.net
回しかた足りないのかな？
3000じゃ足りない？

974:デフォルトの名無しさん
21/08/24 21:05:22.63 WPVjFHuu0.net
URLﾘﾝｸ(news.mynavi.jp)
東芝など、学習済みAIを用途やハードの仕様に合わせて展開できる技術を開発
2021/08/23 20:28
DNNのサイズをその重要度を見分けて削る事で
小さなエッジデバイス上でも性能を落とさずに
AIモジュールを動かすことができる、と

975:デフォルトの名無しさん
21/08/25 22:42:46.04 PyfYFB5Y0.net
塩野義製薬　AI創薬技術によるマルチターゲットに対する創薬を目指した米InveniAI社との業務提携について
URLﾘﾝｸ(www.shionogi.com)
塩野義、創薬研究における開発候補化合物の探索にAWSクラウドの利用を開始
URLﾘﾝｸ(classmethod.jp)
塩野義製薬、新型コロナ重症化抑制の候補薬で米バイオエイジ社と契約
URLﾘﾝｸ(www.nikkei.com)
製薬業界の丸ごとAI化を目指す取り組み(LINC)が日本でスタート　塩野義、理研、京都大学、NEC等
URLﾘﾝｸ(news.mynavi.jp)
＞富岳スパコンを使った分子化合物シミュレーション
＞AI(機械学習)を使った、分子動力学計算の最適化　AIを使った分子自動設計　タンパク質立体構造の予測
＞知識ベース、過去の分子ビッグデータを整理し、解析、探索するデータサイエンス技術

976:デフォルトの名無しさん
21/08/26 08:54:20.20 E8v09I6UH.net
ごめん、optunaちゃんとしてた

977:デフォルトの名無しさん
21/08/27 08:05:38.52 ebhntqkF0.net
検定の考え方と機械学習(特にdeep learning)ではかなり考え方に差がある。

978:デフォルトの名無しさん
21/08/30 02:57:16.24 t9q3RQuP0.net
mecabより良い解析器って出てこないのかしらん？

979:デフォルトの名無しさん
21/08/30 09:31:33.03 3DuZZh5/a.net
mecabの何が不満?

980:デフォルトの名無しさん
21/08/30 11:41:39.31 D5v3tNv00.net
sudachi

981:デフォルトの名無しさん
21/08/30 13:28:14.44 HWYFF8sx0.net
メカブは体にいい

982:デフォルトの名無しさん
21/08/30 19:26:51.33 t9q3RQuP0.net
>>951
使っている手法がcrfベースと古いから

983:デフォルトの名無しさん
21/08/30 20:53:05.50 DbDPNUf30.net
>>954
手法が古くても必要な結果を得られたら問題無いんじゃね？

984:デフォルトの名無しさん
21/08/30 20:58:58.02 D5v3tNv00.net
バイトペアエンコーディング全盛の今、形態素解析なんて時代遅れだよねと思いきや、Whole Wordなんて手法も出てきてやっぱり重要だっていうね

985:デフォルトの名無しさん
21/08/30 21:56:49.19 t9q3RQuP0.net
>>955
ビッグデータ処理してると数パーセントの精度の違いが大きく出てくるから
なるべく高精度のが欲しい

986:デフォルトの名無しさん
21/08/30 21:59:20.42 t9q3RQuP0.net
松尾研の要約システム、ひどいな

987:デフォルトの名無しさん
21/08/30 22:00:46.32 FcBMjYja0.net
精度が売上に直結するならいいけど
弱い相関ならシンプルなロジック選んでしまうな

988:デフォルトの名無しさん
21/08/30 22:13:34.30 IfLgW1Xz0.net
40年以上前から言われているけど
何文字以内、何行以下の要約というのは
あまり意味がない。必須な部分がかけてしまうかもしれないし
余分な部分が残ってしまうことがある

989:デフォルトの名無しさん
21/08/30 22:23:27.16 6Ldth3Lh0.net
愚痴みたいになるけど形態素解析とかIMEみたいな古典的な分野ばっかやりすぎて
統計的機械学習やディープラーニングへの対応が遅れて
世界に取り残されたのが日本の自然言語処理のアカデミアってイメージ
アテンションやトランスフォーマーみたいな仕組みが
日本から出てこなかったのは悲しい

990:デフォルトの名無しさん
21/08/30 23:06:53.06 DbDPNUf30.net
>>957
それなら古いからじゃなくて必要な精度を得られないからってことで
精度に関わる他の部分を変えることで目的を達成できるかも
何がその目的達成に影響するのかは判らない

991:デフォルトの名無しさん
21/08/31 04:15:10.73 D+Jl3XmV0.net
>>950
spaCyかな。利点はGPUを使えるので圧倒的に早いこと。欠点はPython依存。

992:デフォルトの名無しさん
21/08/31 04:39:38.87 D+Jl3XmV0.net
>>958
個人的にはあれはよくできてると思う。
まず、要約はextraction法とabstraction法の2種類がある。
extractionはbowを作って単語の頻出度で統計処理することでウェイトの高いセンテンスを抽出する。
一方、abstractionは要約済みの学習データをseq2seqで機械学習させることで、要約エンジンを作る。
松尾研のベンチャーが作ったのは、後者のabstractionの方で、日本語でabstractiono方式の要約エンジン
というのはほとんど見たことがない。
ただ、実際に売れるかどうかは別。
この種のシステムは、を企業向けに販売しようと思ってもクラウドでAPIで提供する方式の場合だと
企業は内部情報が外部に流出することになるのでまず100％導入はしない。
一般的なのは、企業が利用してるクラウドの中にシステム用のサーバーを立ち上げるか、
企業のイントラネットの中に専用サーバーを立ち上げることなんだが、
これをやるとSI業者には勝てない。
また、下手にこの領域に踏み込むとSI 業者が海外製の要約エンジンを日本語化して販売
を始めたりするので、敵を誘い込むことになる。

993:デフォルトの名無しさん
21/08/31 07:41:34.77 vHl4DeHq0.net
>この種のシステムは、を企業向けに販売しようと思ってもクラウドでAPIで提供する方式の場合だと
>企業は内部情報が外部に流出することになるのでまず100％導入はしない。
用途で言えば内部情報より外部の公開情報を要約してリサーチ等に使う方が多そうな気がするが。
そうでなくても、契約文書をチェックするサービスなんてのも商売になっているくらいだし。

994:デフォルトの名無しさん
21/08/31 14:21:53.09 Sht6cbMy0.net
optunaで指定するパラメータの範囲はどう決めれば良いの？
apiにパラメータの取りうる範囲が1 <= p < ∞とあるとき

995:デフォルトの名無しさん
21/08/31 15:50:48.02 j/ruVWceM.net
1と∞で二分探索

996:デフォルトの名無しさん
21/08/31 19:28:12.45 l6anRrPu0.net
無限の半分は・・・無限!!

997:デフォルトの名無しさん
21/08/31 19:30:49.23 IiAPjlBZ0.net
>>966
無限大に発散するような関数はまずないはずだけどどういう式？

998:id:ignore
21/08/31 20:06:05.81 Yj2FMtNrr.net
exp

999:デフォルトの名無しさん
21/08/31 20:07:05.73 TL2gsmuJ0.net
表からともったら裏、裏かとと思ったら表

1000:デフォルトの名無しさん
21/08/31 20:56:01.05 Sht6cbMy0.net
>>969
xgboostのパラメータ
reg_alphaとか

1001:デフォルトの名無しさん
21/09/04 02:49:35.61 9cArpdYt0.net
>>877
Rejected internal applicants twice as likely to quit
doi.org/10.5465/amj.2018.1015

1002:デフォルトの名無しさん
21/09/04 04:02:08.87 9cArpdYt0.net
>>965
いずれにしてもSeqモデルによる実装は簡単だから、要約済みの学習データさえ準備できれば
要約システムは簡単に構築可能。無料で出す分にはみんなは面白がって使うだろうけど、有料提供
となると、かなり困難に直面するんじゃないかと思っただけ。
Seqモデルは、かなり一般化してきてるので、NLP専攻の学卒者だったら、十分に構築は可能。
これが機械翻訳とかだと、かなり膨大な学習データが必要となるので、参入障壁になるが、
自動要約だと、元の学習量もしれてるので、NTTデータや富士通あたりだと多分、簡単に作れる。
また、要約の精度は学習データに依存するので、どこまで精度の高いデータを作れるかは、
最終的には開発元の資本力によって決まることになる。

1003:デフォルトの名無しさん
21/09/05 22:01:26.67 zykEaDwPr.net
松尾研で文章を3つの文にまとめるアプリができてましたが
これを任意の文の数にまとめられて更に
「動作を文章にするアプリ」と組み合わせることで作業手順書の自動作成ができて
ひいては行動計画に関する人工知能の開発が進むといいんですがねえ

1004:デフォルトの名無しさん
21/09/05 22:33:17.49 vgQPhGSA0.net
どうして文の「数」にこだわるの?
重要なことがその「数」以上あったらどうするの?

1005:デフォルトの名無しさん
21/09/06 01:15:14.50 otQfwK4Sr.net
3つにする、5つにする、など試して最も妥当な説明書になっているものを最終出力出来たらいいんですがねえ

1006:デフォルトの名無しさん
21/09/06 01:21:37.13 owoO2Yj90.net
妥当な説明を定式化せよ

1007:デフォルトの名無しさん
21/09/06 08:50:13.28 0zGOZ0ajM.net
>>975
できるんじゃない？

1008:デフォルトの名無しさん
21/09/06 09:29:44.52 fsHJbGHja.net
重要な項目が5つあって、3つの文にせよ
という場合は、一つの文に2つ盛り込むとか?
なんだか本末転倒だなあ
重要な項目がいくつあるか分からなくなるじゃないの

1009:デフォルトの名無しさん
21/09/06 10:59:46.00 fK8LC2SFr.net
重要な項目の数に合わせて文の数も調整できたらなあ
更にはそれぞれの文の構造化まで自動化

1010:デフォルトの名無しさん
21/09/06 11:36:22.35

1011:fsHJbGHja.net

1012:デフォルトの名無しさん
21/09/06 16:50:04.99 XuYnRkl0M.net
ほう、そうかい

1013:デフォルトの名無しさん
21/09/06 21:34:45.15 3OGE1cne0.net
マニュアルを要約して
手順を飛ばされてもやだな

1014:デフォルトの名無しさん
21/09/07 08:21:33.30 QjyEMXOy0.net
だが待って欲しい
その手順は本当に必要だったのだろうか

1015:デフォルトの名無しさん
21/09/07 09:23:15.96 IHJavDsS0.net
いやちょっと待って欲しい
そもそも三つの文に…

1016:デフォルトの名無しさん
21/09/07 12:15:41.45 X6g3xS9u0.net
富士通あたりがやり出しそう(笑)

1017:デフォルトの名無しさん
21/09/07 13:03:13.11 oZHnA/lFa.net
試しにここのテキスト入れてみたら
めちゃくちゃ的外れな要約が出てきた
どうやら掲示板は向いてないらしい

1018:デフォルトの名無しさん
21/09/07 20:01:11.19 Cp1uuQsT0.net
新聞記事も読み終わって何がなんだかわからない
という記事が多いから、要約しても無駄だな

1019:デフォルトの名無しさん
21/09/12 11:08:30.42 PNU8wIel0.net
＞　お前は毎朝起きるたびに俺に負けたことを思い出すよ＾＾
あー、ホンッとに思い出すなあ（笑）
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い！」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君！
クソチョンｗ

1020:デフォルトの名無しさん
21/09/22 19:51:03.76 pNoEEii80.net
リッジとラッソ回帰をうまく説明するためのデータセットて何かある？
勉強会の資料で探すてる
ボストンの住宅価格でやると効果わかりにくいからその他でいいのおすえて

1021:デフォルトの名無しさん
21/09/23 12:44:23.64 7tGJmFKPF.net
次スレここの再利用？
ｽﾚﾘﾝｸ(tech板)

1022:デフォルトの名無しさん
21/09/26 01:33:41.18 fnXwjiVa0.net
次スレ
【統計分析】機械学習・データマイニング31
ｽﾚﾘﾝｸ(tech板)

1023:デフォルトの名無しさん
21/09/26 01:34:31.80 fnXwjiVa0.net
スカラー倍

1024:デフォルトの名無しさん
21/09/26 01:36:40.35 fnXwjiVa0.net
みっつの数に意味はない
ただの経験則

1025:デフォルトの名無しさん
21/09/26 01:41:50.83 fnXwjiVa0.net
アルタナティブ

1026:デフォルトの名無しさん
21/09/26 01:42:53.67 fnXwjiVa0.net
🉑

1027:デフォルトの名無しさん
21/09/26 01:44:07.46 fnXwjiVa0.net
(*´∀｀*)

1028:デフォルトの名無しさん
21/09/26 01:44:53.74 fnXwjiVa0.net
(*´∀｀*)

1029:デフォルトの名無しさん
21/09/26 01:45:22.39 fnXwjiVa0.net
(*´∀｀*)

1030:1001
Over 1000 Thread.net
このスレッドは１０００を超えました。
新しいスレッドを立ててください。
life time: 267日 16時間 34分 27秒

1031:過去ログ ★
[過去ログ]
■ このスレッドは過去ログ倉庫に格納されています