自然言語処理スレッド その3at TECH
自然言語処理スレッド その3 - 暇つぶし2ch446:デフォルトの名無しさん
12/02/18 14:51:51.64
>>444
「先生とケーキを食べた」は、
女教師をスイーツに誘った後でホテルにいったんだろ?

447:デフォルトの名無しさん
12/02/18 15:03:13.40
鴎の玉子を食べた
固有名詞と一般名詞でだいぶ事情が異なる

448:デフォルトの名無しさん
12/02/18 15:30:44.54
>>446
そりは「先生を食べちゃった」という解釈っすか?w

それなら>>445も「(病弱で色白な)恋人と(一緒に)ケーキを食べた」という解釈もできる

これ、単なるダジャレやらヘリクツという意味で終わらず、
「自然言語処理における暗喩(あんゆ)の解釈」という難しい問題を提起することになるね


449:デフォルトの名無しさん
12/02/18 18:25:21.80
>>448
そういうこと。
自由文には隠喩とか皮肉とか、単なる述語論理や係り受け構造では掬い取れない要素がいっぱいだよな。
それを分析できないというのは構わない。
しかし、ある手法を提案する時に隠喩や皮肉が無いことを前提にした手法というのは、
自然言語処理の技術としては、ちょっと不味い。

450:デフォルトの名無しさん
12/02/18 22:23:35.22
最近この手の話題が増えたよね。サービス品質、正誤は問われないのだろうか?

【話題/IT】ネットのつぶやきを解析、電車の遅れ速報--東芝が新サービス [02/18]
スレリンク(bizplus板)

運行情報サービスのイメージ。遅れや運休があると判断した路線名に
「!」が付き、「つぶやき」の内容も確認できる
URLリンク(www.asahi.com)
URLリンク(www.asahi.com)

451:デフォルトの名無しさん
12/02/19 01:34:10.52
人間が一番安価なセンサー
問題はノイズ除去

2ちゃんねるやツイッターからノイズが除去出来れば

452:デフォルトの名無しさん
12/02/19 03:28:38.20
>>451
なにも残らなかったり

453:デフォルトの名無しさん
12/02/19 09:18:51.64
ゴミ情報を紛れ込ませることに喜びを感じるバカが必ず出てくるから、それをどう排除するか、だね。

古くからある手法としては、そもそも参加者を限定する(サロン、アカデミア、ギルド等)とか、
出来ては消える新しいネット利用メディアのように、バカが集まるまでの時間を利用して、
焼畑農業的にやる、という方法(金と手間はかからないが、心が折れる人間が一定数出る、
という人材焼畑という側面がある)、
2ちゃんねるのようにある程度の規模にできれば、良情報の絶対数がそれなりに
あるんだからいいじゃん、と開き直る、etc

454:デフォルトの名無しさん
12/02/19 09:34:35.70
>>453
最近知ったんだけど、Amazon のレビューも、「Amazon Vine 先取りプログラム」 という招待制が導入された
みたいだ。詳細は次の解説のとおり。これも評判の質を向上させようという試みなのだろうね。

> URLリンク(www.amazon.co.jp)
> Amazon Vine 先取りプログラム?(以下、「本プログラム」)とは、お客様に予約商品や新商品のサンプルを
> ご利用いただき、ご意見やご感想をカスタマーレビューとして投稿いただく、招待制プログラムです。
> 本プログラムのメンバーとなるお客様は、他のお客様の役に立つ率直なカスタマーレビューを投稿している
> 実績があります。Amazon.co.jpでは、各仕入先から提供されたサンプルを、メンバーに無料でお送りします。
> 投稿されたレビューは、レビューガイドラインに違反している場合を除き、修正、編集されません。そのため、
> メンバーは商品に対する意見を自由に書くことができます。

455:デフォルトの名無しさん
12/02/20 09:58:41.32
とりあえず「子なし女性」についての、一般的な共起データベースを作っておきたい。

456:デフォルトの名無しさん
12/02/21 02:17:39.73
>>451
それ自体はもう既に2ちゃんネラーがノイズ元になってることがはっきりしてるから、
2ちゃん用語を元に元から除去すればノイズがなくなることは実証実験済みだな。

457:デフォルトの名無しさん
12/02/21 04:54:13.97
そして2ちゃんには元々信号なんてなかったことが実証される。

458:片山博文MZ ◆0lBZNi.Q7evd
12/02/23 11:29:08.96
social-ime.imeのソースはどこにあるんだ?

459:デフォルトの名無しさん
12/02/23 11:38:31.75
問題はノイズを発生させる馬鹿じゃなくて
情報の品質を確認しない馬鹿をどう取り扱うかだ

天気予報を100%うのみにする馬鹿は冷たい雨に打たれるがよい

460:デフォルトの名無しさん
12/02/26 03:07:09.03
ベイジアンフィルタでスレをフィルタできる2chブラウザはある。

461:デフォルトの名無しさん
12/03/09 00:26:44.91
語彙概念構造の仕様ってどっかに無い?

462:デフォルトの名無しさん
12/03/12 12:47:39.86
>>460
ニュース速報のスレを話題のジャンルごとにカテゴライズしてある
アンテナ・まとめサイトを作ればアフィリエイトでウハウハだなと、
スレタイ偽装スレも含めて95%くらいの精度で振り分けるところまで作ったものの
例の件で無かったことにしたのを今思い出したぞこの野郎

463:デフォルトの名無しさん
12/04/13 14:33:34.33
■多様な表現から主語・目的語等を判別する述語項構造解析技術
「誰が誰に何をいつどうした」という5W1Hに相当する文が表現する状態・動作を判別する規則を大規模な正解データ
から自動的に学習する技術を考案しました。特に、述語と項の間に係り受け関係がない場合や、述語に対する
主語・目的語等が省略されている場合でも前後の文脈を調べて述語と項の関係を高い精度で同定することができます。
この技術を使えば、行為や状況の分析に基づく評判分析や違法・有害情報検出が可能になります。

■国内最大級のシソーラス「日本語語彙大系」等の言語資源
高度な言語解析に必要な様々な言語データベースを独自に構築し、研究に活用しています。それらの一部は
「日本語語彙大系」、「日本語の語彙特性」、「基本語データベース」などの書籍として出版しています。

URLリンク(www.kecl.ntt.co.jp)

464:デフォルトの名無しさん
12/04/14 08:46:19.73
 「する」の例で考えると,「トランプをする」「調査をする」のヲ格の意味は,「す
る」の具体的な内容であり,「彼を叩く」「ケーキを食べる」のようなヲ格とは異
なる。一方で,フィルモア(1975)に「判断,想像のような心理事象の内容」が
対象格にあることを考えると,このような「動作の内容」が対象格の範疇であっ
ても整合性がないわけではない。ところが,「青い目をしている」のヲ格は意味
を抽出することが難しい。動作の内容でも,動作の対象でもなく,このヲ格名詞
句は動詞に対して対等な要素として存在するとは考えられない。あえて言うなら
ば,「述語の表す状態の具体的内容」である。この他に「問題とする」「医者にす
る」のト格,ニ格は事柄の認定の目標,変化の結果を表すので,目標格とした。「頭
痛がする」のガ格は動作の表す具体的な内容とすれば対象格となる。ただし,こ
こで断っておきたいのは,これらを既存の意味格の中に位置づけようとすると些
かはみ出す形となり,特異な存在であることが浮き彫りにされることである。こ
れが「する」という動詞の特質でもある。
URLリンク(libir.soka.ac.jp)

465:デフォルトの名無しさん
12/04/14 09:41:01.59
 2009年7月現在、収容語数は42万語で最多と考えている。
 ボトムアップでの作成により名詞のみでなく動詞、形容詞、形容動詞、副詞、代名詞、
擬態語さらに慣用句までを収容している。時事的な用語の積極採択、地名を除いて固有名詞
は含めない編集方針としている。言葉を探すのを目的とする人間の感覚に沿った分類とした。
色の分類時に、「はでな色」、「暖かい色」とする例が挙げられる。言葉の意味空間は、
1次元ではなく、例えば、「料理」は、材料・地域・調理法の3次元でありこの様に複数の
観点で分類している。「現在」に対する、「明日」、「翌日」、「過去」に対しては、
「翌日」が意味を持つ様に分類作業における揺れを吸収している。
URLリンク(www.issj.net)

ここではオントロジー技術の動向把握をテストすることを目的とするため、「オントロジー」
と共起する用語の共起関係ネットワークだけを示す (図 4)。図から分かるように、
オントロジーに関連しそうな「セマンティックWeb」や「テキストマイニング」「情報抽出」
などの技術用語、「構築」「検索」などの関連語が関係付けられている。しかし、必ずしも
すぐにその関係の意味を推測できない用語も多く、この図によってオントロジー研究の
全体像が分かったとは言い難い。
URLリンク(sigswo.org)

この候補数は,かな漢字変換の候補選択に比較すれば少ない値であるが,理想的な自動訂正を
目指すならば,提示候補数は1に近いほどよい.したがって,この平均候補数を自動訂正の評価基
準にすることが可能だと言えよう.
今回の実験に用いた格フレーム辞書は,自動抽出した直後では,「が格」が欠落しているものが
ほとんどであった.これは,実際の文章では主語の省略が頻繁に起こるためであると考えられる.ま
た,「が格」に前置される名詞の意味素性は,「人間」,「団体・組織」,「システム」,「プログラム」
がほとんどであった.このことから,「が格」の欠落を自動補正することが可能だと思われる.
URLリンク(dspace.wul.waseda.ac.jp)

466:デフォルトの名無しさん
12/04/14 09:49:45.57
あらまし 本稿では,タグの共起と類似画像を利用して,画像に対して有効なタグをユーザに提示するシステムを提
案する.十分にタグ付けされた Web 画像のデータベースから,タグの共起に加えて類似画像の関連語も抽出すること
で,多様で精度の高い関連語をユーザに提示する.また,ユーザが新たに付与したタグを入力のタグに含め,関連語
の再検索を行うことで,さらに新しい関連語を抽出することができる.16002 枚の画像を対象にして,タグの共起の
みを用いる手法,また類似画像のみを用いる手法と比較実験を行った結果,提案手法はより多くの有効な関連語を抽
出できることがわかった.また,これらの有効なタグを入力タグに追加し,関連語の再検索を行うことにより,新た
に有効な関連語を抽出できることも明らかになった.
URLリンク(www.ieice.org)

?Webに関するオープンな標準を開発しているW3Cは、データの意味を記述する為の言語(正確にモデルと構文ですが、
分かり易くする為に言語と言います)として、RDF(Resource Description Framework)を開発しました。
?RDFは、主語と述語と目的語とから構成される意味モデル(トリプル、日本語では「三つ組み」と言います)を有し、意味モ
デルを記述する為の構文と語彙とを規定しています。
(注)トリプルのモデルは、非常に単純な様に思えますが、RDFでは、開集合、閉集合、トリプルを主語又は目的
語とするReification等の複雑なモデルを包含しています。
?RDFで記述された情報は、RDFの意味モデルと一対一に対応する様になっています。
?即ち、RDFで記述された情報の意味を、RDFの仕様に則して、解釈するならば、誰もが同じ意味として把握する事が可能
となります。
URLリンク(s-web.sfc.keio.ac.jp)

467:デフォルトの名無しさん
12/04/17 19:11:42.06
少なくとも二つ以上の Infobox に現れる属性は全体の 3 割程度(8,612 個)であるが,その
ような属性の共通性に基づく Infobox 間の関係性を示したのが図 3 である.二つの Infobox
間に共通属性があれば,Infobox 間につながりがあるとみなす.つながりの重みは Jaccard
係数で求め,図では上位 10,000 本のエッジを示している.ネットワーク図は Cytoscapeを
用いて,ばねモデルで描画している.図から,類似した Infobox がクラスターを形成して
いることがわかる.つまり概念的に類似した Infobox は共通属性を多く持つことを示している.
URLリンク(www-kasm.nii.ac.jp)

468:デフォルトの名無しさん
12/04/25 23:38:10.55
CKY法で構文解析するブログラムをつくっています。簡単な文法はできたので、英語に挑戦しようとネットで文法探したけど、バークレイ大?の確率文脈自由文法しか見つからず頓挫しています。とりあえず解析ができれば良いので、手頃な文法があれば教えてください。


469:デフォルトの名無しさん
12/04/28 19:50:45.94
ドラエモンをドラエモン絵描き歌でスクリプト化するように、この世の全ての物体をスクリプト化できたらいいなと思う。

470:デフォルトの名無しさん
12/04/28 20:00:04.16
「ドラエモン」は未来のロボットとして描かれた架空のアニメキャラクターであるが、
後に「ドラエモン絵描き歌」が考案され、誰もがドラエモンを描くことができるようになった。

471:デフォルトの名無しさん
12/04/28 20:32:42.49
あの絵描き歌は偉大だったな
当時いろいろアニメの絵描き歌があったけど、実際に描けたのはドラえもんだけだった
ポイントは歌よりもキャラ造形なのだろうけど

472:デフォルトの名無しさん
12/05/02 17:33:06.58
4.3 語末一致検索
日本語の複合語はほとんどの場合、意味や品詞を決定する用語が語末に、修飾する用語が前
方にくる.この性質に着目して語末が同じ用語を取り出すと同じ意味の用語が集められ、狭義
語を集めたのと同じような効果を持たせることができる.
例えば「トンボ」をキーにして検索すると、語末が一致として下記の用語が表示される.
 狭義語  「アカトンボ」「イトトンボ」「シオカラトンボ」・・・
 ノイズ  「竹トンボ」「尻切れトンボ」「極楽トンボ」
 漏れ   「オニヤンマ」「ギンヤンマ」
  「トンボ」という言葉を比ゆ的に用いている場合にノイズになる.
URLリンク(www.gengokk.co.jp)

473:デフォルトの名無しさん
12/05/02 17:37:24.14
自然言語処理教科書 コンピュータサイエンスの注目分野を概観!
I/O BOOKS
赤間世紀/著 第二I O編集部/編集
出版社名 : 工学社
出版年月 : 2012年1月
ISBNコード : 978-4-7775-1658-2
(4-7775-1658-X)
税込価格 : 2,415円
頁数・縦 : 159P 21cm
出荷の目安 : 通常1~2日で出荷します
(GW期間の出荷/配送について)
URLリンク(www.e-hon.ne.jp)

474:デフォルトの名無しさん
12/05/03 20:01:32.44
<Sale>中国語版の書籍<文系・理系・ITの諸分野>(格安)
URLリンク(lang-8.com)

475:デフォルトの名無しさん
12/05/06 13:08:10.70
結局自然に処理するにはどうすればいいの?

476:デフォルトの名無しさん
12/05/06 15:50:03.94
自然を処理するんだよ


477:デフォルトの名無しさん
12/05/18 18:08:51.24
URLリンク(www.ibm.com)

>スーパーコンピュータで百万冊の書籍を統計分析

2チャンネラー百万人を動員して、それらの一文一文を人力で解析するというやり方も考えられる。
修飾語についても、何が何をどのように修飾しているのかを分析する。

小学校で「ことばのきまり」を学んでおれば、誰でも簡単にできるはずだ。

478:デフォルトの名無しさん
12/05/19 02:09:33.10
それが正しいかどうかの判定はどうするの?

479:デフォルトの名無しさん
12/05/19 02:58:58.51
2ちゃんねるで「日本語でおk」と言われちゃう奴が
毎日幾人も現れるようなこの世の中で...

480:デフォルトの名無しさん
12/05/19 07:53:25.24
>>478
「ことばのきまり」を小中学校で学んでおれば、百点満点中で70点くらいは取れるはず。

481:デフォルトの名無しさん
12/05/19 08:00:06.16
デジタルヘルス 1 (デジタルヘルス シリーズ) 日経エレクトロニクス編集、デジタルヘルスOnline編集協力 (単行本 - 2011/3/25)
新品: ¥ 31,500
4 中古品 ¥ 30,173より
デジタルヘルス 2―いざ新産業創出へ医療・健康・介護が変わる (デジタルヘルス シリーズ) 日経エレクトロニクス編集、デジタルヘルスOnline編集協力 (単行本 - 2011/11/22)
新品: ¥ 31,500
URLリンク(www.tsutaya.co.jp)

482:デフォルトの名無しさん
12/05/19 08:11:50.98
2チャンネラーって本当は何人?

483:デフォルトの名無しさん
12/05/19 09:35:46.94
そんなどうでもいいことで2ちゃんねらー百万人が動員できるわけないだろ
現実を見ろ


484:デフォルトの名無しさん
12/05/19 20:33:48.82
文を形態素解析器にかけ、品詞によりノード作成
例:水は水素と酸素の化合物である。

水は/水素と/酸素の/化合物である

文節の自立語(名詞・形容詞・形容動詞)をノードにする
(動詞については、リンキングワードとする)
URLリンク(133.41.33.194)

RDF:意味記述ができる
? データの意味を記述する方法は提供している.
? 統一した意味モデル
? 意味モデルに準拠してアプリケーションが処理す
ること,各アプリケーションが「同一のRDFは
同一の意味を持つこと」を認識できる.
URLリンク(www.jaist.ac.jp)

意味ネットワークとは本質的には概念間の2項
関係の集合である
1. 動物は生物である is-a(動物、生物)
2. 動物は動く property(動物、動く)
3. 動物は呼吸する property(動物、呼吸する)
4. 犬は動物である is-a(犬、動物)
5. 犬の性格は人なつこい characteristic-of(犬、人なつこい)
URLリンク(www.nm.cs.uec.ac.jp)

485:デフォルトの名無しさん
12/05/20 00:09:15.81
セマンティックウェブ(笑)
もう残念でしたとか言いようがないだろ


486:デフォルトの名無しさん
12/05/20 08:48:14.02
なんでもかんでも残念って決めつける人って、残念だよねw

487:デフォルトの名無しさん
12/05/20 17:42:49.42
RDFは筋が悪い。もう結論は出ている。
少なくとも自然言語を相手にするには決定的にダメ。

488:デフォルトの名無しさん
12/05/20 21:11:18.03
>>486
セマンティックウェブという1例しか出していないのに
「なんでもかんでも残念って決めつける人」と決めつける残念な人だったか

489:デフォルトの名無しさん
12/05/21 15:57:53.43
>>487
>少なくとも自然言語を相手にするには決定的にダメ。

2ちゃんねらー百万人では、まだ足りないのか?

ツイッターとフェイスブックを合わせて500万ではどうだ?

490:デフォルトの名無しさん
12/05/21 16:20:30.83
突然コーパスの話にすり替える>>489の負け犬っぷりw


491:デフォルトの名無しさん
12/05/21 16:50:19.57
そして>>489の冗談を真に受ける馬鹿っぷりww

492:デフォルトの名無しさん
12/05/21 18:32:02.11
冗談?>>489のどこが面白いの?

493:デフォルトの名無しさん
12/05/21 19:11:28.79
話変わるけど皆さん大学で体系的に言語処理を学んだ感じですか?
独学でヒッソリみたいな人はいないのだろうか

494:デフォルトの名無しさん
12/05/21 20:37:00.75
>>492
怒りでチンコが勃起してるのか?

495:デフォルトの名無しさん
12/05/21 20:50:36.09
>>494
消えろこの知能障害!

496:デフォルトの名無しさん
12/05/22 11:00:02.74
まぁ、>489は面白くないんだけどね。

497:デフォルトの名無しさん
12/05/22 14:42:03.65
あれ、もしかして、地球人全員動員すれば可能じゃね?


498:デフォルトの名無しさん
12/05/22 22:14:07.87
>>493
自然言語処理は、通り一遍のこと以上を教えられる先生はまだそんなに多くないので、
それ専門にやってる先生がいない大学のレベルなら、独学でもいけるように思う。

499:デフォルトの名無しさん
12/05/23 23:15:29.50
最近は機械学習とn-gramだけ分かればいいからな




500:デフォルトの名無しさん
12/05/24 08:23:36.97
>>499
自然言語処理が専門だけど、n-gramとか難しすぎてさっぱりだよ。

501:デフォルトの名無しさん
12/05/24 15:04:22.30
>例:水は水素と酸素の化合物である。

例えば「水」「氷」「水蒸気」については、「凍る」「溶ける」「蒸発する」「気化する」など、
様々な動詞を挟んでRFDデータベースが作成される。「凍る」と「溶ける」は反対語、
「蒸発する」と「気化する」は類義語であるが、「蒸発する」は「人間が行方不明になる」の意味もある。
けれども人間は蒸発はしても気化はしない。RFDデータベースにより、類義語の微妙な違いを理解させる。
「同一ではないが類似」について、共通点と相違点を、RFDデータベースにより明らかにしていきたい。

「たけし」と「たけし軍団」は違うけれど、「イェニチェリ」と「イェニチェリ軍団」は同じであることが分からないといけません。
URLリンク(www.nii.ac.jp)

これもRDFデータベースが充実していれば、「たけし」と「たけし軍団」ではRDFデータベースは全く違うが、
「イェニチェリ」と「イェニチェリ軍団」は似たようなRFDデータベース関係となることが理解されよう。
更に言えば百万冊の書籍について一文一文、いつ何処で誰が何をしたか、あるいは何が何にどうしたかを、
2チャンネラー百万人を動員して人力で詳細解析してコンピュータに入力するというやり方も考えられる。

502:デフォルトの名無しさん
12/05/24 20:10:56.93
言語観がナイーブすぎ

503:デフォルトの名無しさん
12/05/25 07:33:54.44
>2チャンネラー百万人を動員して人力で詳細解析してコンピュータに入力するというやり方も考えられる。
この一文だけで妄言だと分かる


504:デフォルトの名無しさん
12/05/25 20:26:58.58
>>420
> ご利用いただきまして、ありがとうございます。
> また、こちらからの返信が遅れましたことをお詫び申し上げます。
>
> お問い合わせの件でございますが、担当者より下記の回答がございましたので、ご
> 確認いただけますようお願いいたします。
>
>
> 膨大なテキストデータの圧縮にVF符号化を使うと、データの符号化・復号化のための
> オーバーヘッドが発生するため、高速で質問応答の計算を行う状況では、こういっ
> た手法は用いないのが一般的です。
> このため十分なディスク容量と、インメモリで解答を計算できるような大容量メモ
> リを搭載したシステムを利用します。

505:デフォルトの名無しさん
12/05/26 22:08:43.24
>>500
俺の知ってるn-gramは学部生で分からなかったら
アホレベルだと思うんだけどなぁ

専門の奴でも難しく感じるくらいの
n-gramが他にあるのか?

506:デフォルトの名無しさん
12/05/27 10:47:17.10
むしろ簡単すぎ、役に立たな過ぎで
逆にわからないと感じてしまうとか

507:デフォルトの名無しさん
12/05/27 16:37:26.17
自然言語処理でN-gram以上に役立つものなんて存在しないだろ


508:デフォルトの名無しさん
12/05/28 20:50:41.16
最初にオライリーの自然言語処理入門買ったけど選択ミスだった
妙に分厚いのでなんでも網羅してるだろうと思ったら大間違い
何ら本質的な事は書いてなくて、ツールの使い方がダラダラ続くだけ
その後確率的言語モデル系の本に出会ってようやく言語処理の取っ掛かりが掴めた

509:デフォルトの名無しさん
12/05/29 15:29:23.97
折角だからその役に立った本をステマしてってよ。

510:デフォルトの名無しさん
12/05/29 16:14:22.27
確率的言語モデルでググってみたら?

511:デフォルトの名無しさん
12/05/29 17:10:35.24
テキストマイニングみたいなものではなく
係り受け解析や述語項構造解析をがんばってほしい



512:デフォルトの名無しさん
12/06/02 05:48:26.55
>>505
n-gramはただ出現数を数えただけでもSVMに放り込むか検索のキーに使うかって感じでもちろん使えます。
でも、文の出現確率をうまく近似するためのスムージングとか、巨大なn-gramモデルを扱うためのデータ構造やらプルーニングやらで、面倒で奥深く最近もまだ研究が続いているのですよ。

とは言え、使うだけならSRILMとかあるので、理解する必要かあるかはやりたいこと次第だけれど。

513:デフォルトの名無しさん
12/06/06 18:20:56.54
1ヶ月近く前の5/11にお問い合わせ頂いておりました件ですが、
大変申し訳ございません、
弊社内で担当割りがされないままの状態が今になって発覚いたしました。
大変失礼いたしました。

今更で大変恐縮ですが、お問い合わせに対応させて頂けたらと思っております。


<いただいたお問い合わせ>
URLリンク(wacom.jp)

>双方がPCとペンタブレットを使用して同じ教材を閲覧するとともに、手書きで書き
込みをし合うことができるため、

数式についても、インターネットクラウドサービス上で『データ化』してやり取りできるということですか。

数式入力パネルを使用して数式を入力および訂正する
URLリンク(windows.microsoft.com)


数学の入試問題は数式と図形と日本語の混合ですが、ワコムの手書き入力システムは
それにも対応して『デジタル化』できますか。
Windows7に手書き数式入力パネルが用意されているのだから、それと連携するクラウ
ドシステムがあってもよさそうな気がしますが。

(2003年の東大)円周率は3.05より大きいことを証明せよ。
URLリンク(d.hatena.ne.jp)

例えばこうした証明問題についても、手書きの解答記述を図形も含めてデジタル化できますか。
これは平方根でこれは微分でこれは行列でこれは三角形でこれは円でこれは放物線だ、と。
更に言えば、類似の問題を検索する機能は開発されているのですか。

514:デフォルトの名無しさん
12/06/06 18:22:08.87
【要望】
手書きのOCRは誤認識が多いが、原稿用紙のようにマス目を設定したり、あるいは文
脈から誤認識を検出するシステムが求められる。

実験では、文字誤りモデルの有効性を検証するためにOCR 誤り訂正システムを実装し
た。実験の結果、文字正解率 97.2% の高いベースラインに対して 12.5% の認識誤り
を訂正することができた。
URLリンク(www.phontron.com)

図形についてもこれは楕円なのか円なのかというのも、解答記述の数式から推測する
アルゴリズムとか。上の証明問題は「円周率」と書いてあるから、関連する曲線図形
も「円」であることは認識できるはず(あるいは楕円や放物線や双曲線を用いて円周
率を証明する方法が考えられるか)。また「閾値」が怪しいようなら、いくつかの選
択候補を提示するとか。

========================

<回答>
仰る通り数式入力パネルを使用してのデジタルでの数式入力は可能(対応アプリが必要)です。
弊社、または現時点での弊社パートナー様のシステムで
クラウド上でデジタル数式をやりとりするといったサービスはございません。
数式のデジタル化は文字認識という意味では可能ですし、通常の文字も文字認識変換は
Windows7(またはVista)の機能で可能です。
ただ、それに「連携」という意味でのクラウドサービスについては分りかねます。
実際に弊社の液晶ペンタブレットの実機をお貸出しして検証いただくことは可能です。

大変恐れ入りますが、差し支えなければ篠田様のご職業を伺ってもよろしいでしょうか?
本件の対応につき、直接お電話などさせていただければ幸いでございます。
もしよろしければご連絡先お電話番号をおしらせいただけますでしょうか。

何卒よろしくお願い申し上げます。

515:デフォルトの名無しさん
12/06/07 12:14:48.07
NLTKのバージョン2がリリース
NLTK 2 Release Highlights | StreamHacker
URLリンク(streamhacker.com)

NLTK 2.0.1、別名NLTK 2は 、最近リリースされました、
何以下は、私のお気に入りの変更点、新機能、およびからのハイライトであるのChangeLog 。

516:デフォルトの名無しさん
12/06/07 12:37:23.65
>>515
日本語でOK w

以下は、私が気に入った変更点、新機能、ChangeLogからの抜粋です。

程度の訳でいいのかな。

517:デフォルトの名無しさん
12/06/07 12:44:43.12
>>516
google翻訳です。

518:デフォルトの名無しさん
12/06/07 21:06:44.89
>>517
なぜここにgoogle翻訳なんか投げる必要が

519:デフォルトの名無しさん
12/06/08 07:32:09.58
自然言語処理スレだから自然言語処理の力を使ったのだろう
「自分の作ったドックフードを食え」
の精神に則ったよい心がけだと思うわ


520:デフォルトの名無しさん
12/06/16 16:09:52.73
生成文法ってやつあるけど
自然言語処理と何か関係あったり役立つことありますか?

521:デフォルトの名無しさん
12/06/16 20:48:49.43
自然言語処理の基礎としてたいてい生成文法の話はやるけど?

522:デフォルトの名無しさん
12/06/17 00:29:43.78
やるけど、役に立つのか?


523:デフォルトの名無しさん
12/06/17 01:50:38.02
否が応でも勝手に頭にたたき込まれているから問題ない。
というか、文系の言語学の連中より我々の方があれをまともに使っている。

524:デフォルトの名無しさん
12/06/17 03:44:24.23
何が「問題ない」で、何が「というか」なんだ?

525:デフォルトの名無しさん
12/06/17 12:56:59.56
正直やればわかるとしか言いようがないな

526:デフォルトの名無しさん
12/06/17 17:19:37.17
>>520
研究として自然言語処理をするなら知っておくとよいかもしれません、という程度です。視野を広げる意味で。
言語学で使われているような生成文法を使ってどうこうする、ということは今のところ無いです。

527:デフォルトの名無しさん
12/06/17 19:40:38.48
>>525
つまり答えられませんってことだろ


528:デフォルトの名無しさん
12/06/18 11:53:26.56
そう思うなら好きにしろ。
あとで「そんな便利なものがあったのか」と泣く自由はあるからな。

529:デフォルトの名無しさん
12/06/21 21:56:17.12
LFGも生成文法?! これはMicrosoftが
自然言語処理エンジンに使用している。
チョムスキーのは,言語学者の遊び。

530:デフォルトの名無しさん
12/06/22 08:08:51.20
違うよ。
チョムスキーの理論を唯一まじめに使っているのは我々だけだということ。

531:デフォルトの名無しさん
12/06/22 10:41:12.81
言語学者にいぢめられたバカが必死、なのか?

532:デフォルトの名無しさん
12/06/22 10:47:23.23
>>531
頭が悪いやつだな。
言語学者の仕事と我々の仕事は違うんだよ。連中は実装しない。

533:デフォルトの名無しさん
12/06/22 14:39:53.35
無知なやつだな。

534:デフォルトの名無しさん
12/06/26 02:07:25.61
>>532
もしかして、HPSGパーザーを作ってる方でしょうか。であれば、生成文法は基礎として必要なのは確かですね。
前に生成文法が自然言語処理に必要ないと言ったのは、別にHPSGを否定したかったのではなく、自然言語処理一般では使わないという意味でした。ただ他には目立った用途がない以上、当面必要ない人にまで勉強するべきとはいえないと思います。


535:デフォルトの名無しさん
12/06/26 09:23:31.89
hello worldを書くのに必要ないから、プログラミングに数学はいらない、みたいな意見だな。

536:デフォルトの名無しさん
12/06/26 18:54:27.63
>>535
パーザーはhello world ほど、誰もがかける必要があるプログラムではありませんし、生成文法は数学ほど重要ではないと言う意見です。

537:デフォルトの名無しさん
12/06/28 10:36:05.94
荒れたおかげでまともな人も来たようだな



最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch