【Evernote他】クラウド系ノートアプリ総合スレ 1at ESITE
【Evernote他】クラウド系ノートアプリ総合スレ 1 - 暇つぶし2ch204:
25/12/08 11:09:25.82 .net
好意というか、
まず無料で使わせて依存体質になったころに収穫する
よくあるはなしや

205:名無しさん@お腹いっぱい。
25/12/09 02:52:24.32 .net
でも自分の使い方だと課金しても一日0.01円とかだった笑
OpenRouterに10ドル以上チャージしたら1日1000回無料モデルを使えるようになるという記事を見て
それもやってみたが、同じ考えの人が大挙したようで
無料Geminiはずっとエラー状態になってる
無料が駄目になったから別の無料に逃げるというムーブが
そもそも筋がよくなかったと思い直したが、
聞いたこともないモデルが使えるようになったのでよしとする

206:名無しさん@お腹いっぱい。
25/12/16 21:04:29.65 .net
touch & sort、フォルダ選択ドロップダウンに、
AlfredやSpotlightにあるような、よく使う項目ほど上に表示される機能を追加した

207:名無しさん@お腹いっぱい。
25/12/21 11:20:43.01 .net
おれおれDeepLの件だが、
文字列の言語が日本語なら英語、日本語以外なら日本語に翻訳して下さい、
と書いているのに、英文が英文のまま返ってくることが20回に1回くらいあったので
LLMに正しく条件分岐させるコツをGrokに聞いてみたら
言語が何かをまず判定させて、それを出力させればいいということだった
なるほど―。
LLMは(人間がそうであるように)自分自身の出力を入力に回しながら言葉を紡いでいくから、
LLMに認識させたいことはLLM自身に言わせるのが鍵で、
これが、よく聞くチェーン・オブ・ソート(CoT)の要諦だったと気づいた
(「ステップバイステップで考えて」とプロンプトに付加すると説明されるCoTを、
その容易さからバッドノウハウのようなものかと思い込んでいた)
OpenRouterで色々なモデルを使っていると、本番の出力を返す前に独り言のように思考を展開するLLMがあるが、
これがまさにLLMの「思考」そのもので、LLMにとっては「自分自身の出力を入力にしながら言葉を紡いでいく」という動きこそが核なのだ、
というようなことが急に分かった
また翻訳文だけでなく原文も出力に混ぜてくることが30回に1回くらいあったが、
出力をJSONにすることで、余計なデータの混入を避けられるだけでなく、後処理もしやすくなるとGrokとの会話で分かってきて、
ついでに入力もJSONにした
これがプロンプトエンジニアリング―

208:
25/12/24 10:14:50.91 .net
>>207
三行で

209:名無しさん@お腹いっぱい。
25/12/25 14:20:07.82 .net
長年、Scansnapで自炊したPDFにScansnap OrganizerでOCRをかける、
というフローでやってきたが、OCRの誤認識率が体感5~10%くらいあった
AI技術の長足の進歩を考えると最新のOCRは絶対認識率上がってるよなぁと思いつつ、
Scansnap OrganizerのOCRにそれなりに満足していたので、ずるずると使い続けてきたが、
思い立ってPDFelementを導入してみたら、誤認識率が体感1%くらいになった
精度の低いOCRをかけたPDFの山を前に、これも一種のバッドノウハウだったと思う

210:
25/12/25 14:27:27.73 .net
AI的OCRってハルシネーションあるんでは

211:名無しさん@お腹いっぱい。
25/12/26 20:50:04.51 .net
OCRはディープラーニングではあってもLLMではないので
ハルシネーションは関係ないっぽい(Grok情報)

212:名無しさん@お腹いっぱい。
25/12/27 02:38:10.86 .net
gemini3に聞いてみた:

AIによるOCR(光学文字認識)において、ハルシネーション(もっともらしい嘘をつく現象)は**「確実に起こります」**。

従来のOCRが単なる「文字のパターンの切り出し」だったのに対し、近年のAI(特にDeep Learningや大規模言語モデルを活用したAI)によるOCRは、文脈を理解しようとする性質があるため、存在しない文字を勝手に生成してしまうリスクを孕んでいます。

213:名無しさん@お腹いっぱい。
25/12/27 02:46:32.27 .net
>>212
AIによるOCRにおいて、ハルシネーションは**「起こり得る」どころか、AIの高性能化(文脈理解の向上)に伴って、より巧妙で気づきにくい形で発生するようになっています。** 「100%正確」と過信せず、特に数値や固有名詞を扱う場合は、人間による確認(Human-in-the-loop)や、バリデーションチェックの仕組みを構築することが不可欠です。

214:名無しさん@お腹いっぱい。
25/12/29 20:51:13.41 .net
Gemini3に聞いてみたが、そっちのGeminiの言ってるOCRって括弧付きの『OCR』なんじゃない?
こっちのGeminiが言うには、LLMのマルチモーダルモデルの文字認識は、
実際はOCRではなく視覚的文書理解(Visual Document Understanding)というもので、
本来のOCRのように文字を一文字ごとに切り出すのではなく、画像を決まったサイズに分割し、
それぞれの画像単位にベクトル化処理を施し、LLMとして処理するらしい
だからこそハルシネーションが起きる
『OCR』(実際はVDU)にハルシネーションが起きるのは、LLMだからその通り
ただOCRと『OCR』は似て非なるものなので、OCRではハルシネーションは起きない
というか、文字単位に切ってから認識してるんだから、
文脈レベルの処理で生じてくるハルシネーションなんて起きようがない

215:名無しさん@お腹いっぱい。
25/12/29 21:40:46.38 .net
DeepSeek-OCRにはランダム文字列が読めない - きしだのHatena URLリンク(share.google)

216:名無しさん@お腹いっぱい。
25/12/30 00:31:09.18 .net
AI OCRでハルシネーションが起こるメカニズム
従来のOCRは、一文字ずつ画像を切り出し、既存のフォントデータと照合する手法が主流でした。
最新のAI OCR(特にTransformerやAttentionメカニズムを用いたモデル)は、以下のプロセスでハルシネーションを引き起こす。

文脈補完(Contextual Filling)
AIは「画像として見えているもの」だけでなく、「統計的に次に来る可能性が高い文字」を予測する。

例: 「東京○」というかすれた画像があった場合、AIは○の部分を読み飛ばすのではなく、文脈から「東京都」と補完する。

リスク: これが「東京都」ではなく、実際には「東京支店」の場合でも、AIが「東京都」と誤って書き換えてしまうことがある。

視覚的特徴の誤認(Visual Misinterpretation)
AIはノイズ(汚れ、折れ曲がり、裏写り)を文字の一部として解釈しようとする。

例: 紙のシミを「、」や「。」と認識したり、数値を読み取る際に、汚れを「1」や「7」と誤認して存在しない桁を生成する。

217:名無しさん@お腹いっぱい。
25/12/30 11:14:27.90 .net
そもそもAIに聞いた回答自体ハルシの可能性定期
AIは自分の仕様を正しく説明できない

218:名無しさん@お腹いっぱい。
25/12/31 00:40:41.47 .net
grokってやっぱ娯楽用なんやな

219:名無しさん@お腹いっぱい。
26/01/23 21:59:47.87 .net
RAGにドキュメントに書いてあるはずのことを聞いても
ベクトル検索によるretrieveの段階でドキュメントがヒットせず、
当然の結果としてアカン回答になる件だが、
たとえドキュメント群が日本語であっても質問を英語にすればベクトル検索の結果がまともになると気づいた(Logicallyで確認)
Grokに聞いたら、多言語対応のLLMであっても学習データの分布は英語が圧倒的なので、
英語l以外の言語だとクエリのエンコード(ベクトル化処理)が微妙になりがちらしい
日本語ドキュメントを英語クエリで検索できるということは、
日本語ドキュメントのベクトル化には成功しているということだが、
なぜ日本語クエリのベクトル化は微妙になりがちなのか?
そこは文章の長さがものを言うらしい(クエリは文章として短すぎる)
いずれにしろ、セマンティック(意味ベースの)な検索とはこういうものかと実感した
表記の同一性なんてほとんど無意味なんやなって

220:名無しさん@お腹いっぱい。
26/03/12 22:43:38.94 .net
AIで色々なものが作りやすくなった今、作りたいものって何だろう?と考えた時
LLMを活用したIMEかな?と思ったものの、そのハードルはかなり高そうで、
ATOKダイレクトでLLMを呼び出したりするか?と思ったが、
結局、ATOKの省入力辞書データをLLMに補完してもらうという単純かつ泥くさいやり方に逢着した
「このリストに追加すべきワードをリストアップして下さい」という質問を繰り返して、
周辺のワードを増やしていく
この作業には、IMEの環境整備という意味以上に、既有知識を拡げていくという意義があると感じる
LLMに提示されたワードを確認せずに追加することはなくて、調べてから追加していくので。
既にある知識でやりくりしがちなので、こういう知識を拡張していく習慣は有意義だと感じる

221:名無しさん@お腹いっぱい。
26/03/13 05:57:14.62 .net
句読点もバラバラで読みにくい長文になっておりますので、AIで簡潔にまとめてから投稿していただけると助かります。

222:名無しさん@お腹いっぱい。
26/03/20 13:59:21.72 .net
>>221
自分以外の人にAIの文章を差し出すようになったら終わりやろ
「あっ・・はい、分かりました(あなたの人間性が)」ってなる
端から信頼なんて求めていない相手ならいいが、
信頼していた人間がAI文を投げてきた時の絶望感はいかほどか―
このAI社会に人はあまりにも自分の信頼を放擲しすぎよな

223:名無しさん@お腹いっぱい。
26/03/20 14:21:54.82 .net
もっとも、YoutubeのAI生成系コンテンツは全然普通に、むしろ結構な頻度で観ているが
結局のところ、自分の文章の体でAIの文章を出すか
最初から「これはAI生成コンテンツです」の文脈でそれを出すかの違いなんやろね

224:名無しさん@お腹いっぱい。
26/03/20 19:02:30.63 .net
>>222
そういう精神論はいいから
おまいは毛筆直筆で文をやりとりしていればヨシ
パソコンやスマホで文字を打つなんて誠意のかけらもない軟弱行為は当然していないよね


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch