【IT】「東京電力」→「東京電カ」、「ストロンチウム」→「ス卜口ンチウム」は「OCRのミス」? 原子力規制庁、サイトを修正at NEWSPLUS
【IT】「東京電力」→「東京電カ」、「ストロンチウム」→「ス卜口ンチウム」は「OCRのミス」? 原子力規制庁、サイトを修正 - 暇つぶし2ch583:名無しさん@0新周年@転載は禁止
14/06/11 09:10:58.03 Ia+R4ol+0
OCRが馬鹿なのは仕方ないし、よく似ているから目視で見落とすのも仕方ない、というか目視だと普通に読めてしまうから
このデータのアドレスを知っている人には間違っていても特に問題はない、サイト内のリンクをたどれば見れるわけだし
他社の提供する検索サービスをサイトマップ代わりするなんて普通はしないだろ、
サイト内にちゃんとそれぞれのデータへのリンクが有って内容は人間が目視で読める。なら多少誤字があってもいいじゃない

他社の検索サービスなんて関係ないし人間が見て読んだままの言葉で検索した際に候補に上がらないのは
そのような誤字があることも想定した検索エンジンを造らないグーグルの怠慢

584:名無しさん@0新周年@転載は禁止
14/06/11 09:24:01.64 PzLBHVWg0
木白崎刈谷原発とかどんだけ都合の良いOCR

585:名無しさん@0新周年@転載は禁止
14/06/11 09:40:19.67 GkdB98X30
>>25
だってあれは自作自演じゃん
日本人なら100%あんな書き方にはならない

586:名無しさん@0新周年@転載は禁止
14/06/11 09:46:03.77 0w2y0q6H0
つか、この程度なら今の検索エンジンなら拾われるんじゃね?

587:名無しさん@0新周年@転載は禁止
14/06/11 09:53:13.21 I1X2DToC0
これはもう再現実験を公開するしかないよ
そのくらいしないと疑いは深まるばかりだし
同じ条件でやれば簡単だろ?

588:名無しさん@0新周年@転載は禁止
14/06/11 10:05:05.21 7u7yNZ8YO
>>1
今来た用

【速報】原子力規制委員会、報告書内の「ストロンチウム」に当て字を使い検索されないように工作
スレリンク(poverty板)

原子力規制委員会、報告書内の「ストロンチウム」に当て字を使い検索されないように工作★2
スレリンク(poverty板)

原子力規制委員会、報告書内の「ストロンチウム」に当て字を使い検索されないように工作★final
スレリンク(poverty板)

589:名無しさん@0新周年@転載は禁止
14/06/11 10:05:10.99 708jqFrr0
発想とか手段が日本人になりすます人たちに似ている

590:名無しさん@0新周年@転載は禁止
14/06/11 10:06:58.83 6vZmiqic0
そんなミスがあるかボケ

591:名無しさん@0新周年@転載は禁止
14/06/11 10:42:31.91 dC08KMWT0
こんな単純なミスに気がつかない連中が原子力規制委員会など務まるわけがない
と感じるのは俺だけだろうか・・・・

592:名無しさん@0新周年@転載は禁止
14/06/11 11:04:09.65 4TuuzY7Q0
ミスも何も、これは故意にやったんだろ、

事故の時も、PDFで発表せず生データを出せと言っても、
PDFにこだわった連中だ、

593:名無しさん@0新周年@転載は禁止
14/06/11 11:12:47.98 NPCtJ4cf0
水銀 コバルト カドミウム 鉛 硫酸 オキシダン シアン マンガン バナジウム クロム カリウム ストロンチウム

上記の文字列で検索すると、普通のケミカルサイトよりも先にゴジラ映画が…

594:名無しさん@0新周年@転載は禁止
14/06/11 11:25:16.22 7Jvjb/Ev0
OCRソフトメーカー「風評被害だ!」

595:名無しさん@0新周年@転載は禁止
14/06/11 11:32:40.41 c3maaqa30
陰謀だと感じる人は

安保反文寸
原発反文寸

で、検索やれば?中核派だって中木亥派で入れれば出てくるよ。
PDFの検索とは、そういうもの。

596:名無しさん@0新周年@転載は禁止
14/06/11 11:33:50.46 R+6eIJCU0
中国人使ってんのかと思ったらOCRか
良かった良かった

597:名無しさん@0新周年@転載は禁止
14/06/11 11:34:03.72 bWslrQYT0
まぁこれはミスじゃないの
さすがにこれがなにかの陰謀ってことは

598:名無しさん@0新周年@転載は禁止
14/06/11 11:38:47.01 N75Byg3Q0
二ーベルソグソの指輪

599:名無しさん@0新周年@転載は禁止
14/06/11 11:40:51.04 WRKBCT63I
こんな事にまで脊髄反射でスレたてるのは
どうなのよ。

600:名無しさん@0新周年@転載は禁止
14/06/11 11:45:38.83 pglrnvXZ0
スボククチンチウム

601:名無しさん@0新周年@転載は禁止
14/06/11 11:56:13.42 Sxw/CVT/0
>>597
何かの間違いにしては多すぎ

602:名無しさん@0新周年@転載は禁止
14/06/11 12:15:56.09 1B7gd4qKi
おらにカを分けてくれ!!

603:名無しさん@0新周年@転載は禁止
14/06/11 13:54:30.60 UAlctJ8O0
こういうのって検索避けじゃないのかよwww

604:名無しさん@0新周年@転載は禁止
14/06/11 14:32:22.41 Vm767hev0
検索避けになってないのに検索避けってw

605:名無しさん@0新周年@転載は禁止
14/06/11 14:40:16.40 4SBkqtid0
OCRのミスで「ストロンチウム」→「ス卜口ンチウム」はあるかもしれないが、
→「ストロソチウム」だったら故意犯だと思うよ。

606:名無しさん@0新周年@転載は禁止
14/06/11 14:51:11.71 3yLxMK2U0
お前ら、OCRじゃねーよ、「ゼロシーアール」だよ

607:名無しさん@0新周年@転載は禁止
14/06/11 14:53:14.25 4SBkqtid0
OCRの変換精度は最終的には辞書によるんで、
辞書設定をオフるとこんな感じの変換になる。
「東京」や「電力」さえミスるとなると標準辞書もオフってないかなぁ。

608:名無しさん@0新周年@転載は禁止
14/06/11 15:01:37.13 zRg+fFq30
>>607
辞書追加ならわかるが初期設定以外で使う理由が思いつかないが?

609:名無しさん@0新周年@転載は禁止
14/06/11 15:02:06.60 ACKlehk+0
文字認識(OCR)ソフトは
チョン製?

610:名無しさん@0新周年@転載は禁止
14/06/11 15:39:47.08 t7/KGu2i0
原燃時代からそうだけど、一部誤解などもあったかもしれないが、
せこい隠蔽で何度も批判されてるから、またかよって感じが強いんだよね。

611:名無しさん@0新周年@転載は禁止
14/06/11 15:42:48.14 matVxMFc0
今どきのOcRならこんな変換にならないと言っている方々、
ぜひおすすめのOCRと機材環境をおしえてくれ。
昔のA4書類をテキスト化するのに疲れたよ。
Ocrはクソ変換だし。結局手入力したほうがはやいし。
ぜひとも頼む。

612:名無しさん@0新周年@転載は禁止
14/06/11 16:00:59.31 f9ZcyYJ40
プル卜ニウムでも検索できるなw意図的だね

613:名無しさん@0新周年@転載は禁止
14/06/11 16:06:49.78 2gxeW5+J0
おいおい、2chみたいなことやってるのか?ww
口はまだしもトなんて漢字なかなか使わないだろww

614:名無しさん@0新周年@転載は禁止
14/06/11 16:16:14.75 rmnPGOzH0
トト卜ロロ口□、馬鹿w

615:名無しさん@0新周年@転載は禁止
14/06/11 16:24:24.98 Ak9jN/vE0
千円が干円になってる文書を見た記憶がある

616:名無しさん@0新周年@転載は禁止
14/06/11 16:26:57.22 zRg+fFq30
>>611
手入力が早いなら手入力でいいんじゃないか?
あとPDFからわざわざプリントアウトしてOCRでまた読み込むなんて
あほな二度手間をかけるようなやり方は真似しちゃだめだよ。

617:名無しさん@0新周年@転載は禁止
14/06/11 16:28:24.61 A1fqkPCz0
福島原子カで検索すると色々出るねえ

618:名無しさん@0新周年@転載は禁止
14/06/11 16:43:51.92 uAekWQHZ0
OCRがストロンチウムという単語を持ってないとしても前後をカタカナに挟まれた不明な単語を同型の漢字にしちゃうってよっぽど頭の悪いソフトだな。公開しても良いレベル。

619:名無しさん@0新周年@転載は禁止
14/06/11 17:04:41.26 E4/F56IY0
これ政府がチョンじゃねーか?

620:名無しさん@0新周年@転載は禁止
14/06/11 17:07:08.68 vGWNs4BP0
またトン電カ

621:名無しさん@0新周年@転載は禁止
14/06/11 17:09:25.74 0AwqR4sF0
0CR(笑)
牛乳パックの「開け口」の表示を「あけろ」と読むようなものか?

622:名無しさん@0新周年@転載は禁止
14/06/11 17:11:38.15 BPHpaKp30
都合よくそんな間違いするかよクソどもが

623:名無しさん@0新周年@転載は禁止
14/06/11 17:15:58.02 +hdbFPVX0
PDFファイルをテキスト化するのに0CR?
普通にテキスト抽出やコピペできるような

624:名無しさん@0新周年@転載は禁止
14/06/11 18:24:21.92 N/UgsbqQ0
本書の内容で特に印象に残ったのは、閑職に追いやられた電力会社の社員が、
パソコンに向かって原発賛成世論を作り出すために2ちゃんねる等にせっせと投稿させられている、というくだり。
仕事とは言え、本当ならば悲しく哀れな話だと思った。

625:名無しさん@0新周年@転載は禁止
14/06/11 18:55:00.76 fVrzCrM7O
>>621
可愛い

626:名無しさん@0新周年@転載は禁止
14/06/11 19:10:26.57 PT4+54vq0
公的な重要な書類なのに校正もしないのかよ
何度も校正通せば絶対にひとつは見つかるしそこから全部チェックできただろう
いいかげんな規制委員会だなあ

627:名無しさん@0新周年@転載は禁止
14/06/11 19:11:19.49 xNRO62su0
高校物理を習うとv(速さ)とν(振動数)を混同することがある

628:名無しさん@0新周年@転載は禁止
14/06/11 19:27:40.24 zRg+fFq30
高校物理でν使ったっけ?fじゃねーか?
速さは大文字のVだった気もするし

629:名無しさん@0新周年@転載は禁止
14/06/11 22:11:12.21 kPF88itQ0
>>623
ネットで公開してる文書でも、
厚生労働省なんかのpdfは普通にテキストをコピペできるのに、
原子力規制委員会の報告書なんかのpdfはコピペできない
仕様になってたな。  まあ自分の所なんだからそれでも
できるはずなんだがな。

自分の所のpdfをわざわざプリントアウトしてOCR通す謎。

630:名無しさん@0新周年@転載は禁止
14/06/11 22:13:22.57 kPF88itQ0
>>628
光の振動エネルギー e=hν で使った覚えがある。 プランク定数の所。

631:名無しさん@0新周年@転載は禁止
14/06/12 00:28:06.05 9pj2iH6A0
問題を区別しような。

「ス卜口ンチウム」 は PDF へのリンクのタイトル ( html 文書 ) の中に紛れ
込んでたんだろ。たった一行分のタイトルを手で打ち込まないで OCR が吐
いたテキストの中からコピペーしたのかねー。そりゃ手抜き。まあフォント環
境によっては見ても判らんときがある。他に html の中に紛れ込んでた例が
見つからないので、ミスか出來心 ( いたづら ) であろ ミ'ω ` ミ

「原子カ」 「電カ」 の類は G o o g l e の O C R の せ い。画像 PDF または
保護指定された PDF からはテキストデータを抽出できないので、Google が
収集した PDF を仮想的に表示し、画像データを勝手に OCR でテキスト化し、
検索データベースに載せる。検索画面のダイジェストにはそう表示されるが本
文中にそんな文字列は無い。Google OCR の変換精度が低いとの苦情は
Google に言え ミ ' ω`ミ

( ※ まあ、保護 PDF をやめろよー )

632:名無しさん@0新周年@転載は禁止
14/06/12 02:39:32.26 j3uLgXp+0
なんでPDFを直接テキストにしないでOCR使うんだよ
コピーガードかけてないだろ

633:名無しさん@0新周年@転載は禁止
14/06/12 03:56:31.17 QFVFqi9m0
スカ卜口
これでオッケー

634:名無しさん@0新周年@転載は禁止
14/06/12 06:32:50.31 GnIALUPZ0
原発建設に当たって、活断層があるからと建設反対した学者さんを怒鳴りつけて、
無理矢理原発建設させたクズがいたけど、名前思い出せない、だれだっけ?

635:名無しさん@0新周年@転載は禁止
14/06/12 07:00:44.52 0zC9FJLU0
おいおい経産省はIT化推進の
片輪だぜw(総務省・経産省)
一言言おう
これや苦しい嘘

636:名無しさん@0新周年@転載は禁止
14/06/12 07:07:34.58 dj6Gj+hl0
カロ工施設
でググると・・・

637:名無しさん@0新周年@転載は禁止
14/06/12 07:12:00.91 8bEE/sivO
謝って終わり?

638:名無しさん@0新周年@転載は禁止
14/06/12 07:25:15.77 pT5HYh6f0
修正ついでにいろいろ消してんじゃね

639:名無しさん@0新周年@転載は禁止
14/06/12 07:30:34.75 UFgPTap40
そらぞらしい

640:名無しさん@0新周年@転載は禁止
14/06/12 08:32:09.09 M91qAGfz0
カムラのカもOCRのミスだったのかw
誰が信じるかってのw

641:名無しさん@0新周年@転載は禁止
14/06/12 12:07:06.26 QzIcCdjh0
いろいろ混同してる人が多いな
タグとは違い、検索インデックスは検索エンジン=グーグルが、ある程度わざと誤認識させてる。 

会議資料一覧からリンク張るには、先にpdfを上げたはず
グーグルやアドビのテキスト変換(OCR)では、誤認識は確認できず
まーOCRは設定しだいで認識率変わるけど

642:名無しさん@0新周年@転載は禁止
14/06/12 12:16:49.67 baEHIZfg0
謝って終わりって言うか
そもそも口クに謝ってさえいない


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch