14/06/11 03:13:09.46 b382mHL/0
おとといDLした原子力規制委員会のpdfをOCRにかけてみたが
s.Typist 、読取革命は正常に認識した
読んdeココは持ってるがインスコしてなくて面倒なのでやってない
いったいどんなソフトを使ったら漢字の力がカタカナにカになるんだ?
539:名無しさん@0新周年@転載は禁止
14/06/11 03:15:37.64 b/EeWr710
>>538
ここで問題になってるのは Google が勝手に OCR にかけてることだが ミ ' ω`ミ
540:名無しさん@0新周年@転載は禁止
14/06/11 03:24:09.15 K7SDaJvu0
スボククチチウムだけかと思ったら
こんなにワンサカ出てきたね。呆れた。
検索よけにわざとやってるとしか思えんね。
541:名無しさん@0新周年@転載は禁止
14/06/11 03:26:00.91 wuY5Ispl0
が、しかし、EvernoteのOCRはかなり優秀。活字の漢字かなも、てがきのえいぶんも、かなりいいかんじ。
542:名無しさん@0新周年@転載は禁止
14/06/11 03:29:14.76 b/EeWr710
>>540
Google が検索よけするのか? ミ ' ω`ミ
543:名無しさん@0新周年@転載は禁止
14/06/11 03:32:13.93 d4oJT/R+0
OCRの読み間違いは、癖があるから、それがわかっていればチェックできる。
かなりいい加減なやつが担当しているのは事実だろうな。
544:名無しさん@0新周年@転載は禁止
14/06/11 03:32:40.35 K7SDaJvu0
マスゴミはだんまりなんだろうね。
普通なら大スクープなのに。
ほんとに日本の糞ゴミは腐ってるな。
545:名無しさん@0新周年@転載は禁止
14/06/11 03:48:40.28 TbP9Phpf0
となりの卜卜口
546:名無しさん@0新周年@転載は禁止
14/06/11 03:51:01.30 YGyM3g5U0
民主党の「マ二フェス卜」
誰も覚えてないのか・・・
547:名無しさん@0新周年@転載は禁止
14/06/11 03:54:32.70 Psstmo3J0
外ゥスレかよ
548:名無しさん@0新周年@転載は禁止
14/06/11 03:56:52.02 p46z3EP20
「放射脳」って言葉使うのは東電工作員な
549:名無しさん@0新周年@転載は禁止
14/06/11 05:29:30.41 iU8oFMf00
意図的な隠蔽工作
→ 発覚
→ 原因調査 (形式的)
→ 嘘の報告 (本当の原因はわかっているが公表できない)
→ 普通なら炎上する事態を政治力で阻止
よくある話です
550:名無しさん@0新周年@転載は禁止
14/06/11 05:41:42.08 cy8fwPin0
OCRなんか認識率上げるのに辞書で訂正掛けるんだから、こんな変換ありえないだろ。
あまりに嘘くさい説明だ。
551:名無しさん@0新周年@転載は禁止
14/06/11 05:52:48.50 kFHL7zr10
>>544
ほんとおかしいよね。
552:名無しさん@0新周年@転載は禁止
14/06/11 07:05:53.54 IB8XXICG0
これは嘘
経産省ってITの先端だぜ。
添削する時は印刷して検討するが
修正はPCで上で行う。
で。。だいたいアドビプロで変換するので
OCRソフトの介在する部分なんか無いよ
553:名無しさん@0新周年@転載は禁止
14/06/11 07:15:32.30 sbZWU34w0
OCRってちっとも進歩しないよね。
未だに買いたいと思うソフトウェアない
554:名無しさん@0新周年@転載は禁止
14/06/11 07:15:54.09 RY5ijszR0
>>4
よう、原発片付けて来いよw
555:名無しさん@0新周年@転載は禁止
14/06/11 07:18:45.15 8HqKZdeC0
少なくとも使用したOCRとバージョンくらい示さないとね
556:名無しさん@0新周年@転載は禁止
14/06/11 07:27:02.15 B03092qZ0
ワープロデーターで訂正すりゃいいだけだろ
こんな阿呆な馬鹿が、原子力を扱ってるのか
また事故が起きるぞ
557:名無しさん@0新周年@転載は禁止
14/06/11 07:32:46.62 CHjM6SDY0
スレタイ見てこのコピペみたいな事かと思ったら違った
休み時間ヒマだったので、上司のパソコンに
「うんゆ」→「運輪」
「こくどこうつうしょう」→「国土文通省」
「せんじつは」→「先曰は」
「けっさん」→「抉算」
「ねんどまつ」→「年度未」
「しゃちょう」→「杜長」
「おくえん」→「憶円」
などを辞書登録しておいた。
辛いまだバレていないようだ
558:名無しさん@0新周年@転載は禁止
14/06/11 07:34:49.27 b/EeWr710
OCR つかわんでも時々誤字はあるはな。
OCR だから同じ形の字が選ばれたというだけのことだはな。
"ス卜口ンチウム" ( 引用符つき ) で検索しても PDF は 4 個しか出ないはな。
うち 3 つは Google が拾った PDF が保護ファイルでテキストを抽出できないからと、
勝手に OCR をかけてデータベースに加えたもの。
Google のせいでネット上には 10 年ほど前からこの種の文字列がわらわらはびこって
たんだが、今まで気づかなかった人がこんなに多いとはねえ‥‥
ネットにアクセスして何やってたんだか ミ'ω ` ミ
559:名無しさん@0新周年@転載は禁止
14/06/11 07:37:08.66 b/EeWr710
>>557
それら、ほとんどあるとおもうぞ ミ ' ω`ミ
文通省は見つけた。下の方の 「お問い合わせ」 の部分、な。
URLリンク(www.mlit.go.jp)
他もほとんどあるだろ。
560:名無しさん@0新周年@転載は禁止
14/06/11 07:39:27.85 SQVxjGwf0
担当がクサチュー語の話者だった説
561:名無しさん@0新周年@転載は禁止
14/06/11 07:46:47.58 iwC04BlH0
>>559
本当だww
結構あるんだな
562:名無しさん@0新周年@転載は禁止
14/06/11 08:02:29.51 tkRfxDSz0
>>4
検索で引っかからないように、わざとやったらしいよ。
563:名無しさん@0新周年@転載は禁止
14/06/11 08:02:56.14 aJbBTPOC0
行政がこんなんだから国民から信用されないんだよ。原発の健康被害、景気の展望や年金支給、自殺者の減少、消費税の増税判断。だから
出来るだけ期待せず金使わない。テレビしかなかった時代の方法はもう通用しない
564:名無しさん@0新周年@転載は禁止
14/06/11 08:07:54.25 WiOoQMfX0
自民党の指示での隠蔽工作なんだろうな
565:名無しさん@0新周年@転載は禁止
14/06/11 08:13:44.27 uGehCWD10
知ってて放置プレイは直ちにだね
566:名無しさん@0新周年@転載は禁止
14/06/11 08:15:02.37 JfeQUo9Z0
>>552
アドビプロでOCRしたんじゃね?
567:名無しさん@0新周年@転載は禁止
14/06/11 08:15:47.63 Dwq8QHAE0
まじでこんなカスどもに原発任せてられるのかね
568:名無しさん@0新周年@転載は禁止
14/06/11 08:19:17.00 qJOTdp4A0
漢字の卜なんて滅多に使わない文字なのに、
OCRがこんな文字使っちゃうの?
信じられないなー。
569:名無しさん@0新周年@転載は禁止
14/06/11 08:20:18.09 ZfVSGZfG0
多分、東電幹部の指示か規制庁幹部の悪知恵
この程度なら与党にお伺いをしなくても独断で実行できそうだから。与党主導ならそもそも資料を出さないと思う
570:名無しさん@0新周年@転載は禁止
14/06/11 08:22:30.46 Y0n0YRUN0
OCRソフトが工作員だったとは・・・
571:名無しさん@0新周年@転載は禁止
14/06/11 08:22:47.02 Sxw/CVT/0
>>13
こんなの必死に擁護するお前がキチガイ
それとも利権共有者か?
572:名無しさん@0新周年@転載は禁止
14/06/11 08:25:30.73 Sxw/CVT/0
やっとニュースになったな
これで再稼働とかw
こんな隠蔽ごまかし責任逃れが常態化してる連中にあんな危険な物任せられるわけないだろ。
573:名無しさん@0新周年@転載は禁止
14/06/11 08:28:48.34 kZTEZACL0
全く意味の通らないおかしな文章に成らないで
当て字で意味が通るように変換してるってある意味
優秀なOCRソフトだなw
574:名無しさん@0新周年@転載は禁止
14/06/11 08:32:02.18 6+mLD/yC0
糞OCR使っただけで政府の陰謀扱いかよw
575:名無しさん@0新周年@転載は禁止
14/06/11 08:32:02.03 GrwQN0P60
> 原子力規制庁がWebサイトで公開している資料の1つで、「ストロンチウム」の「ト」と「ロ」が漢字の「卜」(ぼく)と「口」(くち)になっていると指摘され
↓指摘した奴ら
スレリンク(poverty板)
576:名無しさん@0新周年@転載は禁止
14/06/11 08:36:36.02 VaIFPzin0
かなり都合が悪いらしいな
577:名無しさん@0新周年@転載は禁止
14/06/11 08:38:08.83 Pl3UYITp0
どうせまた中国にオフショアした結果だろ。
アイツ等、漢字を生み出した国なのに
意味よりも見た目で書くのな。
まぁその結果が先の消えた年金問題を引き起こしたんだが
うやむやにして誰も責任取らないだろう
578:名無しさん@0新周年@転載は禁止
14/06/11 08:38:48.69 OnhWgY9g0
>検索避けのためにあえて漢字にしたのでは」などと一部ネットユーザーの間で騒ぎになっていた。
当たりでしょ
579:名無しさん@0新周年@転載は禁止
14/06/11 08:40:42.20 25qtr2dE0
OCRって単純な数字すら隣の文字と組み合わせちまう印象だけど
他にもエラーたくさんあるんじゃないか
580:名無しさん@0新周年@転載は禁止
14/06/11 08:41:49.65 ZDKKrhLH0
ブサヨまた負けてしまったん?
581:名無しさん@0新周年@転載は禁止
14/06/11 08:42:02.72 tpqXJ84F0
>>1
>同庁サイトのHTMLにほかに同様な間違いがないかチェックしたところ、見つからなかったという。
ストロンチウムだけ狙い撃ちじゃねーかw
582:名無しさん@0新周年@転載は禁止
14/06/11 08:53:08.50 xVCdfruR0
これ見つけてくれた人に感謝。
こんな姑息な事までしてるとは思わなかったわ。
よっぽど都合悪いんだなw
583:名無しさん@0新周年@転載は禁止
14/06/11 09:10:58.03 Ia+R4ol+0
OCRが馬鹿なのは仕方ないし、よく似ているから目視で見落とすのも仕方ない、というか目視だと普通に読めてしまうから
このデータのアドレスを知っている人には間違っていても特に問題はない、サイト内のリンクをたどれば見れるわけだし
他社の提供する検索サービスをサイトマップ代わりするなんて普通はしないだろ、
サイト内にちゃんとそれぞれのデータへのリンクが有って内容は人間が目視で読める。なら多少誤字があってもいいじゃない
他社の検索サービスなんて関係ないし人間が見て読んだままの言葉で検索した際に候補に上がらないのは
そのような誤字があることも想定した検索エンジンを造らないグーグルの怠慢
584:名無しさん@0新周年@転載は禁止
14/06/11 09:24:01.64 PzLBHVWg0
木白崎刈谷原発とかどんだけ都合の良いOCR
585:名無しさん@0新周年@転載は禁止
14/06/11 09:40:19.67 GkdB98X30
>>25
だってあれは自作自演じゃん
日本人なら100%あんな書き方にはならない
586:名無しさん@0新周年@転載は禁止
14/06/11 09:46:03.77 0w2y0q6H0
つか、この程度なら今の検索エンジンなら拾われるんじゃね?
587:名無しさん@0新周年@転載は禁止
14/06/11 09:53:13.21 I1X2DToC0
これはもう再現実験を公開するしかないよ
そのくらいしないと疑いは深まるばかりだし
同じ条件でやれば簡単だろ?
588:名無しさん@0新周年@転載は禁止
14/06/11 10:05:05.21 7u7yNZ8YO
>>1
今来た用
【速報】原子力規制委員会、報告書内の「ストロンチウム」に当て字を使い検索されないように工作
スレリンク(poverty板)
原子力規制委員会、報告書内の「ストロンチウム」に当て字を使い検索されないように工作★2
スレリンク(poverty板)
原子力規制委員会、報告書内の「ストロンチウム」に当て字を使い検索されないように工作★final
スレリンク(poverty板)
589:名無しさん@0新周年@転載は禁止
14/06/11 10:05:10.99 708jqFrr0
発想とか手段が日本人になりすます人たちに似ている
590:名無しさん@0新周年@転載は禁止
14/06/11 10:06:58.83 6vZmiqic0
そんなミスがあるかボケ
591:名無しさん@0新周年@転載は禁止
14/06/11 10:42:31.91 dC08KMWT0
こんな単純なミスに気がつかない連中が原子力規制委員会など務まるわけがない
と感じるのは俺だけだろうか・・・・
592:名無しさん@0新周年@転載は禁止
14/06/11 11:04:09.65 4TuuzY7Q0
ミスも何も、これは故意にやったんだろ、
事故の時も、PDFで発表せず生データを出せと言っても、
PDFにこだわった連中だ、
593:名無しさん@0新周年@転載は禁止
14/06/11 11:12:47.98 NPCtJ4cf0
水銀 コバルト カドミウム 鉛 硫酸 オキシダン シアン マンガン バナジウム クロム カリウム ストロンチウム
上記の文字列で検索すると、普通のケミカルサイトよりも先にゴジラ映画が…
594:名無しさん@0新周年@転載は禁止
14/06/11 11:25:16.22 7Jvjb/Ev0
OCRソフトメーカー「風評被害だ!」
595:名無しさん@0新周年@転載は禁止
14/06/11 11:32:40.41 c3maaqa30
陰謀だと感じる人は
安保反文寸
原発反文寸
で、検索やれば?中核派だって中木亥派で入れれば出てくるよ。
PDFの検索とは、そういうもの。
596:名無しさん@0新周年@転載は禁止
14/06/11 11:33:50.46 R+6eIJCU0
中国人使ってんのかと思ったらOCRか
良かった良かった
597:名無しさん@0新周年@転載は禁止
14/06/11 11:34:03.72 bWslrQYT0
まぁこれはミスじゃないの
さすがにこれがなにかの陰謀ってことは
598:名無しさん@0新周年@転載は禁止
14/06/11 11:38:47.01 N75Byg3Q0
二ーベルソグソの指輪
599:名無しさん@0新周年@転載は禁止
14/06/11 11:40:51.04 WRKBCT63I
こんな事にまで脊髄反射でスレたてるのは
どうなのよ。
600:名無しさん@0新周年@転載は禁止
14/06/11 11:45:38.83 pglrnvXZ0
スボククチンチウム
601:名無しさん@0新周年@転載は禁止
14/06/11 11:56:13.42 Sxw/CVT/0
>>597
何かの間違いにしては多すぎ
602:名無しさん@0新周年@転載は禁止
14/06/11 12:15:56.09 1B7gd4qKi
おらにカを分けてくれ!!
603:名無しさん@0新周年@転載は禁止
14/06/11 13:54:30.60 UAlctJ8O0
こういうのって検索避けじゃないのかよwww
604:名無しさん@0新周年@転載は禁止
14/06/11 14:32:22.41 Vm767hev0
検索避けになってないのに検索避けってw
605:名無しさん@0新周年@転載は禁止
14/06/11 14:40:16.40 4SBkqtid0
OCRのミスで「ストロンチウム」→「ス卜口ンチウム」はあるかもしれないが、
→「ストロソチウム」だったら故意犯だと思うよ。
606:名無しさん@0新周年@転載は禁止
14/06/11 14:51:11.71 3yLxMK2U0
お前ら、OCRじゃねーよ、「ゼロシーアール」だよ
607:名無しさん@0新周年@転載は禁止
14/06/11 14:53:14.25 4SBkqtid0
OCRの変換精度は最終的には辞書によるんで、
辞書設定をオフるとこんな感じの変換になる。
「東京」や「電力」さえミスるとなると標準辞書もオフってないかなぁ。
608:名無しさん@0新周年@転載は禁止
14/06/11 15:01:37.13 zRg+fFq30
>>607
辞書追加ならわかるが初期設定以外で使う理由が思いつかないが?
609:名無しさん@0新周年@転載は禁止
14/06/11 15:02:06.60 ACKlehk+0
文字認識(OCR)ソフトは
チョン製?
610:名無しさん@0新周年@転載は禁止
14/06/11 15:39:47.08 t7/KGu2i0
原燃時代からそうだけど、一部誤解などもあったかもしれないが、
せこい隠蔽で何度も批判されてるから、またかよって感じが強いんだよね。
611:名無しさん@0新周年@転載は禁止
14/06/11 15:42:48.14 matVxMFc0
今どきのOcRならこんな変換にならないと言っている方々、
ぜひおすすめのOCRと機材環境をおしえてくれ。
昔のA4書類をテキスト化するのに疲れたよ。
Ocrはクソ変換だし。結局手入力したほうがはやいし。
ぜひとも頼む。
612:名無しさん@0新周年@転載は禁止
14/06/11 16:00:59.31 f9ZcyYJ40
プル卜ニウムでも検索できるなw意図的だね
613:名無しさん@0新周年@転載は禁止
14/06/11 16:06:49.78 2gxeW5+J0
おいおい、2chみたいなことやってるのか?ww
口はまだしもトなんて漢字なかなか使わないだろww
614:名無しさん@0新周年@転載は禁止
14/06/11 16:16:14.75 rmnPGOzH0
トト卜ロロ口□、馬鹿w
615:名無しさん@0新周年@転載は禁止
14/06/11 16:24:24.98 Ak9jN/vE0
千円が干円になってる文書を見た記憶がある
616:名無しさん@0新周年@転載は禁止
14/06/11 16:26:57.22 zRg+fFq30
>>611
手入力が早いなら手入力でいいんじゃないか?
あとPDFからわざわざプリントアウトしてOCRでまた読み込むなんて
あほな二度手間をかけるようなやり方は真似しちゃだめだよ。
617:名無しさん@0新周年@転載は禁止
14/06/11 16:28:24.61 A1fqkPCz0
福島原子カで検索すると色々出るねえ
618:名無しさん@0新周年@転載は禁止
14/06/11 16:43:51.92 uAekWQHZ0
OCRがストロンチウムという単語を持ってないとしても前後をカタカナに挟まれた不明な単語を同型の漢字にしちゃうってよっぽど頭の悪いソフトだな。公開しても良いレベル。
619:名無しさん@0新周年@転載は禁止
14/06/11 17:04:41.26 E4/F56IY0
これ政府がチョンじゃねーか?
620:名無しさん@0新周年@転載は禁止
14/06/11 17:07:08.68 vGWNs4BP0
またトン電カ
621:名無しさん@0新周年@転載は禁止
14/06/11 17:09:25.74 0AwqR4sF0
0CR(笑)
牛乳パックの「開け口」の表示を「あけろ」と読むようなものか?
622:名無しさん@0新周年@転載は禁止
14/06/11 17:11:38.15 BPHpaKp30
都合よくそんな間違いするかよクソどもが
623:名無しさん@0新周年@転載は禁止
14/06/11 17:15:58.02 +hdbFPVX0
PDFファイルをテキスト化するのに0CR?
普通にテキスト抽出やコピペできるような
624:名無しさん@0新周年@転載は禁止
14/06/11 18:24:21.92 N/UgsbqQ0
本書の内容で特に印象に残ったのは、閑職に追いやられた電力会社の社員が、
パソコンに向かって原発賛成世論を作り出すために2ちゃんねる等にせっせと投稿させられている、というくだり。
仕事とは言え、本当ならば悲しく哀れな話だと思った。
625:名無しさん@0新周年@転載は禁止
14/06/11 18:55:00.76 fVrzCrM7O
>>621
可愛い
626:名無しさん@0新周年@転載は禁止
14/06/11 19:10:26.57 PT4+54vq0
公的な重要な書類なのに校正もしないのかよ
何度も校正通せば絶対にひとつは見つかるしそこから全部チェックできただろう
いいかげんな規制委員会だなあ
627:名無しさん@0新周年@転載は禁止
14/06/11 19:11:19.49 xNRO62su0
高校物理を習うとv(速さ)とν(振動数)を混同することがある
628:名無しさん@0新周年@転載は禁止
14/06/11 19:27:40.24 zRg+fFq30
高校物理でν使ったっけ?fじゃねーか?
速さは大文字のVだった気もするし
629:名無しさん@0新周年@転載は禁止
14/06/11 22:11:12.21 kPF88itQ0
>>623
ネットで公開してる文書でも、
厚生労働省なんかのpdfは普通にテキストをコピペできるのに、
原子力規制委員会の報告書なんかのpdfはコピペできない
仕様になってたな。 まあ自分の所なんだからそれでも
できるはずなんだがな。
自分の所のpdfをわざわざプリントアウトしてOCR通す謎。
630:名無しさん@0新周年@転載は禁止
14/06/11 22:13:22.57 kPF88itQ0
>>628
光の振動エネルギー e=hν で使った覚えがある。 プランク定数の所。
631:名無しさん@0新周年@転載は禁止
14/06/12 00:28:06.05 9pj2iH6A0
問題を区別しような。
「ス卜口ンチウム」 は PDF へのリンクのタイトル ( html 文書 ) の中に紛れ
込んでたんだろ。たった一行分のタイトルを手で打ち込まないで OCR が吐
いたテキストの中からコピペーしたのかねー。そりゃ手抜き。まあフォント環
境によっては見ても判らんときがある。他に html の中に紛れ込んでた例が
見つからないので、ミスか出來心 ( いたづら ) であろ ミ'ω ` ミ
「原子カ」 「電カ」 の類は G o o g l e の O C R の せ い。画像 PDF または
保護指定された PDF からはテキストデータを抽出できないので、Google が
収集した PDF を仮想的に表示し、画像データを勝手に OCR でテキスト化し、
検索データベースに載せる。検索画面のダイジェストにはそう表示されるが本
文中にそんな文字列は無い。Google OCR の変換精度が低いとの苦情は
Google に言え ミ ' ω`ミ
( ※ まあ、保護 PDF をやめろよー )
632:名無しさん@0新周年@転載は禁止
14/06/12 02:39:32.26 j3uLgXp+0
なんでPDFを直接テキストにしないでOCR使うんだよ
コピーガードかけてないだろ
633:名無しさん@0新周年@転載は禁止
14/06/12 03:56:31.17 QFVFqi9m0
スカ卜口
これでオッケー
634:名無しさん@0新周年@転載は禁止
14/06/12 06:32:50.31 GnIALUPZ0
原発建設に当たって、活断層があるからと建設反対した学者さんを怒鳴りつけて、
無理矢理原発建設させたクズがいたけど、名前思い出せない、だれだっけ?
635:名無しさん@0新周年@転載は禁止
14/06/12 07:00:44.52 0zC9FJLU0
おいおい経産省はIT化推進の
片輪だぜw(総務省・経産省)
一言言おう
これや苦しい嘘
636:名無しさん@0新周年@転載は禁止
14/06/12 07:07:34.58 dj6Gj+hl0
カロ工施設
でググると・・・
637:名無しさん@0新周年@転載は禁止
14/06/12 07:12:00.91 8bEE/sivO
謝って終わり?
638:名無しさん@0新周年@転載は禁止
14/06/12 07:25:15.77 pT5HYh6f0
修正ついでにいろいろ消してんじゃね
639:名無しさん@0新周年@転載は禁止
14/06/12 07:30:34.75 UFgPTap40
そらぞらしい
640:名無しさん@0新周年@転載は禁止
14/06/12 08:32:09.09 M91qAGfz0
カムラのカもOCRのミスだったのかw
誰が信じるかってのw
641:名無しさん@0新周年@転載は禁止
14/06/12 12:07:06.26 QzIcCdjh0
いろいろ混同してる人が多いな
タグとは違い、検索インデックスは検索エンジン=グーグルが、ある程度わざと誤認識させてる。
会議資料一覧からリンク張るには、先にpdfを上げたはず
グーグルやアドビのテキスト変換(OCR)では、誤認識は確認できず
まーOCRは設定しだいで認識率変わるけど
642:名無しさん@0新周年@転載は禁止
14/06/12 12:16:49.67 baEHIZfg0
謝って終わりって言うか
そもそも口クに謝ってさえいない