「コンパイラ・スクリプトエンジン」相談室12

「コンパイラ・スクリプトエンジン」相談室12at TECH

「コンパイラ・スクリプトエンジン」相談室12 - 暇つぶし2ch67:デフォルトの名無しさん
07/12/19 22:55:40
HTTPのRFCを見るとヘッダの文法がBNFで書かれていました。なので、yaccとlexを使えばHTTPヘッダを解析できるかなと思った
のですがlexで入力をトークンに分割するのが難しそうで行き詰まりました。Java等のプログラム言語だと、コメント部分でもない
限りトークンの区切りは空白文字でよいし、+を見たらPLUSとか適当なトークンとして認識すればよいしで字句解析部分はわりと
簡単そうですが、HTTPだと、たとえばAという文字を見たときに、UPALPHAと認識すればよいのか、HEXと認識すればよいのか、
それとも状況(lexの状態?)に応じて、数文字まとめて別のトークンとして認識したほうがよいのか、よくわかりません。UPALPHA
とかHEXというのは、URLﾘﾝｸ(rfc-ref.org) に載ってる終端記号名です。

こういう場合、どう字句解析を行うのがよいでしょうか？どういう細かさのトークンをyaccに上げればよいでしょうか？
練習として、BNF通りのヘッダであればどんなに複雑なものであってもパースできるパーサを作ってみたいのです。

アドバイスをお願いします。

次ページ

続きを表示

1を表示