コンピューターで全漢字使用可に 6万字コード化 | NHKニュース
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、こ…
記事によると
・コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要があるが、日本語の漢字でコードが割りふられているのは1万字だけで、コードが無い「外字」は、戸籍で使われているものをはじめおよそ5万字に上っている
・しかし、IPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つにコードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録された。
・コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要があるが、日本語の漢字でコードが割りふられているのは1万字だけで、コードが無い「外字」は、戸籍で使われているものをはじめおよそ5万字に上っている
・しかし、IPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つにコードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録された。
サイトウの「サイ」だけでこんなにある
この話題への反応
・
・これで各フォントが対応してゆけば、外字による問題も時間の問題と言うことですね。
・ようやく上が土の吉が普通に打てるようになるのか。(;・∀・)
・これで草なぎ剛(なぎは弓へんに剪)と書かれることも無くなるのか?
・草彅剛 昔は変換できなかったのに!
・旧字まで行けるのか 長いことかかったけど旧字を使わなくする方法を取らないことがアレなのかどうなのかは、また別の話で…
・ようやくほとんどの漢字がまともに扱えるようになったようです。今までは外字登録などで誤魔化してきましたからね。もっと早く出来なかったのかとも思いますが、めでたいニュース!
・遅すぎ、なんでコード割り当てる作業に15年もかかってんだよ
・レアな漢字とかなくなればよかったのに アホくさ
・戸籍などにたまたま記されただけの異字体をすべて認めるべきだという発想はまちがいではないか。
15年て、ずいぶん時間かかったね・・・
. . : : : :: : : :: : ::: :: ::: ::: | ニンテンドースイッチ買取価格 | .: :
. . .... ..: : :: :: :::::::::::::: : | 34,000円(3月19日現在)| .
Λ_Λ . . . .: : ::: :::: | ┌──↓─────────┐. .
ノ:彡ミ゛ヽ;)ー、 . . .: : | | 42,000円(7月26日現在)|::
ノ :::ノ:: ヽ、ヽ、 ::i . .:: :.: : | |┌───↓─────────┐
ノ :::ノ;;: ヽ ヽ ::l . :. :. | | | 24,000円(今現在) |
 ̄ ̄ ̄(_,ノ  ̄ ̄ ̄ ̄ヽ、_ノ  ̄ ̄ ̄ ̄ ̄ ̄└ └─────────────┘ ̄ ̄
新品価格(32,378円)
殺人未遂の疑いで逮捕されたのは、深谷市の無職・田嶋市郎容疑者(92)。警察によると田嶋容疑者は23日午後5時ごろ、同居する長男で無職の栄一さん(65)が、酒に酔って帰宅し、玄関で寝込んでいたところをハンマーで頭を数回殴り、殺そうとした疑いが持たれている。栄一さんはその後、搬送先の病院で死亡した。
調べに対し田嶋容疑者は、「日頃の生活態度に憤慨し、息子を殺そうと思い、ハンマーで数回殴った」と容疑を認めているという。
田嶋容疑者は去年、栄一さんの生活態度について警察に相談していたという。
感動
まったく無駄!
17万字の漢字使える今昔文字鏡っていうソフトがあるからな
それに比べれば全然足りない
最近見ないがどうしたの?
クビになった?
対応させるじゃなくて廃止でいい
ブラウザとかエディタには曖昧検索を付けてほしいところ
だいたい日本語に使われる漢字が6万字とかどういう根拠で定めたんだよ
諸橋の大漢和辞典の収録文字6万字にそのままコード振っただけなんじゃないのか?
すでにJISがそうだけど崎と﨑の区別つけることに宗教的な理由以外の意味あんの?
書写時代のフリーで微妙な字体の差までコード化していったらそれこそ無限に字数が膨張するんだが
Tフォントでググれ
東大明朝という呼び方もあるように税金つぎこんでつくられてる
ありがとうございましたww
企業でよく使われるWindows7+Outlook2010の組み合わせは
それ以外のOS、メールソフトに送信すると文字化けする
既定のIMEにされてるからすげー迷惑
むしろ統一する方向に進めた方がよくね?
まあ未来へ残していきたいって気持ちもわかるんだが…
男からも女からも嫌われてて可哀想
失礼だとか何とか猛烈にクレーム付けてくる人
いるしねぇ・・・(案の定年配者に多い)
雲
雲龍雲
龍 龍
完了云々よりもよく15年も続けてられたと驚くレベル
官僚のバカ者共は税金でデーター集めてとっくに答えが出てる案件を10、20レベルで延々と進まないままなんてザラというかその方が多い。そして議員のせいにしてるんだからお気楽なエリートさんだよ。
官僚なんて予算だけ付けてりゃいいのに事業なんて出来るわけないんだよね。永遠のド素人なんだから。
読みはデルタフォーメーションである
もう英語が標準語でいいよ
前に歴史の教科書で暗記がどうのっつー話が出てたけど、こっちの方がよっぽど害悪だわ
英語くらいシンプルでええねん
そんなに文字があって全部覚えられるわけねーじゃん
アルファベットなら完璧に覚えられて絶対に忘れない
日本ローカルな戸籍漢字中心の文字セットを独自に作るとかくそ馬鹿げてる
これ学術的にはほとんど意味ないのに文字規格を海外主導のUnicodeに任せておいたら日本の漢字文化が破壊されるとか一部の連中が大騒ぎして国費から予算取ったけどこんなのに10年以上かけるとか本当無駄の極み
べつに「俺の渡邉の邉は本当はすこし字形が違う」とかべつにそれはいいんだけど行政の電算処理としては邉は辺に統一して常用漢字に包摂するぐらいのことをしてしまわないとデータマイグレーションとかで無駄にエラーのリスクやコストが跳ね上がるだけやで
せっかくファーストネームの方は常用漢字+人名用漢字に制限してるんだから姓の方も適当にまとめてしまえよ
どうせ今のJISにないやつはJISにある方の正字でワープロ打ちしてきたんだろ?
一つの文字に30もの書き方があるのか
余が中華を統一したらそんなものは廃止じゃ
1つにまとめるぞ
こんな無意味なことばかりしてるから日本はどんどん衰退していく
住民情報系のシステムでは文字コード周りで個々は大したことがないけれど、連携などで必ず考慮が必須となるので全体では莫大なコストが発生してる。
変換時に外字や文字コードを気にしなくて済むようになれば、システムの費用が相当抑えられるので統一規格の需要自体はある。(ただし、その採用は難しい)
住基ネットや戸籍の電算化の時に正字化を行ったのだけど、住民(国民)の反対で結局一部は残存外字として残ることになった。このうちよほど特殊なもの以外を内字化してしまおうという試みだろう。
(続く)
今の住基ネット明朝がこれに対応したバージョンに置き換わって行くぐらいかな。
単にコードを割り当てるだけじゃなくUnicodeのIVSの仕組みを使ってデータ的にも異体字として扱えるように割り当てたと思うけれど、問題はIVSの存在すら知らないシステム屋が少なからず居ること。(特に運用寄りの人)
サロゲートペア辺りの従来のUnicodeの知識があれば、何も難しいことはないのだけど。
異字は常用漢字に統一すべき
こっちの方が多い
128画
田田田田
回回回回
田田田田
田田田田
回回回回
田田田田
>今の住基ネット明朝がこれに対応したバージョンに置き換わって行くぐらいかな。
自分で補足。
昔の住基ネット明朝は2万文字ちょっとだったはずだけど、今は6万文字程度扱えるらしいから、まさに住基ネット明朝でやってた事かも。
その時に整理した結果を国際規格のIVD(IVSで選択できるコード表)として提出したというニュースかな。これによってUnicodeのIVSで日本語の異体字を使用する際の標準的な割り当て表になる。
中国人のスパム攻撃が捗るようになるだけだよ。
たとえば線の長さが違ったり、線の終わりを止め、はね、伸ばす、左・右に流す・・・といくらでも変化出来て、それを別漢字だと主張すればそれが通る文化だからね
最近のUnicodeは古代文字まで登録されるカオスっぷりだからな
文字ですらない絵文字もある以上、異字体を登録する程度のことで騒ぐほどではない
六万とか一ヶ月以内でやれよ…
だれが斉の字をあんなに使うんだよ。覚えられねぇし
JISの範囲内でもやばいのにコード当てはめるだけで15年かかる奴とかもう実質無理やん
6万種類もあったらそりゃフォントなんかつくってられないわ
こいつら労働生産性低すぎだろ
凝った人形アニメだって1日20コマは撮影出来るぞ
漢字のバリエーションなんかほとんどが各人が勝手に付け足して行った結果で、意味なんか無いだろ
変換時に無駄に読み込みが重くなっても困るような…
お疲れ様ですよ
26文字ですべてを表現できるアルファベットとは比ぶべくもない
調べたら激レアネームだったw
その名前は結構前から変換出来てたよ
それサロゲートペア使ってでしょ。
UTF8使えば良いじゃん。
グループ全体で1万人ぐらいいる企業だから社員検索機能あるんだけど高橋だと引っかからなくて髙橋だと引っかかるとかさ
本人にとっては朗報なのかも知れんがそれ以外にとっては悲報なんだよね
そんなのが多いけど、別の漢字というより昔の人のただの誤字のような気がする
IVSの仕組みを使ってるから、プログラム側がちゃんと考慮するようになれば、検索時は異体字は全て同じ字として見做すって処理が簡単に作れるんだけどね。(異体字を示す拡張部分を無視すればいいだけ)
そもそもIVSはそれが出来るように作られた仕組みなんだから。
IVSをちゃんと考慮したプログラムは本当少ないけどね。