存在しない漢字を、なぜ入力できるのか？世にも恐ろしい技術的負債の話。【文字コード3】#94

ゆるコンピュータ科学ラジオ

มุมมอง 114 273

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 21 ส.ค. 2024

ความคิดเห็น • 465

@yurucom 10 หลายเดือนก่อน ⁺⁶⁴
【コピペして使って遊んでね】
妛
【参考文献】
◯プログラマのための文字コード技術入門
amzn.to/46c6jqf
【サポーターコミュニティ加入はこちらから】
yurugengo.com/support
【おたよりフォーム】
forms.gle/BLEZpLcdEPmoZTH4A
※皆様からの楽しいおたよりをお待ちしています！
@kettle9265 10 หลายเดือนก่อน ⁺¹
「U+599B」って打って変換してもこの文字が出てくることを初めて知ったわ
Unicodeって変換できるんだ
@ba-el2wl 10 หลายเดือนก่อน ⁺³³¹
妛が有名になりすぎたので忌避されるようになり、代わりに2番目に有名な彁がTH-camでクリシェ化した結果妛が再評価される流れ、興味深い
@kotolabo 10 หลายเดือนก่อน ⁺¹²⁰
07:36 莉翫↑繧薙※縺翫▲縺励ｃ繧､縺ｾ縺励◆縺疑^
@yurucom 10 หลายเดือนก่อน ⁺³⁶
冗談で言ってたらホントに来ちゃって草。誰か解読して！！！！！
@yh9756 10 หลายเดือนก่อน ⁺⁴⁹
@@yurucom
解読しました↓
「今なんておっしゃイましたか^^」です。
@Yune2651 10 หลายเดือนก่อน ⁺¹¹⁶
Wikipediaにも載っているので割とクリシェかもしれませんが、彁がマシュマロというサービスにおいてマシュマロ絵文字に置き換えられる文字として役割を貰ったというエピソードが好きです。
@mozi122 10 หลายเดือนก่อน ⁺¹⁵⁹
「㍻」「㍼」「㍽」「㍾」という年号の合字はそれぞれ U+337B 〜 U+337E に連番に登録されていたのが、新元号の「㋿」はついに空きがなくなり離れた U+32FF に登録された話が個人的には技術的負債！って感じで大好きです。
ちなみに、次の元号の合字が出たとしたら、もう近くにも置けなさそうですw（空きがないので）
@AqueousDroplet 10 หลายเดือนก่อน ⁺¹⁹
㌠が一番意味分からなくて好きです。
負債かどうかも判断できないレベルで意味が分からないですw
@mozi122 10 หลายเดือนก่อน ⁺²⁰
@@AqueousDroplet ㌠はフランの補助通貨単位ですね。これは特に技術的負債ではないと思います！
たしかに、よく変な使い方されますけどね…
@user-mn3fi3qe2l 10 หลายเดือนก่อน ⁺¹⁰
合字の一覧見たら順番にイライラしてしょうがなくなりそうw
@Sakurada.Familia 10 หลายเดือนก่อน ⁺⁴
また、ンの丸囲み文字はそのせいで一生収録されなくなった模様
@J_CHICKEN137 10 หลายเดือนก่อน ⁺⁷⁰
9:42 ことラボ、「りょうさん」か「りょーさん」かが自分にとっては円記号問題以上に悩ましい問題でした。前回のコラボのおかげで「りょー」さんだと判明して安心していたのですが、ここのテロップを見て「りょ」さんだった（Xでもそうなっている）ことに気づいて愕然としています
@kotolabo 10 หลายเดือนก่อน ⁺⁹⁸
ご関心をお寄せいただきありがとうございます。
名称の正式な表記は「りょ」ですが、「さん」などの敬称をつける場合は、「りょさん」あるいは、発音上の自然な変化形である「りょーさん」のいずれも認めています。
ご参考になれば幸いです。
@J_CHICKEN137 10 หลายเดือนก่อน ⁺²⁰
@@kotolabo りょさん自らご返信頂けるとは…
これで安心してテキストでもりょさんの話ができます。ありがとうございました！
@aiueokakikukeko587 10 หลายเดือนก่อน ⁺⁹²
幽霊文字で「彁」がよく出てくるのは、「なぜ収録されたのか理由がわからない」というのが要因の一つなのではと思います
書き間違いや読み間違いなどで間違った文字が新たに存在してしまうことは他のケースでもよく出てくるので、「理由が分からない」という面白みのなさが、逆にユニークであることから、話の面白さになっているのではないでしょうか。
@user-bs9jn6vk3t 10 หลายเดือนก่อน ⁺³²
｢幽霊文字｣と呼ばれているだけに、
なにかいきさつがあって生まれたらしいと分かっているものよりも,どうして居るのか本当に分からないものの方が不気味さや幽霊的な面白さを感じますね
@saya_tsukada 10 หลายเดือนก่อน ⁺¹⁷⁶
手違いによって発生してしまった『妛』について言及すればするほど消去するのが難しくなるの、SCP的怖さがあってとてもいいですね
@user-lh9oj8jd2d 10 หลายเดือนก่อน ⁺⁷
「ゐる」とか的な
@pana-napa 10 หลายเดือนก่อน ⁺²⁶
実はミーム災害を引き起こすオブジェクトで、カバーストーリーとして幽霊文字という扱いにしてる…みたいな笑
@YY-jq7rk 10 หลายเดือนก่อน ⁺⁶
ゐるってそうなんですか、、？
短歌やってる自分はめっちゃ使うんですが、、。
@user-mq1be3zd6s 10 หลายเดือนก่อน ⁺²²
上記の"ゐる"とは、恐らくSCP-161-JPという作品に登場する"伊る"という(読みも示されていない)存在しない動詞の事を指しているのだろうと思われます
@aetos382 10 หลายเดือนก่อน ⁺⁷
佐うです。
@KiyokazuOami 10 หลายเดือนก่อน ⁺¹³⁴
これは歴史的経緯なんだよね。
1. バックスラッシュはASCIIの中でローカライズして良い文字の一つだった
2. エスケープ記号は元々制御コードだった
3. エスケープ記号をキーボードで入力できなかったからUNIX/Cではバックスラッシュに割り当てた
Cを設計した人はローカライズで問題が起こることは想像していなかったのでしょうね。
@mugen_gamelab 10 หลายเดือนก่อน ⁺³
あの面倒臭いのそんな理由だったのか
@jojxi 10 หลายเดือนก่อน ⁺²²
1は前回動画で出てきたISO/IEC 646の交換可能のうちの1字がバックスラッシュで、日本では円マークを割り当てたんですね。日本以外でも各国で別の文字が割り当てられがちです。
Cを設計した人はASCIIのことしか考えてなかったんでしょうけど、それよりも想像力が足りてなかったのは、MS-DOSのディレクトリ区切り記号をよりによってバックスラッシュにしてしまったやつでしょうねぇ。ASCIIだけ使っててもディレクトリ区切り文字がエスケープ文字と重なってしまってダルい。
@user-bp7fy2qp9m 10 หลายเดือนก่อน ⁺⁴³
> 1. バックスラッシュはASCIIの中でローカライズして良い文字の一つだった
ASCII ではなくて、ISO/IEC 646。
> 2. エスケープ記号は元々制御コードだった
ESC(0x1B)のことであれば、これは元々は機械(コンピュータや周辺装置など)を制御するためのコード。後続の文字を修飾するものではありません。
> 3. エスケープ記号をキーボードで入力できなかったからUNIX/Cでは
これは事実ではありません。ESC(0x1B)のことであれば、一般的なASCIIキーボードにはEscキーが存在していますし、^[ で入力も可能です。
> バックスラッシュに割り当てた
バックスラッシュは英文では使われない文字、つまり幽霊文字みたいなものです。ですから、平文中での修飾表現に使うことには一定の合理性があると思います。ただ、
> UNIX/Cを設計した人はローカライズで問題が起こることは想像していなかった
これはおっしゃる通り。
@user-bp7fy2qp9m 10 หลายเดือนก่อน ⁺⁹
@@jojxi MS-DOS は、/ (スラッシュ) をコマンドラインスイッチに使ってしまっていたのが大きそう。もちろん、MSが採っていた非互換政策の可能性もありますが。
@KiyokazuOami 10 หลายเดือนก่อน
@@user-bp7fy2qp9mフォローありがとう
> ASCII ではなくて、ISO/IEC 646。
そうだと思ったけど確認するの面倒だからASCIIって書いてしまった
エスケープシーケンスは制御コードの ESC でした。ESCキーはあったけど機能キーだからそれで文字入力には使えなかったのですよね。
これにヒントを得てCのエスケープ文字ができたのだろうと考えています。
それまでは文字コードを関数で変換して文字列と連結するみたいなことをしていました。
バックスラッシュの是非はおいておいて、Cではエスケープシーケンスで制御コードが表現できるようになったので便利になりました。
@hebihenge 10 หลายเดือนก่อน ⁺²¹
パンチカードの1111…は点字でも同じ作法がありますね。点字は厚紙に点を打って書いていくのでパンチカードの穴と同じくやり直しが効きません。そのため「メ」（6つの点すべてを打つ）を3つ重ねて「メメメ」とするとデリート（無視する）とするそうです。（便宜的なものだそうですが）
@sabak7390 10 หลายเดือนก่อน ⁺⁸⁹
/と\は並ぶと、どっちがどっちだか区別しづらいので、円マークになってる処理系の方が助かる。
正規表現を書くときとか。
@19-885 10 หลายเดือนก่อน ⁺⁵⁸
電流と電子の流れの向きが逆とかいう修正見込みのない物理学のバグ
@早川眠人 10 หลายเดือนก่อน ⁺⁸
お陰で陽子の電荷を＋で表すことが出来て結果良かった
@ayyyyaka 10 หลายเดือนก่อน ⁺¹⁷
πが半径で定められてしまった数学界のバグ
@早川眠人 10 หลายเดือนก่อน ⁺⁵
@@ayyyyaka
円周=直径×πだから直径から決められた。
2πrから積分してπr²になるのは分りやすいのでは？
@ponpoko_jump 10 หลายเดือนก่อน
@@早川眠人
πが6.28…であれば、
オイラーの公式が
e^πi = 1　になるんですよね
@user-of9zh4fu7i 10 หลายเดือนก่อน ⁺⁵
⁠@@早川眠人
せっかく半径基準に書いてるんだから円周は
半径×(真の円周率)
みたいな形で描きたいし、面積については、なにかの2乗に比例するものは
1/2×(定数)×(なにかの2乗)
の形していがちなのでそれにも合わせたい
@kaz-jn7ro 10 หลายเดือนก่อน ⁺³⁴
ガラケーの絵文字をUnicodeに取り込むときも、携帯各社毎に異なる文字の割当や
日本文化に偏ったものばかり入っている部分をどうするかで議論があって負債が残ってますね。
Unicodeにモヤイ像(🗿)はあるけどモアイ像はないとか。
そして海外ではモヤイ像なんて知らないからか、モヤイ像という文字の定義のまま絵だけモアイ像が割り当てられていてさらなる負債が……
@smithken2837 10 หลายเดือนก่อน ⁺³⁰
大学の英語教授で先祖がポルトガル人の移民。先祖がアメリカに渡ってくるときにアメリカ式の綴り字がわからず、適当に港で書いた名前がそのまま登録されてしまい、到底読める綴りではない名前が爆誕した。という教授がいたので、存在しない漢字を使う苗字の方と似てるなと思い出しました。
@すっとんきょー 10 หลายเดือนก่อน ⁺⁷³
妛しみに待ってました！
@bombipap2687 10 หลายเดือนก่อน ⁺²⁹
FORTRANやCOBOLには文字列リテラルのエスケープシーケンスがなく、C言語の前身のB言語のエスケープ文字は'*'であることから、エスケープ文字にバックスラッシュを使うようになったのはUNIX / Cの文化であると考えられる。
そうするとそれ以前に制定されたJIS C 6220(JIS X 0211)で考慮できなかったのは仕方ないのでは？
@Lidy-Shin 10 หลายเดือนก่อน ⁺²³
今技術的負債となっている物のほとんどは「作った時には」優れた設計だったんだよな
@TarisukeAriki 10 หลายเดือนก่อน ⁺²
そのソフトを使う社会のほうが変わっていくのは止められないからですかね・・・
@isamich1535 3 หลายเดือนก่อน ⁺³
それら全部が「優れた」ものであったかどうかは疑問。
@user-eh4cc1wz1n 10 หลายเดือนก่อน ⁺²⁷
彁の元になった文字は彊であるという話がありますね
@-mio-4358 10 หลายเดือนก่อน ⁺¹⁷
13:13 宮沢賢治の「鏡」を4つ並べた字のことですかね
『岩手軽便鉄道の一月』という作品の中で「鏡」と同じ意味で使われているそうです、雄花の花序を4本垂らすハンノキが凍って輝くさまを視覚的に表したものだとか(笹原宏之『日本の漢字』より)
@nandemotsukuruyo 10 หลายเดือนก่อน ⁺¹⁵
「11111111」のくだりは競馬やtotoのマークシートで「取消」欄として
形は違えど今でも現役で使われてますね。
@user-bb6cg5bq6o 10 หลายเดือนก่อน ⁺⁷
9:17　堀本さんの「俺のNotionの台本」が「俺の脳漿の台本」に聞こえてマジで水野さんと脳交換してんのかなと一瞬思ってしまった
@zauberharfe 10 หลายเดือนก่อน ⁺²⁰
始めは 0x24 ($) を日本では yen に割り当てようとしていたが、$ は変えてはいけないということになったため、仕方なく、yen を 0x1C (backslash) に移した、とどこかで読みました（ウラはとってません）。もし、$ と yen が同じコードであったなら、それはそれで、大混乱になっていたことでしょう。
@akikan-jp 10 หลายเดือนก่อน ⁺¹
円と元が同じ記号で通販サイトで問題に
なってましたが$と¥が同じ割り当てなら
同じようになってたんですかね？
@NarrativeWorks 10 หลายเดือนก่อน ⁺¹²
彁はなんとなく不気味な印象を受けるのが幽霊文字という言葉のイメージと合致しているから人気があるんじゃないでしょうか。
@lacolmena1973 10 หลายเดือนก่อน ⁺⁴¹
バックスラッシュ・円記号問題はもとはといえば、前回の動画で説明していた国ごとに勝手に使っていい領域でアメリカがバックスラッシュを割り当てているコードに日本では円記号を割り当てたのが発端のはず。ということはフォルダ区切りやエスケープ記号に韓国では₩を使ったりフランスではçを使ったりしていたのだろうか。
だから、「バックスラッシュと円記号を同じ記号に割り当てた」というのは不正確で、「バックスラッシュの代わりに円記号を割り当てた」が正解。日本のコンピューターではバックスラッシュ記号は扱えなかった。時系列としてもエスケープ記号が使われた最初はわからないがMS-DOSやC言語の誕生よりコード制定のほうが先なので「一緒に割り当てちゃった奴」を責めるのはお門違いで、責められるべきはどちらかというと「国ごとに違う文字が割り当てられているようなコードにそんな重要な意味を持たせちゃった奴」の方だと思う。
@h.n.7422 10 หลายเดือนก่อน ⁺¹⁵
書道学を観た後だと、「文字コードができたのが、明治政府による変体仮名粛清後でよかった～」という気持ちになります。
@早川眠人 10 หลายเดือนก่อน ⁺⁵
変体仮名はUNICODEに有ります。ただ別のコード領域なので良かったと思う。
@jojxi 10 หลายเดือนก่อน ⁺²⁶
26:14 前回 ISO/IEC 646の解説してるのに、\ がその交換可能文字に含まれていたことを調べてないとは、惜しい!
@oboro307 10 หลายเดือนก่อน ⁺²²
「彁」は、字体の気味の悪さと、由来不明という幽霊っぽさがあるので代表は変わらないのではないかと
由来がわかると幽霊というより誤植になってしまうだけなので……
@user-bh3wq6xl6m 10 หลายเดือนก่อน ⁺¹³
点字でも消す時は全凸（ひらがなの「め」）で消すときがありますね。連続で書かないと「め」を打ちたいのか修正なのかわかりませんが。
@ayyyyaka 10 หลายเดือนก่อน
え、それめっちゃ面白い！！
@user-fp4fo6vx9e 10 หลายเดือนก่อน ⁺⁸
13:16　宮沢賢治が「岩手軽便鉄道の一月」で使った、鏡を4つ並べた字のことかな？
@user-gm1zn5og2k 10 หลายเดือนก่อน ⁺⁷
昔、基本情報処理を勉強した時、「￥」をエスケープ文字として使っているのを見て、「なんで￥なんだろう」と思っていましたが、本来は「\」だったのですね。
@irori-citrunte 10 หลายเดือนก่อน ⁺⁵
初歩的なミスなのですが、￥の小文字が\なのだとずっと勘違いしており、自身の浅学さと駄駲さに打ちひしがれるとても閠繚とした回でした！
@kantoheiya 10 หลายเดือนก่อน ⁺⁸
その外観から植物のアケビを山女と書くことがあり、これが合字となって𡚴っていう字になった説を聞いたことがあります
アケビの外観は「アケビ、アケビなに見て開く、下のマツタケ見て開く」というような小唄から連想していただければ・・・
人名の幽霊文字に関しては、動画中にもあるように届出人が書き間違えた事例だけではなく、
役場の戸籍係が書き間違えた事例や、集落内の他家との区分のため敢えて一画追加したり削除したりという事例などがあるようです
祖父が「今」を使いますが戸籍上「山笠にテ」のため電算化された今の戸籍には外字で収録されていました
@mozhigengo9479 10 หลายเดือนก่อน ⁺⁶
非エンジニアの経理部ですが、¥だとバックスラッシュになってしまうし、中国元と区別つかないので、通貨記号などやめにして、ISO通貨コード(JPY, CNY, EUR, USD, GBPなど)に統一した方が良いと思います。
@user-um6ur3py9d 2 หลายเดือนก่อน
(いわゆる)全角￥を自分は使うように気をつけてます。
(いわゆる)半角 ¥ はあまり使わないようにしてる ^^
@yanechan 10 หลายเดือนก่อน ⁺⁵
35:56 「8bitのやつを考えて」とありますが、これは間違いで、ASCIIコードは7bitです。7bit（7桁の2進数）で考えて1111111b、すなわち10進数で言う127がDELに割り当てられております。
@toryskeep 10 หลายเดือนก่อน ⁺²³
111111とよく似ていたので思い出した話です。
点字は1マス縦3×横2の6点なのですが、打ち損じた時は6点全てを打ちます。ただそれでは「メ」と読めてしまうので、3マス連続して「メメメ」と打つことで、間違った文字を消した跡であることを示します。
まるで「メメメ」が「×××」みたいではありませんか？
@kamodomon0913 10 หลายเดือนก่อน ⁺¹
RADWIMPSのDVDに「青とメメメ」という物がありますが、点字ではどのように表現するのでしょうか？
（最初は「実生活では使う機会がないと思いますがメメメはどうしますか？」とお聞きしようとしたら存在してビックリしてますｗ）
お聞きした後に自分でも気づきましたがカタカナでも「このバ✕ヤロウ」と書かれていたら伏字かと思いますが、本当に✕と表示するものだとしたら区別付きませんね。この場合は「伏字ではなく本当に✕と書くんです」と説明するしかないですね。
@toryskeep 10 หลายเดือนก่อน ⁺⁵
@@kamodomon0913様
「メメメ」と書きたい時は、わたしなら一文字ずつスペースを入れますね。
点字はスペースを文節ごとに入れるので、一文にたくさんスペースが入っていても違和感ないし、「メメメ」と書いてあればそこは修正部分でなく「メ」の並びに意味があると伝わりそうです。
@kamodomon0913 10 หลายเดือนก่อน
@@toryskeep 回答ありがとうございます。確かにスペース区切りで伝わりそうですね。
ここからはワザと意地悪な突っ込みをしますが、ご容赦ください。
イマジナリー悪堀元「本当に「メ(スペース)メ(スペース)メ」を表したい時にどうするんですか！」
この考え方が100%の解決策を求めるIT関係者の思考であり、技術的負債にブチ切れる要因の一つになっています。
ブチ切れると言っても負債を理解し諦めた上で対応がメンドクサイから怒るポーズを取ってるだけなんですけどｗ
逆に100%を目指すと「メ(スペース)メ(スペース)メ」のような柔軟で実用に十分耐える方法を見つけられないことにもなりますね。
やはり実際に運用している方の解決策は素晴らしいです。
失礼を恐れずに言うと「頭の良い人だなぁ」と感動しました。
@kamijyo 10 หลายเดือนก่อน ⁺⁶
言語沼の話題になった瞬間に水野さんのテンションがマイナスになった
@taiki7826 10 หลายเดือนก่อน ⁺⁵
エンジニアではないですが
なんで￥使ってるのだろうと思って検索しましたが見つからずこの動画を見て感動しました
@thesaito2721 10 หลายเดือนก่อน ⁺⁵
／と￥の交換の背景を他の方は規格の都合でご説明されていますが…
(マイコンの頃のプログラマならご存知だと思いますが)メインメモリが16~32k(メガじゃなくてキロ)バイトとか時代はマジで「メモリがあと64バイト(キロすらつかないよ)足りない…」なんて事が頻繁にあって、その頃は「フォントに割りててあるメモリは好きに使っていいメモリ」という認識でした(Q.フォントがぐちゃぐちゃになったらどうするの?→A.頑張って対応する)、そんな「文字におおらかで寛容な時代」がこのあたりの問題をうんだ背景なんじゃないかな…と私は思ってます
@highjumptaka 10 หลายเดือนก่อน ⁺⁴
コメント欄を読むと「ローカライズしていい文字コード」の存在が問題にならなかった時代に決められたことが、言語をまたいでデータが交換される時代が来て問題になった、ということなんでしょうね。
堀元さんの説明を聞くと、後者の時代にコンピュータを学んだ人なんだなぁと思うことが度々あります。
@Gadona143 10 หลายเดือนก่อน ⁺²³
前の文字を消すって話で、パソ通時代に「^H」（バックスペース）使ってたのを思い出して懐かしかったw
「余計な^H^H^H^H^H^H暖かい心遣いありがとう」みたいな。２バイト文字の時は２個つける派と１個でいい派があった
@SonodaMai74 10 หลายเดือนก่อน ⁺¹
懐かしすぎて鼻からコーヒー吹きそうになった(^^;
@SazuKokoroP 9 หลายเดือนก่อน ⁺³
彁は彊を新聞で表現した時に活字が潰れて読み取れなかったことが由来……とクリシェだと思ってましたがまさか堀元氏が知らないとは
@GomaQchan 10 หลายเดือนก่อน ⁺¹²
自分は「彁」の「由来不明」というのがそれこそ幽霊っぽくて好きですね
出自や正体の判明している幽霊は怖くありませんから
@ponpoko_jump 10 หลายเดือนก่อน ⁺¹⁸
｢幽霊文字クリシェは『妛』と『彁』｣という認識だったからちょっと心外
幽霊文字の概念がある程度定着した結果、曲のタイトルに敢えて『彁』を使うといった流れが出来てて、人間の創作力の素晴らしさを感じます
それで言うと、太鼓の達人のオリジナル曲｢彁｣のMVに幽霊文字が飛び散るシーンがあるので是非見られたし。
@midoriakibao8726 10 หลายเดือนก่อน ⁺³⁰
元来存在も意味もなかった漢字が、こうして話題として取り上げられて意味やストーリーを伝播されていくことによって、その存在を強固にしていくあたり哲学味があっておもしろい
少なくとも自分にとっては、他のまだ知りえていない実在漢字よりも幽霊漢字の「妛」のほうが実感としての存在を感じる
@すっとんきょー 10 หลายเดือนก่อน ⁺¹⁶
そうか…いまここで「妛」とコメントすることで妛は存在する漢字になるのか…
@rivieramente 10 หลายเดือนก่อน ⁺¹
つまりデカルト味？？？
@coat_of_damocles 10 หลายเดือนก่อน ⁺¹¹
逆に日本円の文脈で"¥"を見て区切り文字だな、と思っちゃうのもエンジニアあるあるなのかもしれない
@chigitakazuhiro7835 4 หลายเดือนก่อน
この間、WindowsのExcelで作った請求書をMacのNumbersで開いたら、¥50が\50に文字化けしていました。
@kumamushi3 10 หลายเดือนก่อน ⁺³
13:55 漢字の話をしてるときに「こんな感じ」と言った堀元さんがセルフツッコミするかと思った
@felix-jp 10 หลายเดือนก่อน ⁺⁹
日本語Windowsだとファイルパスの区切りは¥(円)だけど韓国語Windowsだと₩(ウォン)だね
@q_165 10 หลายเดือนก่อน ⁺²
¥はまだ分かるけど₩でアルファベット区切られると本当に読みづらそうだ
@vzg03566 10 หลายเดือนก่อน ⁺²⁶
23:10 テキストファイルの中の改行として "
" って2つの文字が入っているのではなくて、多くのプログラミング言語の文字列リテラルの中で改行を表すために "
" って書くんですよね。テキストファイルの改行は ASCIIコードの制御コードLF(0x0a)。
@TomoakiNagahara 4 หลายเดือนก่อน ⁺¹
CRはキャリッジリターンですよね？
LFはラインフィードで行送りですよね。
これはタイプライターの名残りだと思ってます。
@user-vw3hn7eb7g 10 หลายเดือนก่อน ⁺⁴
2001〜2年ぐらいに漢字についてインターネット上の記事を読んだりして幽霊文字の話に触れていつかこの謎を解ける日がくるのだろうかって思ってたんですが2006〜8年ぐらいに調査会が発足して解決してたので専門家すげ〜ってなりました
@user-vc7fh9yp8f 10 หลายเดือนก่อน ⁺³
もしかしてExcelの絶対参照記号が$なのも文字コード的理由が…！？と思って調べたところ全然関係なさそうで勝手にがっかりしました
@metalcollar 10 หลายเดือนก่อน ⁺³
水野さんは円マークは全角「￥」で使ってるから気にしていないのかも
「表示される結果」を重視するのか、「内部構造(表現形式)」を重視するのかの問題なのかもしれませんね
「妛」についても、「最終的な表示結果」を重視したための結果なのかも
@renk1310 10 หลายเดือนก่อน ⁺⁶
32:39 41:37 水野さんの発想がギャルすぎて笑
@hipopo_tamagawa 10 หลายเดือนก่อน ⁺³
円マークとして「￥198」と書きたかったんだろうけど、「＼198」みたいな記述が複数並んでる文章を読んだときは混乱した。
@user-cq1kr4kn6o 10 หลายเดือนก่อน ⁺²
仕事でファイルパス見かける時「やたら¥いっぱいあるな〜」と思ってたらそういうことか
全然意識に留めてなかったけど急にフラッシュバックした
@田中舘 10 หลายเดือนก่อน ⁺⁶
疆が当時の印字の技術だと潰れてしまって弓哥に見えたらしいですよ
@boo121314 10 หลายเดือนก่อน ⁺¹
パンチカードで苦労したことはないですが、紙テープの話。当時測定データをテレタイプを通じて紙テープに打つ（穴を開ける）のですが、このテレタイプがスカで、時々明らかな打ち間違いをします。テープは全データでシングルレコード盤（ああこれも死語だ）ほどの巻になるし、連続データなので11111111は使えません。どうするか。間違えた箇所に無地テープとノリで裏打ちします。で、そのための治具を使い、手で穴を正しく開けてやるのですｗ
（補足：この紙テープは、電算機（大型コンピュータ）に食わせてデータ処理してもらうためのものですｗ）
@soumoukukki100 10 หลายเดือนก่อน ⁺⁶
妛については早稲田の笹原宏之先生がフィールドワークした話が面白かった思い出
@ridingHIACEeveryday 10 หลายเดือนก่อน ⁺⁶
11:50 ここ哲学、形而上学みたいで面白い
@kettleegasira 8 หลายเดือนก่อน ⁺²
㌦(ドル)や㌣(セント)のようにタイの通貨の「バーツ」を組文字で入れたかったのに誤って「㌬(パーツ)」をUnicodeに収録してしまった話
@256yayo 10 หลายเดือนก่อน ⁺¹
nimLangはいい。
nim言語はいい。
f(a, b) と a.f(b) が同じで、
echo "Hello" と echo("Hello") も同じ。
演算子のオーバーライドができるし、ASTをいじる強力なマクロがあって、
メモリ管理方法を選択できる上、見た目がいい。
@mudaso-heavy-user 10 หลายเดือนก่อน ⁺⁸
楽しみに待ってました
@tsicsafjapan9371 10 หลายเดือนก่อน ⁺²
たのまち
@user-tq9eg4gg6v 10 หลายเดือนก่อน ⁺⁸
13:16 「濹」のことですかね？永井荷風が小説のタイトルのために作って広まった、隅田川を表す字です。
@EanaHufwe 10 หลายเดือนก่อน ⁺²
画数が多いという点で言うと、宮沢賢治の作品に出てきた「𰽔」(鏡が4つ、U+30F54)がUnicode 13で新しく追加されたものがあります。ことラボさんのあの動画にも登場されました。
@KIKKOMANamawa 10 หลายเดือนก่อน ⁺⁵
11111111（無視する）ってのは現状、技術的負債だと思うけれど
未来の人からしたら、「何の意味があるんだ？え！パンチカード？？いやー合理的な発想」って歴史的資料として使えそう
パンチカードの存在のに負わせと、その時代の合理的な解決策
@efo1187 10 หลายเดือนก่อน ⁺³
言語によって数字の数え方に12進数の名残が残ってたりとかは技術的負債と言えるんだろうか
例.英語のeleven、twelve、〇〇〇〇teen
@seiyas5937 10 หลายเดือนก่อน ⁺⁸
MacOSの場合、
山一女　と入力し、3文字選択して"control+2"で合体文字が作れますよ
（妛だけでなく𡚴も候補で表示されます）
@puranoia 10 หลายเดือนก่อน ⁺¹²
技術的負債と言うかはわからないけど、どの学問にも先人がやっちゃったシリーズはありそう。個人的には円周率を円周率÷半径じゃなくて円周率÷直径にしたのは戦犯だと思ってる。
@aa-iz9eu 10 หลายเดือนก่อน ⁺⁶
電流の向きや生物の命名(トゲアリトゲナシトゲトゲ等)とかももう変えられないでしょうね
ちょっとズレるけどアメリカのポンド法とかも
@ATI_PC 10 หลายเดือนก่อน ⁺¹
キレイなオイラーの公式が汚くなるので、、。
@user-jg4lb7vc3h 10 หลายเดือนก่อน ⁺²
@@aa-iz9eu
トゲトゲはトゲハムシに変わってますね。
トゲナシトゲトゲもホソヒラタハムシが使われるようになりました(例: 日本列島の甲虫全種目録, 2023年)。
意外に生物名(和名)は変更されることがあります。メクラ○○のように差別用語とされた言葉が使われているものなんかが代表的です。
学名は分類の見直しがない限り変わりませんが、和名はその限りではありません。
ちなみにトゲアリトゲナシトゲトゲと正式に命名された昆虫は存在しません。
海外のホソヒラタハムシにトゲがあるものがいて、過去の愛好家にそう呼ばれたことはあるらしいのですが、それは俗称ですね。
@aa-iz9eu 10 หลายเดือนก่อน
@@user-jg4lb7vc3h
おー詳しい方ありがとうございます
これは蘊蓄プルスウルトラですね！
@tsm9635 10 หลายเดือนก่อน ⁺²
非エンジニアです。¥を入力したいのに\が出てきたことがあってイライラしたことがありました。この動画でその謎が解けてスッキリしました。
@user-bs7ph5oz8n 10 หลายเดือนก่อน ⁺³
2:57
昔、出生届を登録する際に、漢字を書き間違えてしまった親戚がおりました。
途中で気付いたため、二重線で消し、隣に正しい漢字を書いて提出したのですが、その書き損じも名前として登録されたようです。
そのため、戸籍謄抄本を取るときなどは、わざと間違えて二重線で訂正した上で正しい名前を書かなければならなくなった…とのこと。
(なお現在、戸籍がコンピュータ管理されるようになり、それはなくなったそうです)
下記間違えから新たに漢字が生まれる、というのは案外よくあることなのかもしれません。
@dhmo1529 10 หลายเดือนก่อน ⁺⁶
言うて彁もガリ版刷りの見辛さのせいで起きた見間違いとか言われてたような
@user-ey1ou9uw7p 10 หลายเดือนก่อน ⁺⁴
教科書には「
」って入力しろって書いてあるのにどうやっても「¥n」になっちゃう…どうして…
って経験は誰にでもあったと思う
初学者の頃は誰でもやる
@tambaren 10 หลายเดือนก่อน ⁺¹⁰
Windowsのファイルパスを¥に割り当てたことで
「お金が気になる」というより「なんでエスケープコードと同じもの割り当てた」と文句を言いたい
フォルダ名の最初にに"n"が入っとると
改行コード"
"と被るんじゃ
水野さんのいうURL・MacOS・Linuxは / 区切りだし……
@早川眠人 10 หลายเดือนก่อน
MacOS X以前のHFSではパス区切りは:(コロン)でした。ファイル名に時刻が書けなくて泣く。
@KiyokazuOami 10 หลายเดือนก่อน
MS-DOSの前身になったCP/Mにルーツがあるらしいですよ
CP/Mではコマンドラインのオプション指定に/を使っていたから、MS-DOSでUNIXを真似してサブディレクトリを実装したときに問題が出てしまってディレクトリセパレータに\を使ったとのこと
@sukerutulo 10 หลายเดือนก่อน ⁺⁴
間違った「オッカムの剃刀」の使い方といえば、友人が「水は低きに流れる」の意味で使っていたのを思い出しました。
@caffrat 10 หลายเดือนก่อน ⁺²
彁の知名度は某和太鼓リズムゲームも関係ありそう
@AS-jm3yp 10 หลายเดือนก่อน ⁺⁴
ニセ山女の発生原因は思いきり幽霊漢字クリシェだと思ってた。
ゆみかかは疆みたいな字が潰れてそう見えたんじゃねぇかなぁ〜〜くらいには言われてるけど特定できていない。と何かで見かけたな。
@user-ck8hv9el1r 10 หลายเดือนก่อน ⁺⁸
¥と\が区別つかないの、そういうことだったのか…
サンプルコードくん「¥¥こうするとコメントアウトになります」
ワイ「¥マーク出せないよ〜(泣」
Google先生「¥と\は同じです」
ワイ「なんでだよ」
あるある
@shoueda-pk3lv 6 หลายเดือนก่อน ⁺¹
13:10 宮沢賢治が鏡を4つくっつけた漢字を自身の著作で用いた話…？
@aa-uy3un 10 หลายเดือนก่อน ⁺¹⁰
尻の九が丸で先祖が書き損じた例って、斎藤さんが散々間違われまくっていっぱいできたのと同じだよな
(サイトウさんは元々斎藤さんだけだった)
@hanatomar 10 หลายเดือนก่อน ⁺¹
名前は書き間違いで出来たものは沢山ありそうですよね。昔は、もちろん戸籍も手書きだったので、役所の人や本人が書き間違えていたら、そのまま使われるようになりますもんね。
@midoriakibao8726 10 หลายเดือนก่อน
「ワタナベ」さんの旧字体シリーズもそうですね
データの管理、運用目線だと本当に面倒ですけど、発生した当時の様子とかを想像するとおおらかでいいなー、ってちょっと思っちゃいますねｗ
@aa-uy3un 10 หลายเดือนก่อน
@@hanatomar
「昔」といいつつ、近年でも漢字間違いでの名前(戸籍)登録はありますよね。
新しい漢字ができることは少ないでしょうが。
他のTH-camrさんで恐縮ですが、QuizKnockのふくらPは御両親は普通の「拳」で提出したけれど、事務方が上の点々が「八」向きの異字体で戸籍を登録したとか。
@hikarin573 10 หลายเดือนก่อน ⁺¹³
pythonとjavaでそれこそ互換性で軽い論争やってたからタイムリー過ぎる
@tenrai3065 10 หลายเดือนก่อน ⁺³⁵
23:57 バックスラッシュは通常の文字列であまり使わないからエスケープ記号とされたんですけどね。
そもそも、バックスラッシュを割り当てた0x5Cはローカライズの際に変更できるエリアでした。
バックスラッシュをエスケープ文字やパスの区切りに使用したのは、システム側の問題です。変更の可能性がある文字コードを割り当てたやつがバカだったとも言えます。
ところで、日本の文字コードで一番大きな技術的負債は半角カナでしょう。言及されないことにちょっと違和感。
@kuma056 10 หลายเดือนก่อน
技術者泣かせの「半角」カナですねぇ。
・8ビット1文字でASCII128文字を除いた部分に入れるために、カナだけを採用した
・8ビット2文字で1文字の「全角文字」を表わすというアイディアが生まれたが...
・1文字カナをそのまま残した「シフトJIS」が生まれた。
　　が、1文字カナを避けるために、JISの文字コード表と2バイト文字との変換計算が複雑に。
・EUC-JPは1文字カナとの互換性を捨てた。
　　が、その結果「半角カナばかりのシフトJISの文章」と「EUC-JPの文章」の自動判定が困難になった。
　(また、EUC-JPにも半角カナがあるけど、実際に対応しているソフトが少なく、使おうとすると文字化けが起こったり、最悪クラッシュすることもあった)
・Unicodeは半角カナを残したが、シフトJISとの互換は捨ててたため「1バイトカナ」では無くなった
@user-um6ur3py9d 2 หลายเดือนก่อน ⁺¹
全角スペースもなぁ。。。
極力使わないようにしてます。設定できるfepでは半角スペース使うよう設定してます
@user-um6ur3py9d 2 หลายเดือนก่อน
全角 ↔️ 半角っちゅう表現もあれだが。。。。
印刷業界用語らしい
@0hhigh 18 วันที่ผ่านมา
0x5C　も呪いが掛かっている
@akinaka7543 10 หลายเดือนก่อน ⁺¹
20:44 「テキスト(エディタ)」回、期待します！！w
@jsuzu 10 หลายเดือนก่อน ⁺³
UNICODEの歴史であれば、CJK統合漢字の悪魔合体とハングルの大移動はぜひ語って欲しいです。
@user-lx9ju2qc5k 10 หลายเดือนก่อน ⁺²
13:12 宮沢賢治が創作した「かがみ(鏡を4回書くやつ)」かな？
@reydesol 10 หลายเดือนก่อน ⁺¹
\と¥は割り当てられる文字数に限界があってそれだと文化によって困るからいくつかの文字を置き換えれる規格になってたので日本だと¥にした
だからヨーロッパだと€になってたりした
気がするけど間違ってるかもしれない
@multifeb13 10 หลายเดือนก่อน ⁺¹²
あの出来事がまさか、次回のために用意された壮大な伏線だったとは。
@sususu6411 10 หลายเดือนก่อน ⁺¹
次回めっちゃ楽しみ！
@emolta9887 10 หลายเดือนก่อน
ファイルパスで￥が出てくる小さなが解決してすっきりした～
@chumatsuz1758 10 หลายเดือนก่อน ⁺¹
異体字も変体仮名もある意味技術的負債のカタマリみたいなものですね。コンピュータフォントが今ほど文字数が無かったころ、偏と旁をバラして作字した経験がある人は「山一女」の逸話を見ると苦笑いしてしまいます。
@NSOAHC 10 หลายเดือนก่อน ⁺⁴
パンチカーダー・・・もとい、カードパンチャー（仮）は、まだ現役でやっているところがありそうです。
１０年前ぐらいに勤めていた会社の別部門に、専属部署があったみたいです。
まだ存続してるんかなぁ・・・。
@masahase0117 10 หลายเดือนก่อน ⁺¹
メンテされてない古い手順書だと、入力依頼票に記入の上キーパンチ部門へ送付するとか未だに記載されてますね。実際ちょっと前まで古い汎用機上の購買システムを使うのにそれに従って、エクセルで入力依頼票作って印刷後押印の上、社内郵便で原紙をその部署に送ってコピーを手元に保管して何か有ったときに手元のコピーと付き合わせるとかやってました。
導入当時は依頼票に従ってパンチカード作って夜間バッチで入力とかしてたんだろうなと思いを馳せてました。末期はそんなことをバッチでやる必要はなくオンラインのリアルタイム入力のはずですが、仕組みを変えず続いてましたね。
@user-if5ec2jr1r 10 หลายเดือนก่อน ⁺¹
大昔の機械使っているところはいまだにパンチカードです。仕事でワイヤカット加工機使ってましたがパンチカード入力でしたね。機械のカバー空けてみたらi8080が使われてました(笑)。機械によってはフロッピーディスク入力に変えられるようですが、そのフロッピーディスクもほぼ化石。今はもうほとんど社内ＬＡＮ。
@takashikatou9676 10 หลายเดือนก่อน ⁺³
マジレスするとパンチカードを打ち込む人たちはキーパンチャーですね。
@inacpan6706 7 หลายเดือนก่อน ⁺²
@@takashikatou9676キーパンチャーは卑語ではないのに当事者でなければキーオペレーターと言い換えられます。
@roadevery9434 10 หลายเดือนก่อน ⁺¹³
「𡚴」の誤記の「妛」はクリシェだと思ってた
@user-tg7ke4ur6g 10 หลายเดือนก่อน ⁺²
堀元さんまたディストピア作ろうとしてて草
@GamingMugicha 9 หลายเดือนก่อน ⁺²
彁は彊の誤認とも言われていますね
@YO-ot4uu 10 หลายเดือนก่อน ⁺⁵
ωを鼻だと思っててびっくり。口のイメージでした(´･ω･`)
@user-yq3pz7pu8x 2 หลายเดือนก่อน
29:10 「同じ出来事を説明するのに、置く仮定は少ないほうがよい」…前回の堀元さんの反省？=これがけんちゃんの剃刀？😂
@UberUbrigens-id1qh 10 หลายเดือนก่อน ⁺¹⁷
他の顔文字でも目・口・目なのでωは鼻じゃなくて口でしょう('ω')
オッカムの剃刀は文理どちらも関係する話題だと思うので、ぜひメインで取りあげてほしいです！
@his58enc8odk310 6 หลายเดือนก่อน ⁺²
2:28
斎藤という名字の斎の字が何種類もあるのは書き間違いが原因だって確か前に日本人のおなまえって番組で言ってたっけ。
元々は同じ漢字だったのに、明治になって国民の戸籍を作るために自分の名前を書いて役所に出したのだけど、当時は字を書けない、または書く習慣が無いために自分の名前の漢字でさえ間違える人が大勢いたそう。
その間違えた漢字のまま戸籍に登録されたもんだから、それが結果的に正式な漢字として定着したとか
@isamich1535 3 หลายเดือนก่อน
実際に字を書いた役所の戸籍係のせいですよ。
@tambaren 10 หลายเดือนก่อน ⁺⁵
さいとうの「さい」の字も誤記が元だという説がありますが
それと似ていますね　齋　斉　斎　齊
@ahosaka 10 หลายเดือนก่อน ⁺⁵
職場のわたなべさんがみんな字が違っててめちゃ面倒でした
渡辺?　渡邊?　渡邉?　と思わせての　渡部とか　実は　わたべさんだったり
@ダレカサン＿イラスト 10 หลายเดือนก่อน
ひらがなでさいとうと見ると、某イラストレーターを思い出してしまう...
@早川眠人 10 หลายเดือนก่อน ⁺²
平仮名のさいとうさんだと「さいとうたかを」が真っ先に思い浮かぶ。ギネスに載った人だし。
@LandMark291 หลายเดือนก่อน
4:33
苗字は地名から来てるものが多いから、そこはごっちゃになるのは当然ですね！
あけんばら→𡚴原　出て来るね😅💦
@yottan_nottan 10 หลายเดือนก่อน ⁺⁴
研究畑にいるせいか、「わからない」が一番面白く感じる。
@dddorayak21 10 หลายเดือนก่อน ⁺³
金額の頭にバックスラッシュがあるのはわりと見かけた覚えがある