# 文字列

## 基本
文字列はシングルクォーテーション（`'`）、またはダブルクォーテーション（`"`）で囲む。代入文により、変数に文字列への参照が代入される。なお、C言語における文字型`char`に相当するものはない。

In [1]:
s = 'stress'

In [2]:
s

'stress'

In [3]:
type(s)

str

文字列の長さ（文字数）は`len`関数で取得できる。

In [4]:
len(s)

6

文字列は[ユニコード文字列](https://docs.python.org/ja/3/howto/unicode.html)として表現されているため、日本語の文字列も問題なく表現できる。

In [5]:
s = 'ストレス'

In [6]:
len(s)

4

空文字列は`''`や[str](https://docs.python.org/ja/3/library/stdtypes.html#str)関数で作成できる。

In [7]:
s = ''
s

''

In [8]:
s = str()
s

''

## 特殊文字や複数行にわたる文字列

文字列において、`\`は`\n`（改行文字）や`\t`（タブ文字）などの特殊文字を表現するためのエスケープ・シーケンスと解釈されるため、文字通りの解釈にはならない。

In [9]:
s = 'C:\Users\okazaki'

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape (1140256298.py, line 1)

`\`を文字として表現するには、`\\`とする。

In [10]:
s = 'C:\\Users\\okazaki'
print(s)

C:\Users\okazaki


文字列の先頭に`r`を書くことで、`\`がエスケープ・シーケンスの一部と解釈されず、文字通りに解釈される（raw string）。

In [11]:
s = r'C:\Users\okazaki'
print(s)

C:\Users\okazaki


文字列の中に`'`を含めるには、文字列全体をダブルクォーテーション（`"`）で囲んでおくとよい。

In [12]:
s = "stress's"
s

"stress's"

シングルクォーテーション（`'`）で囲まれた文字列の中でシングルクォテーション（`'`）を含めるには、エスケープ・シーケンス`\'`を使う。

In [13]:
s = 'stress\'s'
s

"stress's"

複数行にわたる文字列を定義するには、`"""`を用いるとよい。

In [14]:
s = """先頭行
2行目
3行目"""

In [15]:
print(s)

先頭行
2行目
3行目


In [16]:
s

'先頭行\n2行目\n3行目'

## 数値と文字列の間の変換

数値から文字列への変換には[str](https://docs.python.org/ja/3/library/stdtypes.html#str)関数を用いる。ただ、ひとつの数値を文字列に変換するだけでなく、他の数値や文字列を一緒に文字列として表現するには、後述するフォーマット文字列が便利である。

In [17]:
x = 10
s = str(x)
s

'10'

In [18]:
x = 3.14
s = str(x)
s

'3.14'

文字列から数値への変換には[int](https://docs.python.org/ja/3/library/functions.html#int)関数を用いる。

In [19]:
s = '10'
x = int(s)
x

10

In [20]:
s = '3.14'
x = float(s)
x

3.14

数値から2進数形式の文字列への変換には[bin](https://docs.python.org/ja/3/library/functions.html#bin)関数を用いる。

In [21]:
bin(255)

'0b11111111'

数値から16進数形式の文字列への変換には[hex](https://docs.python.org/ja/3/library/functions.html#hex)関数を用いる。

In [22]:
hex(255)

'0xff'

## インデックス、スライス

文字列中の$i$番目（先頭は$0$番目）の文字を取り出す。

In [23]:
s = 'stressed'

In [24]:
s[0]

's'

In [25]:
s[1]

't'

文字列の範囲外の文字を取り出そうとすると、エラーになる。

In [26]:
s[8]

IndexError: string index out of range

末尾の文字を取り出す。

In [27]:
s[len(s)-1]

'd'

負のインデックス$-i$は、文字列の末尾から数えて$i$番目の文字を取り出す。

In [28]:
s[-1]

'd'

In [29]:
s[-3]

's'

その他、スライスの使い方はリストと同様である。

In [30]:
s[0:3]

'str'

In [31]:
s[:3]

'str'

In [32]:
s[6:]

'ed'

In [33]:
s[:-2]

'stress'

In [34]:
s[-2:]

'ed'

In [35]:
s[:6:2]

'srs'

In [36]:
s[::2]

'srse'

In [37]:
s[::-1]

'desserts'

文字列は不変なオブジェクトであるため、その要素は変更することはできない（{ref}`ch:immutable`を参照）。

In [38]:
s[3] = 'a'

TypeError: 'str' object does not support item assignment

## 文字列に対する操作

In [39]:
s = "https://www.nlp.c.titech.ac.jp/search?q=Natural+Language+Processing"

小文字への変換。

In [40]:
s.lower()

'https://www.nlp.c.titech.ac.jp/search?q=natural+language+processing'

大文字への変換。

In [41]:
s.upper()

'HTTPS://WWW.NLP.C.TITECH.AC.JP/SEARCH?Q=NATURAL+LANGUAGE+PROCESSING'

文字列の置換。

In [42]:
s.replace('search', 'find')

'https://www.nlp.c.titech.ac.jp/find?q=Natural+Language+Processing'

指定した文字列が最初に現れる場所（インデックス）を返す。

In [43]:
s.find('/')

6

In [44]:
s[:6]

'https:'

In [45]:
s[6:]

'//www.nlp.c.titech.ac.jp/search?q=Natural+Language+Processing'

指定した文字が見つからない場合は`-1`を返す。

In [46]:
s.find('html')

-1

指定した文字列が最後に現れる場所（インデックス）を返す。

In [47]:
s.rfind('/')

30

In [48]:
s[:30]

'https://www.nlp.c.titech.ac.jp'

In [49]:
s[30:]

'/search?q=Natural+Language+Processing'

指定した文字（`'+'`）で文字列を分割し、リストで表現する（なお、`s[40:]`は`'Natural+Language+Processing'`である）。

In [50]:
v = s[40:].split('+')
v

['Natural', 'Language', 'Processing']

リストの要素を指定した文字（`'/'`）で連結する。

In [51]:
t = '+'.join(v)
t

'Natural+Language+Processing'

リストの要素を指定した文字（`', '`）で連結する。

In [52]:
', '.join(v)

'Natural, Language, Processing'

リストの要素をそのまま（空文字で）連結する。

In [53]:
''.join(v)

'NaturalLanguageProcessing'

先頭もしくは末尾に指定した文字（複数指定可）が付いているとき、それを取り除く。

In [54]:
s = '  one, two, three, '

In [55]:
s.strip(' ')

'one, two, three,'

In [56]:
s.strip(', ')

'one, two, three'

末尾に指定した文字（複数指定可）が付いているとき、それを取り除く。

In [57]:
s.rstrip(' ')

'  one, two, three,'

In [58]:
s.rstrip(',')

'  one, two, three, '

In [59]:
s.rstrip(', ')

'  one, two, three'

先頭に指定した文字（複数指定可）が付いているとき、それを取り除く。

In [60]:
s.lstrip(' ')

'one, two, three, '

In [61]:
s.lstrip(',')

'  one, two, three, '

In [62]:
s.lstrip(', ')

'one, two, three, '

## 文字列に対する条件

In [63]:
s = "Tokyo Institute of Technology 2020"

文字列の一致。

In [64]:
s == 'TokyoTech'

False

文字列の不一致。

In [65]:
s != 'TokyoTech'

True

辞書順による文字列の比較。

In [66]:
s < 'Tokyo Tech'

True

In [67]:
s > 'Tokyo Tech'

False

部分文字列を含むか。

In [68]:
'Tokyo' in s

True

部分文字列を含まないか。

In [69]:
'University' not in s

True

指定した文字列で始まるかどうかチェックする。

In [70]:
s.startswith('Tokyo')

True

In [71]:
s.startswith('Institute')

False

指定した文字列で終わるかどうかチェックする。

In [72]:
s.endswith('2020')

True

In [73]:
s.endswith('Technology')

False

（すべてが）大文字か。

In [74]:
s.isupper()

False

In [75]:
s[0].isupper()

True

In [76]:
s[1].isupper()

False

（すべてが）小文字か。

In [77]:
s.islower()

False

In [78]:
s[0].islower()

False

In [79]:
s[1].islower()

True

（すべてが）空白文字か。

In [80]:
s.isspace()

False

In [81]:
s[0].isspace()

False

In [82]:
s[5].isspace()

True

（すべてが）アルファベット文字か。

In [83]:
s.isalpha()

False

In [84]:
s[:5].isalpha()

True

In [85]:
s[:6].isalpha()

False

（すべてが）数字か。

In [86]:
s.isnumeric()

False

In [87]:
s[-4:].isnumeric()

True

In [88]:
'七十七'.isnumeric()

True

In [89]:
'七十七銀行'.isnumeric()

False

## フォーマット文字列

In [90]:
year = 2020
month = 'December'
date = 9
hour = 9
minute = 15
second = 43.3

### printf形式の文字列書式化

C言語風の[printf形式の文字列書式化](https://docs.python.org/ja/3/library/stdtypes.html#old-string-formatting)は、`%`演算子で利用可能。ただし、Python 3ではあまり推奨されていない。

In [91]:
'%s %d, %d' % (month, date, year)

'December 9, 2020'

In [92]:
'%02d:%02d:%02.03f, %s %d, %d' % (hour, minute, second, month, date, year)

'09:15:43.300, December 9, 2020'

### 書式指定文字列

Python 3では、[書式指定文字列](https://docs.python.org/ja/3/library/string.html#format-string-syntax)（[str.format](https://docs.python.org/ja/3/library/stdtypes.html#str.format)メソッド）が用いられる。変数の値を文字列として埋め込みたい箇所を`{}`で囲う。値の型を指定しなくてもよい。

formatメソッドの引数の位置に応じて文字列に埋め込む。

In [93]:
'{1} {2}, {0}'.format(year, month, date)

'December 9, 2020'

In [94]:
'{2} {1}, {0}'.format(year, month, date)

'9 December, 2020'

引数の位置の指定を省略し、引数の先頭から順に`{}`を埋める。

In [95]:
'{} {}, {}'.format(month, date, year)

'December 9, 2020'

引数に名前を付け、その名前を書式指定文字列で参照する。

In [96]:
'{m} {d}, {y}'.format(y=year, m=month, d=date)

'December 9, 2020'

整数や浮動小数点数も型を指定せずに埋め込める。

In [97]:
'{}:{}:{}'.format(hour, minute, second)

'9:15:43.3'

整数や浮動小数点数の整形方法を指定。多くの場合、printf形式の文字列書式化の`%`の代わりに`:`に置き換えるだけで済む。例えば、`%02.3f`は`:02.3f`となる。

In [98]:
'{:02}:{:02}:{:02.3f}'.format(hour, minute, second)

'09:15:43.300'

### フォーマット済み文字列リテラル

[フォーマット済み文字列リテラル](https://docs.python.org/ja/3/reference/lexical_analysis.html#formatted-string-literals)（文字列の先頭にプレフィックス`f`または`F`を付ける）を使うと、formatメソッドを呼び出すことなく、アクセス可能な変数を参照できる。

In [99]:
f'{month} {date}, {year}'

'December 9, 2020'

書式指定を行い、数値の0埋めや桁数を揃える。

In [100]:
f'{hour:02}:{date:02}:{second:02.03f}, {month} {date}, {year}'

'09:09:43.300, December 9, 2020'

Pythonの式を直接書式指定に埋め込むこともできる。

In [101]:
f"{month[:3]} {date}, '{year % 2000}"

"Dec 9, '20"

## 文字エンコーディング

In [102]:
s = 'Python言語'

ユニコードで表現されている文字列を任意の文字コードでエンコードするには、[encode](https://docs.python.org/ja/3/library/stdtypes.html#str.encode)メソッドを用いる。[バイト列](https://docs.python.org/ja/3.6/library/stdtypes.html#bytes)と呼ばれる、バイナリデータを格納するオブジェクトが得られる。以下の例は、文字列`s`をUTF-8に変換する例である。

In [103]:
s.encode('utf8')

b'Python\xe8\xa8\x80\xe8\xaa\x9e'

同様に、文字列`s`をUTF-16に変換する例である。

In [104]:
s.encode('utf-16')

b'\xff\xfeP\x00y\x00t\x00h\x00o\x00n\x00\x00\x8a\x9e\x8a'

ある文字コードでエンコードされたバイト列から文字列を得る（デコードする）には、[decode](https://docs.python.org/ja/3/library/stdtypes.html#bytes.decode)メソッドを用いる。

In [105]:
b = b'\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e'
b.decode('utf8')

'日本語'

---

[Python早見帳](https://chokkan.github.io/python/) © Copyright 2020-2024 by [岡崎 直観 (Naoaki Okazaki)](https://www.chokkan.org/). この作品は<a rel="license" href="http://creativecommons.org/licenses/by-nc-nd/4.0/">クリエイティブ・コモンズ 表示 - 非営利 - 改変禁止 4.0 国際 ライセンス</a>の下に提供されています。<a rel="license" href="http://creativecommons.org/licenses/by-nc-nd/4.0/"><img alt="クリエイティブ・コモンズ・ライセンス" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-nd/4.0/80x15.png" /></a>